ツール実行の 5 つの失敗モード#

Patterns #tool-use #failure-mode #patterns updated 2026-04-13 4 min read

LLM にツール（関数）を使わせる設計は、ツール呼び出し特有の失敗モードを抱える。筆者的な 5 パターンと対策を整理。

mindmap
  root((ツール実行<br/>の失敗))
    選択
      無関係なツール選択
      ツールを呼ばない
    引数
      型違い
      必須欠落
    連携
      結果を無視
      無限ループ

1. 無関係なツールを選ぶ#

症状: 「天気を知りたい」と言われて、search_users を呼ぶ。

flowchart LR
    Q[要求] --> R1[大分類ルーター]
    R1 -->|user系| T1[user ツール群]
    R1 -->|data系| T2[data ツール群]
    R1 -->|admin系| T3[admin ツール群]

症状: ツールを呼べば正確に答えられる質問なのに、LLM が記憶だけで答えてしまう。

description: "ユーザー情報を取得する。
ユーザー名・ID・プロフィールを回答する前に、必ずこのツールで最新情報を取得すること。"

症状: 必須引数を省略、または型を間違えて呼び出す。

症状: ツールを呼んだのに、結果を使わず自分の記憶で回答する。

症状: ツール呼び出し→結果→再度同じツール呼び出し、を繰り返す。

flowchart TD
    T[ツール呼び出し] --> R[結果取得]
    R -->|期待通り| C[回答生成]
    R -->|期待と違う| F{リトライ?}
    F -->|回数以内| T
    F -->|上限超え| E[エラー終了]

1. ツール呼び出しログを残す

どのツールを何回、どの引数で呼んだか記録する。無限ループや選択ミスの検出に使う。

2. 評価セットにツール利用ケースを含める

「この質問ではこのツールを呼んでほしい」という期待値を評価セットに入れる。

3. Graceful degradation

ツールが失敗したとき、LLM が潔く諦めて「ツールが使えませんでした」と返す設計にする。勝手に代替を考えさせない。

ツール実行は LLM の能力を大きく広げるが、ツール定義の品質と運用制限が伴わないと、むしろ失敗の温床になる。定義と運用の両輪で設計する。