AI エージェント運用の 10 メトリクス#

Tech Notes #metrics #observability #ops updated 2026-04-13 5 min read

AI エージェントを本番運用する際、何を計測すべきかが曖昧だと改善できない。重要な 10 のメトリクスを 4 層で整理。

メトリクスの 4 層#

flowchart TD
    M[運用メトリクス] --> Q[品質層]
    M --> P[性能層]
    M --> C[コスト層]
    M --> U[ユーザー層]

    Q --> Q1[正答率]
    Q --> Q2[ハルシ率]
    Q --> Q3[評価セット合格率]

    P --> P1[レイテンシ P95]
    P --> P2[スループット]
    P --> P3[エラー率]

    C --> C1[リクエスト単価]
    C --> C2[キャッシュヒット率]

    U --> U1[ユーザー満足度]
    U --> U2[継続利用率]

品質層#

1. 正答率（Accuracy）

評価セットでの合格率。週次で測定し、傾向を追う。

目安: 合格ライン（80%）を継続的に満たす
閾値を下回ったら即アラート

2. ハルシネーション率

出力のうち、事実に基づかない比率。

測定方法: サンプリングして人間 or LLM-as-Judge で判定
目安: 3% 未満（タスク種別による）

3. 評価セットのスコア推移

プロンプト変更やモデル変更の前後で比較。回帰を検出する。

性能層#

4. レイテンシ（P95 / P99）

95・99 パーセンタイルの応答時間。平均値は誤魔化されるので使わない。

flowchart LR
    A[平均 500ms] -->|misleading| B[「早い」]
    A --> P95[P95: 2000ms]
    P95 --> REAL[実際の体験<br/>遅い]

目安: P95 で目標を設定（例: 3 秒以内）
ストリーミングなら TTFB（Time To First Byte）を別途計測

5. スループット

秒間の処理リクエスト数。キャパシティプランニングに使う。

6. エラー率

HTTP 5xx・429・タイムアウトの合計比率。

目安: 1% 未満
種類別にも分解して見る（429 が多い → レート制限、5xx が多い → 内部エラー）

コスト層#

7. リクエスト単価

1 リクエストあたりの平均コスト。日次で監視。

モデル別・エンドポイント別に内訳を出す
予算超過の早期警告に使う

8. キャッシュヒット率

プロンプトキャッシュが効いている比率。

目安: 70% 以上を目指す
下がったら「タイムスタンプが混入した」等の兆候

ユーザー層#

9. ユーザー満足度

実ユーザーがどう感じているかの指標。

直接フィードバック（Good/Bad ボタン）
間接指標（再質問率、離脱率）

10. 継続利用率

AI 機能が一度使われて終わりか、継続利用されているか。

低ければ品質 or UX に問題の可能性

ダッシュボード設計#

flowchart TD
    D[運用ダッシュボード] --> T1[日次サマリ]
    D --> T2[週次トレンド]
    D --> T3[アラート]

    T1 --> A[リクエスト数]
    T1 --> B[総コスト]
    T1 --> C[P95 レイテンシ]
    T1 --> E[エラー率]

    T2 --> F[週比増減]
    T2 --> G[スコア推移]

    T3 --> H[閾値超過で即通知]

アラート設計#

指標	閾値	通知先
エラー率	5% 超え	即通知
P95 レイテンシ	通常の 2 倍	即通知
総コスト / 日	予算の 150%	即通知
キャッシュヒット率	50% を下回る	日次通知
評価セットスコア	合格ライン未達	リリース停止

アンチパターン#

1. 平均値だけ見る

中央値・P95・P99 を併記しないと、実体験を見誤る。

2. メトリクスが多すぎる

30 個のメトリクスを全部監視すると、どれも見なくなる。10 個以下に絞る。

3. コスト監視を後回し

想定の 10 倍になってから気づくケースがある。最初から必須で組み込む。

4. アラートが少ない・多すぎ

少ないと異常を見逃す、多すぎると慣れて無視する。5〜10 個の本当に重要なアラートに絞る。

チェックリスト#

[ ] 4 層（品質・性能・コスト・ユーザー）をカバーしている
[ ] P95 / P99 を使っている
[ ] 評価セットスコアを定期測定している
[ ] キャッシュヒット率を見ている
[ ] コスト監視が動いている
[ ] 重要アラートが 5〜10 個ある
[ ] ダッシュボードで 10 秒で状況が分かる

まとめ#

AI エージェントの運用は10 のメトリクスを 4 層で管理する。計測なしの運用は改善できない。最初から計測を設計するのが王道。