AI エージェント運用の 10 メトリクス#
AI エージェントを本番運用する際、何を計測すべきかが曖昧だと改善できない。重要な 10 のメトリクスを 4 層で整理。
メトリクスの 4 層#
flowchart TD
M[運用メトリクス] --> Q[品質層]
M --> P[性能層]
M --> C[コスト層]
M --> U[ユーザー層]
Q --> Q1[正答率]
Q --> Q2[ハルシ率]
Q --> Q3[評価セット合格率]
P --> P1[レイテンシ P95]
P --> P2[スループット]
P --> P3[エラー率]
C --> C1[リクエスト単価]
C --> C2[キャッシュヒット率]
U --> U1[ユーザー満足度]
U --> U2[継続利用率]
品質層#
1. 正答率(Accuracy)
評価セットでの合格率。週次で測定し、傾向を追う。
- 目安: 合格ライン(80%)を継続的に満たす
- 閾値を下回ったら即アラート
2. ハルシネーション率
出力のうち、事実に基づかない比率。
- 測定方法: サンプリングして人間 or LLM-as-Judge で判定
- 目安: 3% 未満(タスク種別による)
3. 評価セットのスコア推移
プロンプト変更やモデル変更の前後で比較。回帰を検出する。
性能層#
4. レイテンシ(P95 / P99)
95・99 パーセンタイルの応答時間。平均値は誤魔化されるので使わない。
flowchart LR
A[平均 500ms] -->|misleading| B[「早い」]
A --> P95[P95: 2000ms]
P95 --> REAL[実際の体験<br/>遅い]
- 目安: P95 で目標を設定(例: 3 秒以内)
- ストリーミングなら TTFB(Time To First Byte)を別途計測
5. スループット
秒間の処理リクエスト数。キャパシティプランニングに使う。
6. エラー率
HTTP 5xx・429・タイムアウトの合計比率。
- 目安: 1% 未満
- 種類別にも分解して見る(429 が多い → レート制限、5xx が多い → 内部エラー)
コスト層#
7. リクエスト単価
1 リクエストあたりの平均コスト。日次で監視。
- モデル別・エンドポイント別に内訳を出す
- 予算超過の早期警告に使う
8. キャッシュヒット率
プロンプトキャッシュが効いている比率。
- 目安: 70% 以上を目指す
- 下がったら「タイムスタンプが混入した」等の兆候
ユーザー層#
9. ユーザー満足度
実ユーザーがどう感じているかの指標。
- 直接フィードバック(Good/Bad ボタン)
- 間接指標(再質問率、離脱率)
10. 継続利用率
AI 機能が一度使われて終わりか、継続利用されているか。
- 低ければ品質 or UX に問題の可能性
ダッシュボード設計#
flowchart TD
D[運用ダッシュボード] --> T1[日次サマリ]
D --> T2[週次トレンド]
D --> T3[アラート]
T1 --> A[リクエスト数]
T1 --> B[総コスト]
T1 --> C[P95 レイテンシ]
T1 --> E[エラー率]
T2 --> F[週比増減]
T2 --> G[スコア推移]
T3 --> H[閾値超過で即通知]
アラート設計#
| 指標 | 閾値 | 通知先 |
|---|---|---|
| エラー率 | 5% 超え | 即通知 |
| P95 レイテンシ | 通常の 2 倍 | 即通知 |
| 総コスト / 日 | 予算の 150% | 即通知 |
| キャッシュヒット率 | 50% を下回る | 日次通知 |
| 評価セットスコア | 合格ライン未達 | リリース停止 |
アンチパターン#
1. 平均値だけ見る
中央値・P95・P99 を併記しないと、実体験を見誤る。
2. メトリクスが多すぎる
30 個のメトリクスを全部監視すると、どれも見なくなる。10 個以下に絞る。
3. コスト監視を後回し
想定の 10 倍になってから気づくケースがある。最初から必須で組み込む。
4. アラートが少ない・多すぎ
少ないと異常を見逃す、多すぎると慣れて無視する。5〜10 個の本当に重要なアラートに絞る。
チェックリスト#
- [ ] 4 層(品質・性能・コスト・ユーザー)をカバーしている
- [ ] P95 / P99 を使っている
- [ ] 評価セットスコアを定期測定している
- [ ] キャッシュヒット率を見ている
- [ ] コスト監視が動いている
- [ ] 重要アラートが 5〜10 個ある
- [ ] ダッシュボードで 10 秒で状況が分かる
まとめ#
AI エージェントの運用は10 のメトリクスを 4 層で管理する。計測なしの運用は改善できない。最初から計測を設計するのが王道。