評価セットを後回しにしてリリース後に立て直した事例#

Case Studies #eval #case-study #regression updated 2026-04-13 3 min read

新規の LLM 機能を作る際、評価セットを後回しにしたことで、本番リリース後に品質問題を抱えた事例と、そこからの立て直し。

新機能（ユーザー質問への自動回答）をリリース。開発中は目視確認で「良さそう」と判断していた。プロンプトの試行錯誤を重ね、リリースに至った。

1 ヶ月後、ユーザーから複数の問題報告:

flowchart TD
    S[開発開始] --> T[プロンプト試行錯誤]
    T --> V[目視確認<br/>OK]
    V --> R[リリース]
    R --> P[本番問題発覚]
    P --> RE[大規模な修正が必要]

Step 1: 本番ログから失敗パターンを抽出

ログをサンプリングし、ユーザーが満足していない応答（クレームや再質問）を50 件集めた。

Step 2: 評価セットの骨格を作る

集めた 50 件に、開発者が意図した正常系を 100 件加えて、150 件の初期評価セットを作成。

- success: 80 件（期待通り答えられるべき）
- failure: 50 件（本番で失敗した実例）
- edge: 20 件（曖昧・多言語・攻撃的入力）

Step 3: 自動スコアリングを組む

Step 4: 現状のスコアを測る

既存プロンプトで全 150 件を流したところ、合格率 42%。ユーザー報告と一致。

Step 5: プロンプト改善 + 評価

改善のたびにスコアを測る。1 ヶ月で 82% まで引き上げた。改善内容:

flowchart LR
    A[最初から評価セット] --> OK[改善が積み上がる]
    B[後から評価セット] --> D[手戻り大]
    B --> E[損害が発生してから対応]

この運用に変えてから、本番でのクレーム数が 1/5 に減った。

評価セットを後回しにした開発は、体感では速いが、本番で高くつく。初日から小さくても評価セットを作り、育てる。これが LLM 機能開発の基本姿勢。

関連エントリ#