評価セット設計の 6 つのアンチパターン#

Patterns #eval #anti-pattern #quality updated 2026-04-13 3 min read

LLM 機能の品質を保つには評価セットが要だが、評価セットの設計自体にアンチパターンがある。よく遭遇する 6 つを挙げる。

mindmap
  root((評価セット<br/>のアンチパターン))
    サイズ
      小さすぎる
      本番比率と乖離
    内容
      成功例しかない
      本番と乖離
    運用
      更新しない
      合格ライン不明

1. サンプルが少なすぎる#

症状: 評価セットが 5〜10 件しかなく、合格率が不安定。

症状: 「これで正しく答えられる」例だけ集めている。

flowchart LR
    E[評価セット] --> S[成功例 60%]
    E --> F[失敗例 30%]
    E --> B[境界例 10%]

症状: 評価セットは綺麗な日本語、本番ではタイポ・敬語崩壊・絵文字が混ざる。

症状: スコアは出るが、「OK とみなす基準」が曖昧。リリース判断ができない。

症状: 最初に作った評価セットを 6 ヶ月放置。本番で新しく見つかった失敗は入っていない。

症状: 評価セットの 80% が 1 種類のタスクパターン。他のパターンは 1〜2 件だけ。

flowchart LR
    L1[L1<br/>10 件・手動評価] --> L2[L2<br/>50 件・自動スコア]
    L2 --> L3[L3<br/>100件・カテゴリ網羅]
    L3 --> L4[L4<br/>本番データ連携<br/>継続更新]

段階的に育てる。最初から L4 を目指す必要はないが、L2 未満で本番運用するのは危険。

評価セットはアプリの品質保証の核。サイズ・内容・運用の 3 点で失敗しないよう設計する。評価セットが育てば、プロンプト改善もモデル変更も安心してできるようになる。