AIエージェントセッションのトークン効率を構造化する#

Lesson #ai-agent #token-efficiency #model-routing #architecture updated 2026-04-14 2 min read

AIエージェント（Claude Code等）を使った開発で週次トークン上限に早期到達する場合、原因は『最高性能モデルでルーチン作業を実行』『同じファイルを複数回フルRead』『サブエージェントの完成原稿を主コンテキストに丸ごと注入』『デバッグ往復で会話履歴肥大』の組み合わせであることが多い。これは個人の意識ではなく、ルールベースの構造で抑制する必要がある。

なぜ重要か#

2026年4月のセッションで週次トークン上限に早期到達した。CLAUDE.mdに『Sonnet主体、Opusは深い推論時のみ』と書いてあったが守られていなかった。1ファイル600行のCSSを複数回フルRead、テックニュースエージェントの完成原稿（数千トークン）を主コンテキストに丸ごと受領、Mermaidデバッグの5往復で履歴肥大、などが重なった。

人間の意識（ドキュメントを読んで覚える）に頼ると守れない。3層構造で強制する必要がある。

3層強制アーキテクチャ#

第1層: メモリ自動ロード#

セッション開始時に必ずロードされる場所（CLAUDE Code でいう MEMORY.md）にトークン効率ルールを置く。会話開始時に文字どおり目に入るので無視できない。

第2層: ルールファイル#

~/.claude/rules/performance.md のような恒常的なルールファイルに、判断基準を表形式で明記する。あいまいな指針ではなく『200行超は offset/limit 必須』『3クエリ以上は Explore 委譲』等の閾値で書く。

第3層: 強制停止条件#

『同じ root cause を3往復で潰せなかったら立ち止まる』『Opus×ルーチン3連続でモデル切替を進言』など、自動的に発動する停止条件を入れる。意識的判断を必要としない構造。

具体的な閾値#

場面	ルール
Read	200行超は offset/limit 必須、同一ファイル2回禁止
検索	3クエリ以上見込まれたら Explore サブエージェント
長文生成	500行超はサブエージェントに Write させパス受領
デバッグ	同 root cause 3往復で停止、観察コマンド要請
モデル	Opus×ルーチン3連続で次セッション Sonnet 進言