Claude Opus 4.6:Agent Teams、100万Token、Effort Tuning
Claude Opus 4.6 が Claude Code ユーザーに大幅アップグレード:Agent Teams(スウォーム)、100万トークン Context、Effort Tuning、そしてコーディング・推論・エージェントタスク全般で SOTA を達成。
Anthropic が Claude Opus 4.6 を正式リリースしました。これは単なる段階的アップグレードではありません。根本的により高性能なモデルで、より慎重に計画し、エージェントタスクをより長く維持し、大規模コードベースで確実に動作し、自らのミスを発見します。Claude Code ユーザーには、2つのゲームチェンジャーも同時に提供されます:Agent Teams と Effort Tuning。
知るべきことをすべてまとめます。
Opus 4.6 の違い
Claude Code 開発者の Boris Cherny はこう語っています:
「Opus 4.6 をしばらく使っていますが、これは我々の最高のモデルです。よりエージェンティックで、より知的で、より長く動作し、より慎重かつ徹底的です。」
主な改善点:
- より良い計画能力:Opus 4.6 は行動前により慎重に思考し、複雑なタスクでの無駄なステップを削減
- より長いエージェントセッション:長時間のマルチステップ操作でもパフォーマンスが低下しない
- 大規模コードベースの信頼性:以前のモデルがコンテキストを失う大規模な実世界コードベースでも効果的に動作
- 自己修正:より優れたコードレビューとデバッグ能力 — 自らのミスを発見
- 100万トークン Context(Beta):Opus クラス初の100万トークン Context Window。「Context 劣化」が大幅に低減 — MRCR v2 の 8-needle 1M で 76% の精度(Sonnet 4.5 は 18.5%)
ベンチマーク結果:全面的にSOTA
Opus 4.6 はほぼすべての主要ベンチマークでリードまたは同等の結果を達成。Opus 4.5、Sonnet 4.5、Gemini 3 Pro、GPT-5.2 との完全比較:
Agentic Coding
| ベンチマーク | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0(ターミナルコーディング) | 65.4% | 59.8% | 51.0% | 56.2% | 64.7% |
| SWE-bench Verified(コード修正) | 80.8% | 80.9% | 77.2% | 76.2% | 80.0% |
| OSWorld(コンピュータ操作) | 72.7% | 66.3% | 61.4% | — | — |
エージェントツール使用
| ベンチマーク | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| t2-bench Retail | 91.9% | 88.9% | 86.2% | 85.3% | 82.0% |
| t2-bench Telecom | 99.3% | 98.2% | 98.0% | 98.0% | 98.7% |
| MCP Atlas(スケール化ツール使用) | 59.5% | 62.3% | 43.8% | 54.1% | 60.6% |
| BrowseComp(エージェント検索) | 84.0% | 67.8% | 43.9% | 59.2% | 77.9% |
推論と知識
| ベンチマーク | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Humanity’s Last Exam(ツールなし) | 40.0% | 30.8% | 17.7% | 37.5% | 36.6% |
| Humanity’s Last Exam(ツールあり) | 53.1% | 43.4% | 33.6% | 45.8% | 50.0% |
| ARC AGI 2(新規問題解決) | 68.8% | 37.6% | 13.6% | 45.1% | 54.2% |
| GPQA Diamond(大学院レベル推論) | 91.3% | 87.0% | 83.4% | 91.9% | 93.2% |
| MMMLU(多言語Q&A) | 91.1% | 90.8% | 89.5% | 91.8% | 89.6% |
その他の分野
| ベンチマーク | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Finance Agent(金融分析) | 60.7% | 55.9% | 54.2% | 44.1% | 56.6% |
| GDPVal-AA(オフィスタスク、Elo) | 1606 | 1416 | 1277 | 1195 | 1462 |
| MMMU Pro(視覚推論、ツールなし) | 73.9% | 70.6% | 63.4% | 81.0% | 79.5% |
注目の結果:
- ARC AGI 2:68.8% — Opus 4.5 の 37.6% のほぼ2倍、新規問題解決能力の大幅な飛躍
- BrowseComp:84.0% — 最寄りの競合を 24% 上回る
- Terminal-Bench 2.0:65.4% — 最高スコア、GPT-5.2 の Codex CLI(64.7%)をわずかに上回る
- GDPVal-AA:1606 Elo — GPT-5.2 を 144 ポイント、Opus 4.5 を 190 ポイント上回る
さらに、Opus 4.6 は計算生物学、構造生物学、有機化学、系統学で Opus 4.5 の 2倍 優秀。BigLaw Bench で 90.2%(40% が満点)。サイバーセキュリティ脆弱性検出でも全競合を上回ります。
Claude Code の新機能:Agent Teams(Research Preview)
最近で最も重要な Claude Code 機能アップデートです。Agent Teams(スウォームとも呼ばれる)により、複数の Claude Code インスタンスをチームとして協調させることができます。
仕組み
- Lead Agent が作業を調整、Teammates を生成、結果を統合
- Teammates はそれぞれ独立して作業、各自の Context Window を持つ
- Teammates は直接相互通信可能 — Lead への報告だけではない
- 共有タスクリストでチーム全体の作業を調整
- タスクの依存関係を追跡し、自動的にブロック解除
Agent Teams vs Sub-Agents
| Sub-Agents | Agent Teams | |
|---|---|---|
| Context | 各自所有;結果は呼び出し元に返却 | 各自所有;完全独立 |
| 通信 | 結果の報告のみ | 直接相互通信可能 |
| 調整 | メイン Agent が全管理 | 共有タスクリスト、自己調整 |
| 適する場面 | 集中型タスク | 複雑な協調作業 |
| トークンコスト | 低い | 高い |
ユースケース
- 並列コードレビュー:セキュリティ + パフォーマンス + テストカバレッジを同時にチェック
- 競合仮説デバッグ:5つの Agent が異なる理論を調査し、科学的討論のように議論
- レイヤー横断機能開発:フロントエンド、バックエンド、テスト Agent がそれぞれの領域を担当
- リサーチタスク:複数 Agent が異なる側面を調査し、発見を統合
有効化方法
settings.json に追加:
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}
Claude にチーム作成を依頼:
Create an agent team to refactor the authentication module.
Spawn three teammates: one for the API layer, one for the database layer,
one for test coverage. Require plan approval before changes.
表示モード
- In-process(デフォルト):全 Teammates がターミナル内。
Shift+Up/Downで選択・直接メッセージ。 - Split panes:各 Teammate が tmux または iTerm2 で独自のペインを持つ。
キーボードショートカット
Shift+Up/Down— Teammate 選択Shift+Tab— Delegate Mode 切替(Lead は調整のみ、コーディングなし)Ctrl+T— タスクリスト切替Enter(Teammate上)— セッション表示Escape— Teammate の現在の操作を中断
新機能:Effort Tuning
モデルの思考量を正確にコントロールできるようになりました。/model を実行して左右矢印キーで調整:
- 少ない Effort = 高速レスポンス、低トークンコスト
- 多い Effort = 長い思考、複雑なタスクでより良い結果
API の新しい Adaptive Thinking に対応する4つのレベル:
| レベル | 動作 |
|---|---|
| Low | 高速、最小限の思考 |
| Medium | バランス |
| High(デフォルト) | 標準の Extended Thinking |
| Max | 最難問題向けの最大思考深度 |
API と開発者向け詳細
Model ID
claude-opus-4-6
価格
Opus 4.5 と同一:
- Input:$5 / 100万トークン
- Output:$25 / 100万トークン
- 200k トークンを超えるプロンプト:$10 / $37.50 / 100万
新 API 機能
- Context Compaction(Beta):設定可能な閾値で古い Context を自動要約 — 長時間エージェント操作に不可欠
- 128k 出力トークン対応
- 米国のみの推論オプション(1.1倍価格)、データレジデンシー要件向け
利用可能なプラットフォーム
- claude.ai — 利用可能
- Claude API —
claude-opus-4-6 - Amazon Bedrock — 利用可能
- Google Cloud Vertex AI — 利用可能
Claude Code ユーザーへの実際の影響
Opus 4.6 は Max プランの Claude Code ユーザーのデフォルトモデルです。実際の影響:
-
より長く安定したコーディングセッション:タスク中にモデルが劣化しない。複数ファイルの複雑なリファクタリングでもフォーカスを維持。
-
Agent Teams で真の並列処理を解放:1つの Agent が順番に作業するのではなく、専門家チームが同時に作業し互いに対話。
-
Effort Tuning でトークン節約:簡単な修正?低く。複雑なアーキテクチャ?高く。タスクごとにコストと知性のトレードオフを制御。
-
100万 Context で「忘れた」瞬間が減少:Beta の100万トークン Context Window で、大規模コードベースでも初期コンテキストを失わずに作業。
-
より良い自己修正:指摘する前に自分のコードのバグを発見する可能性が向上。
安全性とアライメント
Opus 4.6 は Anthropic の強力な安全プロファイルを維持:
- Opus 4.5 のアライメント記録と同等またはそれ以上
- 最近の Claude モデル中で最低の過剰拒否率
- 強化された能力を監視する6つの新しいサイバーセキュリティプローブ
- 解釈可能性研究を評価手法に統合
同時リリース:Office ツール
補足として:
- Claude in Excel:長時間タスク処理の改善、事前計画、非構造化データ、単一パスでの複数ステップ変更
- Claude in PowerPoint(Research Preview):説明やテンプレートから生成、レイアウトとフォントを尊重
まとめ
Opus 4.6 は特にエージェント的ユースケースにおいて大きな前進です。よりスマートなモデル + Agent Teams + Effort Tuning の組み合わせで、Claude Code は実世界のソフトウェアエンジニアリングで大幅に強化されました。
すでに Claude Code を使っているなら、アップデートして試してみてください:
- 次の複雑なタスクで Agent Teams を有効化
/model+ 矢印キーで Effort Tuning を実験- 大規模コードベースで100万トークン Context Window の限界を試す
AI 支援コーディングの未来は、1つの Agent がすべてを順番に処理することではなく、調整された専門家チームが並列で作業することです。Opus 4.6 + Agent Teams はそのビジョンの最初の真の実現です。