Claude Opus 4.6:Agent Teams、100萬 Token、Effort Tuning
Claude Opus 4.6 為 Claude Code 帶來重大升級:Agent Teams(群體智能)、100 萬 Token Context、Effort Tuning,以及在 Coding、推理、Agentic 任務的全面 SOTA 成績。
Anthropic 正式發布 Claude Opus 4.6 — 這不只是漸進式升級。這是一個從根本上更強大的模型:規劃更謹慎、Agentic 任務持續更久、在大型 Codebase 中運作更穩定,還能自我糾錯。對 Claude Code 用戶而言,還附帶兩個 Game Changer:Agent Teams 和 Effort Tuning。
以下是你需要知道的一切。
Opus 4.6 有什麼不同
Claude Code 開發者 Boris Cherny 是這樣說的:
「我用 Opus 4.6 有一陣子了 — 這是我們迄今最好的模型。它更 agentic、更聰明、能運行更久,而且更加仔細和全面。」
核心改進:
- 更好的規劃能力:Opus 4.6 在行動前會更謹慎地思考,減少複雜任務中的無效步驟
- 更長的 Agentic 工作階段:模型在長時間多步驟操作中不會退化
- 大型 Codebase 穩定性:在大型、真實世界的 Codebase 中有效運作
- 自我糾錯:更強的 Code Review 和 Debug 能力 — 它會發現自己的錯誤
- 100 萬 Token Context(Beta):首個 Opus 級別的百萬 Token Context Window,Context 衰退大幅減少 — 在 MRCR v2 的 8-needle 1M 測試中達到 76% 準確率,Sonnet 4.5 僅 18.5%
Benchmark 成績:全面領先
Opus 4.6 在幾乎所有主要 Benchmark 中領先或追平最佳成績。以下是與 Opus 4.5、Sonnet 4.5、Gemini 3 Pro、GPT-5.2 的完整比較:
Agentic Coding
| Benchmark | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0(終端 Coding) | 65.4% | 59.8% | 51.0% | 56.2% | 64.7% |
| SWE-bench Verified(程式碼修復) | 80.8% | 80.9% | 77.2% | 76.2% | 80.0% |
| OSWorld(電腦使用) | 72.7% | 66.3% | 61.4% | — | — |
Agentic 工具使用
| Benchmark | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| t2-bench Retail | 91.9% | 88.9% | 86.2% | 85.3% | 82.0% |
| t2-bench Telecom | 99.3% | 98.2% | 98.0% | 98.0% | 98.7% |
| MCP Atlas(規模化工具使用) | 59.5% | 62.3% | 43.8% | 54.1% | 60.6% |
| BrowseComp(搜尋能力) | 84.0% | 67.8% | 43.9% | 59.2% | 77.9% |
推理與知識
| Benchmark | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Humanity’s Last Exam(無工具) | 40.0% | 30.8% | 17.7% | 37.5% | 36.6% |
| Humanity’s Last Exam(有工具) | 53.1% | 43.4% | 33.6% | 45.8% | 50.0% |
| ARC AGI 2(新穎問題解決) | 68.8% | 37.6% | 13.6% | 45.1% | 54.2% |
| GPQA Diamond(研究生推理) | 91.3% | 87.0% | 83.4% | 91.9% | 93.2% |
| MMMLU(多語言 Q&A) | 91.1% | 90.8% | 89.5% | 91.8% | 89.6% |
其他領域
| Benchmark | Opus 4.6 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| Finance Agent(金融分析) | 60.7% | 55.9% | 54.2% | 44.1% | 56.6% |
| GDPVal-AA(辦公任務,Elo) | 1606 | 1416 | 1277 | 1195 | 1462 |
| MMMU Pro(視覺推理,無工具) | 73.9% | 70.6% | 63.4% | 81.0% | 79.5% |
亮眼成績:
- ARC AGI 2:68.8% — 幾乎是 Opus 4.5 的兩倍(37.6%),新穎問題解決能力大幅躍進
- BrowseComp:84.0% — 領先最近競爭者 24%,搜尋難以找到的資訊
- Terminal-Bench 2.0:65.4% — 最高分,微幅勝過 GPT-5.2 的 Codex CLI(64.7%)
- GDPVal-AA:1606 Elo — 超越 GPT-5.2 達 144 分,超越 Opus 4.5 達 190 分
此外,Opus 4.6 在計算生物學、結構生物學、有機化學和系統發生學方面比 Opus 4.5 好 2 倍。在 BigLaw Bench 得到 90.2% 且 40% 滿分。網路安全漏洞偵測也超越所有競爭者。
Claude Code 新功能:Agent Teams(Research Preview)
這是近期最重大的 Claude Code 功能更新。Agent Teams(又稱 Swarms)讓你可以編排多個 Claude Code 實例作為一個團隊協同工作。
運作方式
- Lead Agent 負責協調工作、產生 Teammates、綜合結果
- Teammates 各自獨立工作,擁有自己的 Context Window
- Teammates 可以直接互相溝通 — 不只是回報給 Lead
- 共享任務清單跨團隊協調工作
- 任務有依賴追蹤,自動解除阻塞
Agent Teams vs Sub-Agents
| Sub-Agents | Agent Teams | |
|---|---|---|
| Context | 各自擁有;結果回傳給呼叫者 | 各自擁有;完全獨立 |
| 溝通 | 只能回報結果 | 可以直接互相溝通 |
| 協調 | 主 Agent 管理一切 | 共享任務清單,自我協調 |
| 適合 | 專注型任務 | 複雜協作工作 |
| Token 成本 | 較低 | 較高 |
使用場景
- 平行 Code Review:安全審查 + 效能檢查 + 測試覆蓋率驗證,同時進行
- 競爭假設 Debug:5 個 Agent 調查不同理論,像科學研討會般互相辯論
- 跨層功能開發:前端、後端、測試 Agent 各自負責自己的領域
- 研究任務:多個 Agent 調查不同面向並綜合發現
啟用方式
在 settings.json 中加入:
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}
然後告訴 Claude 建立團隊:
Create an agent team to refactor the authentication module.
Spawn three teammates: one for the API layer, one for the database layer,
one for test coverage. Require plan approval before changes.
顯示模式
- In-process(預設):所有 Teammates 在你的終端中。用
Shift+Up/Down選擇並直接對話。 - Split panes:每個 Teammate 有自己的視窗(透過 tmux 或 iTerm2)。一次看到所有輸出。
快捷鍵
Shift+Up/Down— 選擇 TeammateShift+Tab— 切換 Delegate Mode(Lead 只協調,不寫 Code)Ctrl+T— 切換任務清單Enter在 Teammate 上 — 查看其工作階段Escape— 中斷 Teammate 當前操作
新功能:Effort Tuning
你現在可以精確控制模型的思考強度。執行 /model 並用左右方向鍵調整:
- 較少 Effort = 更快回應、更低 Token 成本
- 較多 Effort = 更長思考、更好的複雜任務結果
這對應 API 的新 Adaptive Thinking,四個等級:
| 等級 | 行為 |
|---|---|
| Low | 快速,最少思考 |
| Medium | 平衡 |
| High(預設) | 標準 Extended Thinking |
| Max | 最大思考深度,用於最難的問題 |
API 與開發者細節
Model ID
claude-opus-4-6
定價
與 Opus 4.5 相同:
- Input:$5 / 百萬 Tokens
- Output:$25 / 百萬 Tokens
- 超過 200k Tokens 的 Prompt:$10 / $37.50 每百萬
新 API 功能
- Context Compaction(Beta):在可配置閾值自動摘要舊 Context — 對長時間 Agentic 操作至關重要
- 支援 128k 輸出 Tokens
- 僅美國推理選項,1.1 倍定價,用於資料駐留需求
可用平台
- claude.ai — 已上線
- Claude API —
claude-opus-4-6 - Amazon Bedrock — 已上線
- Google Cloud Vertex AI — 已上線
對 Claude Code 用戶的實際影響
Opus 4.6 是 Max 方案 Claude Code 用戶的預設模型。實際影響:
-
更長、更穩定的 Coding Session:模型在任務中不會退化。跨多檔案的複雜重構中保持專注。
-
Agent Teams 解鎖真正的平行處理:不再是一個 Agent 依序工作,你現在可以有一組專家同時工作並互相交流。
-
Effort Tuning 節省 Token:簡單修復?調低。複雜架構?調高。你控制每個任務的成本-智能取捨。
-
100 萬 Context 意味著更少「我忘了」的時刻:Beta 的百萬 Token Context Window,讓你在大型 Codebase 中工作而不會丟失早期上下文。
-
更好的自我糾錯:模型更可能在你指出之前就發現自己 Code 中的 Bug。
安全與對齊
Opus 4.6 維持 Anthropic 的強安全性:
- 匹配或超越 Opus 4.5 的對齊記錄
- 近期 Claude 模型中最低的過度拒絕率
- 六個新的網路安全探測來監控其增強能力
- 可解釋性研究整合至評估方法中
附帶更新:Office 工具
值得一提:
- Claude in Excel:改進長時間任務處理、預先規劃、非結構化資料、單次多步驟更改
- Claude in PowerPoint(Research Preview):從描述或模板生成,尊重版面和字體
結語
Opus 4.6 代表了顯著的進步,特別是在 Agentic 使用場景。更聰明的模型 + Agent Teams + Effort Tuning 的組合,讓 Claude Code 在真實世界的軟體工程中大幅增強。
如果你已經在用 Claude Code,更新後試試:
- 在下一個複雜任務中啟用 Agent Teams
- 用
/model+ 方向鍵實驗 Effort Tuning - 在大型 Codebase 上測試 100 萬 Token Context Window 的極限
AI 輔助 Coding 的未來不是一個 Agent 依序做所有事 — 而是一組協調的專家團隊平行工作。Opus 4.6 + Agent Teams 是這個願景的第一個真正實現。