Claude Opus 4.6：Agent Teams、100萬 Token、Effort Tuning

Anthropic 正式發布 Claude Opus 4.6 — 這不只是漸進式升級。這是一個從根本上更強大的模型：規劃更謹慎、Agentic 任務持續更久、在大型 Codebase 中運作更穩定，還能自我糾錯。對 Claude Code 用戶而言，還附帶兩個 Game Changer：Agent Teams 和 Effort Tuning。

以下是你需要知道的一切。

Opus 4.6 有什麼不同

Claude Code 開發者 Boris Cherny 是這樣說的：

「我用 Opus 4.6 有一陣子了 — 這是我們迄今最好的模型。它更 agentic、更聰明、能運行更久，而且更加仔細和全面。」

核心改進：

更好的規劃能力：Opus 4.6 在行動前會更謹慎地思考，減少複雜任務中的無效步驟
更長的 Agentic 工作階段：模型在長時間多步驟操作中不會退化
大型 Codebase 穩定性：在大型、真實世界的 Codebase 中有效運作
自我糾錯：更強的 Code Review 和 Debug 能力 — 它會發現自己的錯誤
100 萬 Token Context（Beta）：首個 Opus 級別的百萬 Token Context Window，Context 衰退大幅減少 — 在 MRCR v2 的 8-needle 1M 測試中達到 76% 準確率，Sonnet 4.5 僅 18.5%

Benchmark 成績：全面領先

Opus 4.6 在幾乎所有主要 Benchmark 中領先或追平最佳成績。以下是與 Opus 4.5、Sonnet 4.5、Gemini 3 Pro、GPT-5.2 的完整比較：

Agentic Coding

Benchmark	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2
Terminal-Bench 2.0（終端 Coding）	65.4%	59.8%	51.0%	56.2%	64.7%
SWE-bench Verified（程式碼修復）	80.8%	80.9%	77.2%	76.2%	80.0%
OSWorld（電腦使用）	72.7%	66.3%	61.4%	—	—

Agentic 工具使用

Benchmark	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2
t2-bench Retail	91.9%	88.9%	86.2%	85.3%	82.0%
t2-bench Telecom	99.3%	98.2%	98.0%	98.0%	98.7%
MCP Atlas（規模化工具使用）	59.5%	62.3%	43.8%	54.1%	60.6%
BrowseComp（搜尋能力）	84.0%	67.8%	43.9%	59.2%	77.9%

推理與知識

Benchmark	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2
Humanity’s Last Exam（無工具）	40.0%	30.8%	17.7%	37.5%	36.6%
Humanity’s Last Exam（有工具）	53.1%	43.4%	33.6%	45.8%	50.0%
ARC AGI 2（新穎問題解決）	68.8%	37.6%	13.6%	45.1%	54.2%
GPQA Diamond（研究生推理）	91.3%	87.0%	83.4%	91.9%	93.2%
MMMLU（多語言 Q&A）	91.1%	90.8%	89.5%	91.8%	89.6%

其他領域

Benchmark	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2
Finance Agent（金融分析）	60.7%	55.9%	54.2%	44.1%	56.6%
GDPVal-AA（辦公任務，Elo）	1606	1416	1277	1195	1462
MMMU Pro（視覺推理，無工具）	73.9%	70.6%	63.4%	81.0%	79.5%

亮眼成績：

ARC AGI 2：68.8% — 幾乎是 Opus 4.5 的兩倍（37.6%），新穎問題解決能力大幅躍進
BrowseComp：84.0% — 領先最近競爭者 24%，搜尋難以找到的資訊
Terminal-Bench 2.0：65.4% — 最高分，微幅勝過 GPT-5.2 的 Codex CLI（64.7%）
GDPVal-AA：1606 Elo — 超越 GPT-5.2 達 144 分，超越 Opus 4.5 達 190 分

此外，Opus 4.6 在計算生物學、結構生物學、有機化學和系統發生學方面比 Opus 4.5 好 2 倍。在 BigLaw Bench 得到 90.2% 且 40% 滿分。網路安全漏洞偵測也超越所有競爭者。

Claude Code 新功能：Agent Teams（Research Preview）

這是近期最重大的 Claude Code 功能更新。Agent Teams（又稱 Swarms）讓你可以編排多個 Claude Code 實例作為一個團隊協同工作。

運作方式

Lead Agent 負責協調工作、產生 Teammates、綜合結果
Teammates 各自獨立工作，擁有自己的 Context Window
Teammates 可以直接互相溝通 — 不只是回報給 Lead
共享任務清單跨團隊協調工作
任務有依賴追蹤，自動解除阻塞

Agent Teams vs Sub-Agents

	Sub-Agents	Agent Teams
Context	各自擁有；結果回傳給呼叫者	各自擁有；完全獨立
溝通	只能回報結果	可以直接互相溝通
協調	主 Agent 管理一切	共享任務清單，自我協調
適合	專注型任務	複雜協作工作
Token 成本	較低	較高

使用場景

平行 Code Review：安全審查 + 效能檢查 + 測試覆蓋率驗證，同時進行
競爭假設 Debug：5 個 Agent 調查不同理論，像科學研討會般互相辯論
跨層功能開發：前端、後端、測試 Agent 各自負責自己的領域
研究任務：多個 Agent 調查不同面向並綜合發現

啟用方式

在 settings.json 中加入：

{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

然後告訴 Claude 建立團隊：

Create an agent team to refactor the authentication module.
Spawn three teammates: one for the API layer, one for the database layer,
one for test coverage. Require plan approval before changes.

顯示模式

In-process（預設）：所有 Teammates 在你的終端中。用 Shift+Up/Down 選擇並直接對話。
Split panes：每個 Teammate 有自己的視窗（透過 tmux 或 iTerm2）。一次看到所有輸出。

快捷鍵

Shift+Up/Down — 選擇 Teammate
Shift+Tab — 切換 Delegate Mode（Lead 只協調，不寫 Code）
Ctrl+T — 切換任務清單
Enter 在 Teammate 上 — 查看其工作階段
Escape — 中斷 Teammate 當前操作

新功能：Effort Tuning

你現在可以精確控制模型的思考強度。執行 /model 並用左右方向鍵調整：

較少 Effort = 更快回應、更低 Token 成本
較多 Effort = 更長思考、更好的複雜任務結果

這對應 API 的新 Adaptive Thinking，四個等級：

等級	行為
Low	快速，最少思考
Medium	平衡
High（預設）	標準 Extended Thinking
Max	最大思考深度，用於最難的問題

API 與開發者細節

Model ID

claude-opus-4-6

定價

與 Opus 4.5 相同：

Input：$5 / 百萬 Tokens
Output：$25 / 百萬 Tokens
超過 200k Tokens 的 Prompt：$10 / $37.50 每百萬

新 API 功能

Context Compaction（Beta）：在可配置閾值自動摘要舊 Context — 對長時間 Agentic 操作至關重要
支援 128k 輸出 Tokens
僅美國推理選項，1.1 倍定價，用於資料駐留需求

可用平台

claude.ai — 已上線
Claude API — claude-opus-4-6
Amazon Bedrock — 已上線
Google Cloud Vertex AI — 已上線

對 Claude Code 用戶的實際影響

Opus 4.6 是 Max 方案 Claude Code 用戶的預設模型。實際影響：

更長、更穩定的 Coding Session：模型在任務中不會退化。跨多檔案的複雜重構中保持專注。
Agent Teams 解鎖真正的平行處理：不再是一個 Agent 依序工作，你現在可以有一組專家同時工作並互相交流。
Effort Tuning 節省 Token：簡單修復？調低。複雜架構？調高。你控制每個任務的成本-智能取捨。
100 萬 Context 意味著更少「我忘了」的時刻：Beta 的百萬 Token Context Window，讓你在大型 Codebase 中工作而不會丟失早期上下文。
更好的自我糾錯：模型更可能在你指出之前就發現自己 Code 中的 Bug。

安全與對齊

Opus 4.6 維持 Anthropic 的強安全性：

匹配或超越 Opus 4.5 的對齊記錄
近期 Claude 模型中最低的過度拒絕率
六個新的網路安全探測來監控其增強能力
可解釋性研究整合至評估方法中

附帶更新：Office 工具

值得一提：

Claude in Excel：改進長時間任務處理、預先規劃、非結構化資料、單次多步驟更改
Claude in PowerPoint（Research Preview）：從描述或模板生成，尊重版面和字體

結語

Opus 4.6 代表了顯著的進步，特別是在 Agentic 使用場景。更聰明的模型 + Agent Teams + Effort Tuning 的組合，讓 Claude Code 在真實世界的軟體工程中大幅增強。

如果你已經在用 Claude Code，更新後試試：

在下一個複雜任務中啟用 Agent Teams
用 /model + 方向鍵實驗 Effort Tuning
在大型 Codebase 上測試 100 萬 Token Context Window 的極限

AI 輔助 Coding 的未來不是一個 Agent 依序做所有事 — 而是一組協調的專家團隊平行工作。Opus 4.6 + Agent Teams 是這個願景的第一個真正實現。