跳至主要內容
精選 Opus 4.6 Agent Teams 模型發布 Claude Code Benchmarks

Claude Opus 4.6:Agent Teams、100萬 Token、Effort Tuning

Claude Opus 4.6 為 Claude Code 帶來重大升級:Agent Teams(群體智能)、100 萬 Token Context、Effort Tuning,以及在 Coding、推理、Agentic 任務的全面 SOTA 成績。

2026年2月6日 10 分鐘 作者:Claude World

Anthropic 正式發布 Claude Opus 4.6 — 這不只是漸進式升級。這是一個從根本上更強大的模型:規劃更謹慎、Agentic 任務持續更久、在大型 Codebase 中運作更穩定,還能自我糾錯。對 Claude Code 用戶而言,還附帶兩個 Game Changer:Agent TeamsEffort Tuning

以下是你需要知道的一切。


Opus 4.6 有什麼不同

Claude Code 開發者 Boris Cherny 是這樣說的:

「我用 Opus 4.6 有一陣子了 — 這是我們迄今最好的模型。它更 agentic、更聰明、能運行更久,而且更加仔細和全面。」

核心改進:

  • 更好的規劃能力:Opus 4.6 在行動前會更謹慎地思考,減少複雜任務中的無效步驟
  • 更長的 Agentic 工作階段:模型在長時間多步驟操作中不會退化
  • 大型 Codebase 穩定性:在大型、真實世界的 Codebase 中有效運作
  • 自我糾錯:更強的 Code Review 和 Debug 能力 — 它會發現自己的錯誤
  • 100 萬 Token Context(Beta):首個 Opus 級別的百萬 Token Context Window,Context 衰退大幅減少 — 在 MRCR v2 的 8-needle 1M 測試中達到 76% 準確率,Sonnet 4.5 僅 18.5%

Benchmark 成績:全面領先

Opus 4.6 在幾乎所有主要 Benchmark 中領先或追平最佳成績。以下是與 Opus 4.5、Sonnet 4.5、Gemini 3 Pro、GPT-5.2 的完整比較:

Agentic Coding

BenchmarkOpus 4.6Opus 4.5Sonnet 4.5Gemini 3 ProGPT-5.2
Terminal-Bench 2.0(終端 Coding)65.4%59.8%51.0%56.2%64.7%
SWE-bench Verified(程式碼修復)80.8%80.9%77.2%76.2%80.0%
OSWorld(電腦使用)72.7%66.3%61.4%

Agentic 工具使用

BenchmarkOpus 4.6Opus 4.5Sonnet 4.5Gemini 3 ProGPT-5.2
t2-bench Retail91.9%88.9%86.2%85.3%82.0%
t2-bench Telecom99.3%98.2%98.0%98.0%98.7%
MCP Atlas(規模化工具使用)59.5%62.3%43.8%54.1%60.6%
BrowseComp(搜尋能力)84.0%67.8%43.9%59.2%77.9%

推理與知識

BenchmarkOpus 4.6Opus 4.5Sonnet 4.5Gemini 3 ProGPT-5.2
Humanity’s Last Exam(無工具)40.0%30.8%17.7%37.5%36.6%
Humanity’s Last Exam(有工具)53.1%43.4%33.6%45.8%50.0%
ARC AGI 2(新穎問題解決)68.8%37.6%13.6%45.1%54.2%
GPQA Diamond(研究生推理)91.3%87.0%83.4%91.9%93.2%
MMMLU(多語言 Q&A)91.1%90.8%89.5%91.8%89.6%

其他領域

BenchmarkOpus 4.6Opus 4.5Sonnet 4.5Gemini 3 ProGPT-5.2
Finance Agent(金融分析)60.7%55.9%54.2%44.1%56.6%
GDPVal-AA(辦公任務,Elo)16061416127711951462
MMMU Pro(視覺推理,無工具)73.9%70.6%63.4%81.0%79.5%

亮眼成績:

  • ARC AGI 2:68.8% — 幾乎是 Opus 4.5 的兩倍(37.6%),新穎問題解決能力大幅躍進
  • BrowseComp:84.0% — 領先最近競爭者 24%,搜尋難以找到的資訊
  • Terminal-Bench 2.0:65.4% — 最高分,微幅勝過 GPT-5.2 的 Codex CLI(64.7%)
  • GDPVal-AA:1606 Elo — 超越 GPT-5.2 達 144 分,超越 Opus 4.5 達 190 分

此外,Opus 4.6 在計算生物學、結構生物學、有機化學和系統發生學方面比 Opus 4.5 好 2 倍。在 BigLaw Bench 得到 90.2% 且 40% 滿分。網路安全漏洞偵測也超越所有競爭者。


Claude Code 新功能:Agent Teams(Research Preview)

這是近期最重大的 Claude Code 功能更新。Agent Teams(又稱 Swarms)讓你可以編排多個 Claude Code 實例作為一個團隊協同工作。

運作方式

  • Lead Agent 負責協調工作、產生 Teammates、綜合結果
  • Teammates 各自獨立工作,擁有自己的 Context Window
  • Teammates 可以直接互相溝通 — 不只是回報給 Lead
  • 共享任務清單跨團隊協調工作
  • 任務有依賴追蹤,自動解除阻塞

Agent Teams vs Sub-Agents

Sub-AgentsAgent Teams
Context各自擁有;結果回傳給呼叫者各自擁有;完全獨立
溝通只能回報結果可以直接互相溝通
協調主 Agent 管理一切共享任務清單,自我協調
適合專注型任務複雜協作工作
Token 成本較低較高

使用場景

  • 平行 Code Review:安全審查 + 效能檢查 + 測試覆蓋率驗證,同時進行
  • 競爭假設 Debug:5 個 Agent 調查不同理論,像科學研討會般互相辯論
  • 跨層功能開發:前端、後端、測試 Agent 各自負責自己的領域
  • 研究任務:多個 Agent 調查不同面向並綜合發現

啟用方式

settings.json 中加入:

{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

然後告訴 Claude 建立團隊:

Create an agent team to refactor the authentication module.
Spawn three teammates: one for the API layer, one for the database layer,
one for test coverage. Require plan approval before changes.

顯示模式

  • In-process(預設):所有 Teammates 在你的終端中。用 Shift+Up/Down 選擇並直接對話。
  • Split panes:每個 Teammate 有自己的視窗(透過 tmux 或 iTerm2)。一次看到所有輸出。

快捷鍵

  • Shift+Up/Down — 選擇 Teammate
  • Shift+Tab — 切換 Delegate Mode(Lead 只協調,不寫 Code)
  • Ctrl+T — 切換任務清單
  • Enter 在 Teammate 上 — 查看其工作階段
  • Escape — 中斷 Teammate 當前操作

新功能:Effort Tuning

你現在可以精確控制模型的思考強度。執行 /model 並用左右方向鍵調整:

  • 較少 Effort = 更快回應、更低 Token 成本
  • 較多 Effort = 更長思考、更好的複雜任務結果

這對應 API 的新 Adaptive Thinking,四個等級:

等級行為
Low快速,最少思考
Medium平衡
High(預設)標準 Extended Thinking
Max最大思考深度,用於最難的問題

API 與開發者細節

Model ID

claude-opus-4-6

定價

與 Opus 4.5 相同:

  • Input:$5 / 百萬 Tokens
  • Output:$25 / 百萬 Tokens
  • 超過 200k Tokens 的 Prompt:$10 / $37.50 每百萬

新 API 功能

  • Context Compaction(Beta):在可配置閾值自動摘要舊 Context — 對長時間 Agentic 操作至關重要
  • 支援 128k 輸出 Tokens
  • 僅美國推理選項,1.1 倍定價,用於資料駐留需求

可用平台

  • claude.ai — 已上線
  • Claude APIclaude-opus-4-6
  • Amazon Bedrock — 已上線
  • Google Cloud Vertex AI — 已上線

對 Claude Code 用戶的實際影響

Opus 4.6 是 Max 方案 Claude Code 用戶的預設模型。實際影響:

  1. 更長、更穩定的 Coding Session:模型在任務中不會退化。跨多檔案的複雜重構中保持專注。

  2. Agent Teams 解鎖真正的平行處理:不再是一個 Agent 依序工作,你現在可以有一組專家同時工作並互相交流

  3. Effort Tuning 節省 Token:簡單修復?調低。複雜架構?調高。你控制每個任務的成本-智能取捨。

  4. 100 萬 Context 意味著更少「我忘了」的時刻:Beta 的百萬 Token Context Window,讓你在大型 Codebase 中工作而不會丟失早期上下文。

  5. 更好的自我糾錯:模型更可能在你指出之前就發現自己 Code 中的 Bug。


安全與對齊

Opus 4.6 維持 Anthropic 的強安全性:

  • 匹配或超越 Opus 4.5 的對齊記錄
  • 近期 Claude 模型中最低的過度拒絕率
  • 六個新的網路安全探測來監控其增強能力
  • 可解釋性研究整合至評估方法中

附帶更新:Office 工具

值得一提:

  • Claude in Excel:改進長時間任務處理、預先規劃、非結構化資料、單次多步驟更改
  • Claude in PowerPoint(Research Preview):從描述或模板生成,尊重版面和字體

結語

Opus 4.6 代表了顯著的進步,特別是在 Agentic 使用場景。更聰明的模型 + Agent Teams + Effort Tuning 的組合,讓 Claude Code 在真實世界的軟體工程中大幅增強。

如果你已經在用 Claude Code,更新後試試:

  1. 在下一個複雜任務中啟用 Agent Teams
  2. /model + 方向鍵實驗 Effort Tuning
  3. 在大型 Codebase 上測試 100 萬 Token Context Window 的極限

AI 輔助 Coding 的未來不是一個 Agent 依序做所有事 — 而是一組協調的專家團隊平行工作。Opus 4.6 + Agent Teams 是這個願景的第一個真正實現。


連結