MiniMax M2.5 vs Claude Opus 4.6:每小時 1 美元的模型如何撼動 AI 世界
MiniMax M2.5 宣稱以 Opus 4.6 二十分之一的價格達到同等編程與智能體能力。我們深入分析基準測試、架構設計,以及這對開發者選擇 AI 編程模型意味著什麼。
2026 年 2 月 12 日 —— 就在 Anthropic 發布 Claude Opus 4.6 僅六天後 —— 中國 AI 公司 MiniMax 推出了 M2.5,宣稱能以 二十分之一的價格 匹敵 Opus 4.6 的編程能力。MiniMax 股價當日暴漲 35%,市值突破 2,100 億港元。
M2.5 真的是「Opus 殺手」嗎?還是實際情況更為複雜?讓我們深入分析數據。
MiniMax 是誰?
MiniMax(上海稀宇極智科技)是中國領先的 AI 新創公司之一,成立於 2021 年。他們在 108 天內連續發布了三個模型 —— M2、M2.1 和 M2.5 —— 維持著幾乎每月一更的迭代速度,超越大多數競爭對手。
M2.5 關鍵資訊:
- 架構:稀疏 MoE(混合專家模型),總參數 2,300 億,僅激活 100 億
- 發布日期:2026 年 2 月 12 日
- 開源:是,權重已上線 ModelScope
- Agent 原生:首個從底層專為 Agent 工作流設計的模型
- 訓練:在超過 20 萬個真實環境中進行強化學習,涵蓋 10+ 種程式語言
基準測試對決:M2.5 vs Opus 4.6
編程基準
| 基準測試 | MiniMax M2.5 | Claude Opus 4.6 | 勝出者 |
|---|---|---|---|
| SWE-Bench Verified(Claude Code 腳手架) | 80.2% | 80.8% | Opus 4.6(微幅領先) |
| SWE-Bench Verified(Droid 腳手架) | 79.7% | 78.9% | M2.5 |
| SWE-Bench Verified(OpenCode 腳手架) | 76.1% | 75.9% | M2.5(微幅領先) |
| Multi-SWE-Bench | 51.3% | — | M2.5(SOTA) |
| VIBE-Pro(內部測試) | ~Opus 4.5 水準 | — | 相當 |
智能體與搜尋
| 基準測試 | MiniMax M2.5 | Claude Opus 4.6 |
|---|---|---|
| BrowseComp(含上下文管理) | 76.3% | — |
| Wide Search | SOTA | — |
| RISE(內部搜尋評估) | SOTA | — |
任務完成速度
| 指標 | MiniMax M2.5 | Claude Opus 4.6 |
|---|---|---|
| SWE-Bench 平均時間 | 22.8 分鐘 | 22.9 分鐘 |
| 每任務 Token 消耗 | 352 萬 | — |
| 相比 M2.1 提升 | 快 37% | — |
速度的旗鼓相當令人驚訝 —— M2.5 完成 SWE-Bench 任務的時間與 Opus 4.6 基本相同,儘管它是一個小得多的模型。
成本革命
這是 M2.5 真正拉開差距的地方:
| 模型 | 輸入價格 | 輸出價格 | 100 TPS 運行 1 小時成本 |
|---|---|---|---|
| MiniMax M2.5-Lightning | $0.30/百萬 tokens | $2.40/百萬 tokens | $1.00 |
| MiniMax M2.5(50 TPS) | $0.15/百萬 tokens | $1.20/百萬 tokens | $0.30 |
| Claude Opus 4.6 | $15/百萬 tokens | $75/百萬 tokens | ~$27.00 |
這是 27 倍的價格差距。正如 MiniMax 所說:「10,000 美元可以讓 4 個 M2.5 智能體連續運行一整年。」
對於 Token 消耗巨大的智能體工作負載 —— 想想 SWE-Bench 任務每次消耗 350 萬 Token —— 這個成本優勢是革命性的。
架構深入:為什麼是 10B 激活參數?
M2.5 採用稀疏 MoE 架構,總參數 2,300 億但推理時僅激活 100 億。這是其速度和成本效率的秘密:
- 100 TPS 吞吐量:比大多數前沿模型快近 2 倍
- 低顯存佔用:使私有化部署成為可能
- 推理效率:每 Token 更低的計算量意味著更低的 API 成本
Forge:Agent 原生 RL 框架
MiniMax 自研了 Forge —— 一個 Agent 原生的強化學習框架,包含多項創新:
- 解耦架構:將訓練引擎與 Agent 腳手架分離,支持跨任意工具配置的優化
- CISPO 演算法:確保 MoE 模型在大規模訓練中的穩定性
- 過程獎勵:端到端的長 Agent 軌跡品質監控,解決信用分配問題
- 樹狀結構樣本合併:實現約 40 倍訓練加速
湧現的「Spec 撰寫」行為
訓練過程中,M2.5 發展出一種湧現行為:在寫任何代碼之前,主動規劃和分解功能,如同軟體架構師。這種「Spec 撰寫傾向」—— 在實作前規劃結構、功能和 UI 設計 —— 自然從 RL 訓練中湧現,而非被明確編程。
Opus 4.6 仍然領先的地方
儘管 M2.5 令人印象深刻,但 Opus 4.6 在幾個領域仍保持明確優勢:
1. 上下文窗口
Opus 4.6 提供 100 萬 Token 上下文(Beta)—— 首個具備此能力的 Opus 級模型。M2.5 的上下文管理採用不同策略(當使用超過最大上下文的 30% 時丟棄歷史),相對不那麼精緻。
2. 自我糾錯與程式碼審查
Opus 4.6 的「自我糾錯」能力 —— 在 Terminal-Bench 2.0(65.4%)和真實程式碼庫測試中得到驗證 —— 仍然是業界領先的。M2.5 尚未公布可比較的自我糾錯數據。
3. 推理深度
在 ARC-AGI 上,Opus 4.6 得分 68%,遠超其他主流模型。M2.5 的推理能力雖有提升,但仍有差距 —— 多位測試者指出它在常識邏輯測試中失敗,而 Opus 能正確處理。
4. Agent Teams 與生態系
Opus 4.6 配備 Agent Teams —— 原生多智能體協作,支援共享任務列表、郵箱通訊和獨立上下文窗口。加上完整的 Claude Code 生態系:hooks、skills、MCP 伺服器和 IDE 整合。M2.5 有自己的「Expert」系統(上線首日即構建了超過 10,000 個 Expert),但生態系較年輕。
5. 安全與對齊
Anthropic 對憲法 AI 和安全研究的專注,使 Opus 4.6 具備更成熟的安全性配置。MiniMax 的安全方法在公開文檔中較少被記載。
真實使用:開發者怎麼說
M2.5 的優勢(來自社群測試)
- 卓越的多語言編程能力 —— 支援 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby
- 全棧能力 —— Web、Android、iOS、Windows,涵蓋伺服器 API、業務邏輯、資料庫
- 強大的 Office 自動化 —— Word、PowerPoint、Excel 金融建模達到專業水準
- 與 Claude Code、Trae、VS Code 良好整合
- 上線後 OpenRouter 日調用量突破 1,000 億 Token
M2.5 的弱點(來自社群測試)
- 未能通過「洗車」邏輯測試和「丁真」常識測試
- 邏輯推理相比前沿模型仍有提升空間
- 生態系和工具鏈不如 Claude 成熟
- 在長時間、複雜的智能體任務中驗證較少
更大的格局:M2.5 對 AI 編程意味著什麼
成本底線已被打破
M2.5 證明前沿級編程能力不再受成本限制。每小時 1 美元的價格,使得 Agent 密集型工作流對新創公司和個人開發者也變得經濟可行。競爭焦點從「哪個模型能做到」轉向「哪個模型在你的工作流中做得最好」。
開源追趕上來了
M2.5 是首個在編程基準測試上可信地匹敵 Claude Opus 的開源模型。加上其較小的激活參數量(10B),它可以在本地部署 —— 對有數據主權需求的企業來說是關鍵要求。
RL 擴展是新戰場
MiniMax 在 108 天內從 M2 進化到 M2.5 —— 由跨 20 萬+ 真實環境的 RL 擴展驅動 —— 證明了後訓練優化是新前沿。進步的速度,而非絕對的基準分數,可能是更重要的指標。
中國 AI 的速度
M2.5 與 GLM-5(智譜 AI)以及 DeepSeek 即將推出的 V4 消息同期發布 —— 都在中國春節期間。「AI 春節檔」已成為中國 AI 能力的集中展示,多個模型同時瞄準 Opus 4.6 級別的性能。
實用建議
何時使用 M2.5:
- 成本是首要考量 —— Agent 工作流、批次處理、持續運行
- 需要私有部署 —— 10B 激活參數使本地部署可行
- 多語言編程 —— M2.5 跨 10+ 語言和 20 萬環境的訓練展現了強大的多語言覆蓋
- Office 自動化 —— Word、PPT、Excel 任務中 M2.5 達到 SOTA
何時使用 Opus 4.6:
- 最高可靠性為優先 —— 自我糾錯、長上下文、經驗證的真實世界表現
- 複雜的多步驟智能體任務 —— Agent Teams、Effort Tuning、100 萬 Token 上下文
- 生態系整合 —— Claude Code、hooks、skills、MCP 伺服器、IDE 外掛
- 安全關鍵應用 —— Anthropic 的憲法 AI 方法提供更強的對齊保證
考慮兩者兼用:
許多開發者已經在成本敏感的 Agent 任務中使用 M2.5,同時將 Opus 4.6 保留給關鍵工作。OpenHands 總結得好:「這基本上是一場雙雄爭霸 —— Opus 代表最高能力上限,M2.5 以更低成本提供較高能力。」
結論
MiniMax M2.5 是一個真正令人印象深刻的模型,它在編程基準測試上縮小了與 Opus 4.6 的差距,同時提供 20 倍的成本優勢。但基準測試無法說明全部故事。Opus 4.6 在上下文長度、自我糾錯、生態系深度和安全對齊方面的優勢,對於生產環境用例仍然意義重大。
真正的贏家是開發者。如此激烈的競爭 —— 前沿級模型以每小時 1 美元的價格供應 —— 意味著 AI 編程輔助正快速成為人人可及的工具。問題不再是「AI 能不能寫程式碼?」而是「我應該在什麼時候用哪個 AI 來寫程式碼?」
2026 年的 AI 模型大戰,才剛剛開始。