MiniMax M2.5 vs Claude Opus 4.6：每小時 1 美元的模型如何撼動 AI 世界

2026 年 2 月 12 日 —— 就在 Anthropic 發布 Claude Opus 4.6 僅六天後 —— 中國 AI 公司 MiniMax 推出了 M2.5，宣稱能以 二十分之一的價格 匹敵 Opus 4.6 的編程能力。MiniMax 股價當日暴漲 35%，市值突破 2,100 億港元。

M2.5 真的是「Opus 殺手」嗎？還是實際情況更為複雜？讓我們深入分析數據。

MiniMax 是誰？

MiniMax（上海稀宇極智科技）是中國領先的 AI 新創公司之一，成立於 2021 年。他們在 108 天內連續發布了三個模型 —— M2、M2.1 和 M2.5 —— 維持著幾乎每月一更的迭代速度，超越大多數競爭對手。

M2.5 關鍵資訊：

架構：稀疏 MoE（混合專家模型），總參數 2,300 億，僅激活 100 億
發布日期：2026 年 2 月 12 日
開源：是，權重已上線 ModelScope
Agent 原生：首個從底層專為 Agent 工作流設計的模型
訓練：在超過 20 萬個真實環境中進行強化學習，涵蓋 10+ 種程式語言

基準測試對決：M2.5 vs Opus 4.6

編程基準

基準測試	MiniMax M2.5	Claude Opus 4.6	勝出者
SWE-Bench Verified（Claude Code 腳手架）	80.2%	80.8%	Opus 4.6（微幅領先）
SWE-Bench Verified（Droid 腳手架）	79.7%	78.9%	M2.5
SWE-Bench Verified（OpenCode 腳手架）	76.1%	75.9%	M2.5（微幅領先）
Multi-SWE-Bench	51.3%	—	M2.5（SOTA）
VIBE-Pro（內部測試）	~Opus 4.5 水準	—	相當

智能體與搜尋

基準測試	MiniMax M2.5	Claude Opus 4.6
BrowseComp（含上下文管理）	76.3%	—
Wide Search	SOTA	—
RISE（內部搜尋評估）	SOTA	—

任務完成速度

指標	MiniMax M2.5	Claude Opus 4.6
SWE-Bench 平均時間	22.8 分鐘	22.9 分鐘
每任務 Token 消耗	352 萬	—
相比 M2.1 提升	快 37%	—

速度的旗鼓相當令人驚訝 —— M2.5 完成 SWE-Bench 任務的時間與 Opus 4.6 基本相同，儘管它是一個小得多的模型。

成本革命

這是 M2.5 真正拉開差距的地方：

模型	輸入價格	輸出價格	100 TPS 運行 1 小時成本
MiniMax M2.5-Lightning	$0.30/百萬 tokens	$2.40/百萬 tokens	$1.00
MiniMax M2.5（50 TPS）	$0.15/百萬 tokens	$1.20/百萬 tokens	$0.30
Claude Opus 4.6	$15/百萬 tokens	$75/百萬 tokens	~$27.00

這是 27 倍的價格差距。正如 MiniMax 所說：「10,000 美元可以讓 4 個 M2.5 智能體連續運行一整年。」

對於 Token 消耗巨大的智能體工作負載 —— 想想 SWE-Bench 任務每次消耗 350 萬 Token —— 這個成本優勢是革命性的。

架構深入：為什麼是 10B 激活參數？

M2.5 採用稀疏 MoE 架構，總參數 2,300 億但推理時僅激活 100 億。這是其速度和成本效率的秘密：

100 TPS 吞吐量：比大多數前沿模型快近 2 倍
低顯存佔用：使私有化部署成為可能
推理效率：每 Token 更低的計算量意味著更低的 API 成本

Forge：Agent 原生 RL 框架

MiniMax 自研了 Forge —— 一個 Agent 原生的強化學習框架，包含多項創新：

解耦架構：將訓練引擎與 Agent 腳手架分離，支持跨任意工具配置的優化
CISPO 演算法：確保 MoE 模型在大規模訓練中的穩定性
過程獎勵：端到端的長 Agent 軌跡品質監控，解決信用分配問題
樹狀結構樣本合併：實現約 40 倍訓練加速

湧現的「Spec 撰寫」行為

訓練過程中，M2.5 發展出一種湧現行為：在寫任何代碼之前，主動規劃和分解功能，如同軟體架構師。這種「Spec 撰寫傾向」—— 在實作前規劃結構、功能和 UI 設計 —— 自然從 RL 訓練中湧現，而非被明確編程。

Opus 4.6 仍然領先的地方

儘管 M2.5 令人印象深刻，但 Opus 4.6 在幾個領域仍保持明確優勢：

1. 上下文窗口

Opus 4.6 提供 100 萬 Token 上下文（Beta）—— 首個具備此能力的 Opus 級模型。M2.5 的上下文管理採用不同策略（當使用超過最大上下文的 30% 時丟棄歷史），相對不那麼精緻。

2. 自我糾錯與程式碼審查

Opus 4.6 的「自我糾錯」能力 —— 在 Terminal-Bench 2.0（65.4%）和真實程式碼庫測試中得到驗證 —— 仍然是業界領先的。M2.5 尚未公布可比較的自我糾錯數據。

3. 推理深度

在 ARC-AGI 上，Opus 4.6 得分 68%，遠超其他主流模型。M2.5 的推理能力雖有提升，但仍有差距 —— 多位測試者指出它在常識邏輯測試中失敗，而 Opus 能正確處理。

4. Agent Teams 與生態系

Opus 4.6 配備 Agent Teams —— 原生多智能體協作，支援共享任務列表、郵箱通訊和獨立上下文窗口。加上完整的 Claude Code 生態系：hooks、skills、MCP 伺服器和 IDE 整合。M2.5 有自己的「Expert」系統（上線首日即構建了超過 10,000 個 Expert），但生態系較年輕。

5. 安全與對齊

Anthropic 對憲法 AI 和安全研究的專注，使 Opus 4.6 具備更成熟的安全性配置。MiniMax 的安全方法在公開文檔中較少被記載。

真實使用：開發者怎麼說

M2.5 的優勢（來自社群測試）

卓越的多語言編程能力 —— 支援 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby
全棧能力 —— Web、Android、iOS、Windows，涵蓋伺服器 API、業務邏輯、資料庫
強大的 Office 自動化 —— Word、PowerPoint、Excel 金融建模達到專業水準
與 Claude Code、Trae、VS Code 良好整合
上線後 OpenRouter 日調用量突破 1,000 億 Token

M2.5 的弱點（來自社群測試）

未能通過「洗車」邏輯測試和「丁真」常識測試
邏輯推理相比前沿模型仍有提升空間
生態系和工具鏈不如 Claude 成熟
在長時間、複雜的智能體任務中驗證較少

更大的格局：M2.5 對 AI 編程意味著什麼

成本底線已被打破

M2.5 證明前沿級編程能力不再受成本限制。每小時 1 美元的價格，使得 Agent 密集型工作流對新創公司和個人開發者也變得經濟可行。競爭焦點從「哪個模型能做到」轉向「哪個模型在你的工作流中做得最好」。

開源追趕上來了

M2.5 是首個在編程基準測試上可信地匹敵 Claude Opus 的開源模型。加上其較小的激活參數量（10B），它可以在本地部署 —— 對有數據主權需求的企業來說是關鍵要求。

RL 擴展是新戰場

MiniMax 在 108 天內從 M2 進化到 M2.5 —— 由跨 20 萬+ 真實環境的 RL 擴展驅動 —— 證明了後訓練優化是新前沿。進步的速度，而非絕對的基準分數，可能是更重要的指標。

中國 AI 的速度

M2.5 與 GLM-5（智譜 AI）以及 DeepSeek 即將推出的 V4 消息同期發布 —— 都在中國春節期間。「AI 春節檔」已成為中國 AI 能力的集中展示，多個模型同時瞄準 Opus 4.6 級別的性能。

實用建議

何時使用 M2.5：

成本是首要考量 —— Agent 工作流、批次處理、持續運行
需要私有部署 —— 10B 激活參數使本地部署可行
多語言編程 —— M2.5 跨 10+ 語言和 20 萬環境的訓練展現了強大的多語言覆蓋
Office 自動化 —— Word、PPT、Excel 任務中 M2.5 達到 SOTA

何時使用 Opus 4.6：

最高可靠性為優先 —— 自我糾錯、長上下文、經驗證的真實世界表現
複雜的多步驟智能體任務 —— Agent Teams、Effort Tuning、100 萬 Token 上下文
生態系整合 —— Claude Code、hooks、skills、MCP 伺服器、IDE 外掛
安全關鍵應用 —— Anthropic 的憲法 AI 方法提供更強的對齊保證

考慮兩者兼用：

許多開發者已經在成本敏感的 Agent 任務中使用 M2.5，同時將 Opus 4.6 保留給關鍵工作。OpenHands 總結得好：「這基本上是一場雙雄爭霸 —— Opus 代表最高能力上限，M2.5 以更低成本提供較高能力。」

結論

MiniMax M2.5 是一個真正令人印象深刻的模型，它在編程基準測試上縮小了與 Opus 4.6 的差距，同時提供 20 倍的成本優勢。但基準測試無法說明全部故事。Opus 4.6 在上下文長度、自我糾錯、生態系深度和安全對齊方面的優勢，對於生產環境用例仍然意義重大。

真正的贏家是開發者。如此激烈的競爭 —— 前沿級模型以每小時 1 美元的價格供應 —— 意味著 AI 編程輔助正快速成為人人可及的工具。問題不再是「AI 能不能寫程式碼？」而是「我應該在什麼時候用哪個 AI 來寫程式碼？」

2026 年的 AI 模型大戰，才剛剛開始。