開源模型王座再次易主,依舊是國產(chǎn)模型!
不過之前霸榜的DeepSeek和Qwen來自杭州,現(xiàn)在變成上海的Minimax了。
在第三方評測機構Artificial Analysis的測試中,Minimax M2以61分獲得了開源模型第一,緊隨Claude 4.5 Sonnet。

官方介紹,Minimax M2專為智能體和編程而生,編程能力和Agent表現(xiàn)出眾。
而且經(jīng)濟高效,推理速度是Claude 3.5 Sonnet的兩倍,API價格卻只有8%。
Minimax表示,智能水平、速度和成本在過去被視為“不可能三角”,但隨著M2的出世,這個三角被打破了。
目前,M2的完整模型權重已經(jīng)開源,采用MIT協(xié)議,在線Agent平臺和API也限時免費。

8%成本實現(xiàn)Claude級水平
Minmax M2是一個稀疏度較高的MoE模型,總參數(shù)量230B,激活參數(shù)量僅有10B。
網(wǎng)友表示10B的激活參數(shù)運行起來會非常快,如果配上Cerebras或者Groq這樣的推理加速平臺,有望跑到每秒上千Token。

另一個特色是采用了交錯的思維格式,使得模型能夠規(guī)劃和驗證跨多個對話的操作步驟,這對于Agent推理至關重要。
如開頭介紹,Minimax官方將M2定義為一個專為智能體和編程而生的模型。
它專為端到端開發(fā)工作流程而構建,而且表現(xiàn)出對復雜、長鏈工具調用任務的出色規(guī)劃和穩(wěn)定執(zhí)行能力,支持Shell、瀏覽器、Python代碼解釋器和各種MCP工具的調用。
在Agent最關鍵的三個能力——編程能力、工具使用能力和深度搜索能力上,M2在工具使用和深度搜索方面上都不遜于海外頂尖模型,編程能力也在國內(nèi)名列前茅。

綜合表現(xiàn)上,M2在Artificial Analysis的測試中,獲得了總排名第五、開源第一的成績。
該測試使用了10個熱門數(shù)據(jù)集,包括MMLU Pro、GPQA Diamond、人類最后測試、LiveCodeBench等。

而M2的定價是0.3美元/2.1人民幣每百萬輸入Token,1.2美元/8.4人民幣每百萬輸出Token,只要Claude 3.5 Sonnet的8%。
以Artificial Analysis的成績?yōu)榛鶞剩琈inimax繪制了一張圖來比較各大模型性價比(橫軸越向右成本越低)。

在線推理服務的速度則可達每秒100Token,Minimax也畫了一張圖體現(xiàn)以速度衡量的性價比。
