Copyright 2013-2025 今日媒體網 版權所有 京ICP備13154207號-1
文心X1.1震撼上線,一手實測力壓群雄! 三大能力飆升:事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。在多項基準測試中,整體表現超越DeepSeek R1-0528,部分保持領先,甚至追上了最頂尖的GPT-5、Gemini 2.5 Pro。
AI圈又雙叒沸騰了!
9日,WAVE SUMMIT深度學習開發者2025大會上,文心大模型X1.1深度思考模型正式發布。
相較于文心X1,文心X1.1在事實性、指令遵循、智能體能力三大關鍵指標,實現顯著提升。
具體來說,事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。
更令人震撼的是,文心X1.1在多項基準測試中,整體表現超越DeepSeek R1-0528,部分保持領先。
甚至,它還與最頂尖的GPT-5、Gemini 2.5 Pro,平起平坐。
文心大模型X1.1能力大漲,背后離不開飛槳的「最強輔助」。
大會上,百度升級發布飛槳框架v3.2。飛槳文心生態已吸粉2333萬開發者,服務76萬家企業。
從模型到框架,再到生態,百度這一套組合拳打下來,堪稱AI界的「實力派卷王」。
文心X1.1出世,一手實測來了
現在,進入文心一言官網、文小言APP,即可立即體驗最新「文心大模型X1.1」了。
傳送門:https://yiyan.baidu.com/X1
接下來,我們開啟了一波全面實測。
不捏造不猜測,文心X1.1太可靠了
一直以來,LLM憑空捏造、編造事實的問題飽受詬病,被業界稱之為「幻覺」。
它們往往以自信的口吻生成結果,讓用戶難以辨別真假。
幾天前,OpenAI團隊曾挖出了「幻覺」的根源,在于訓練和評估機制,傾向于獎勵模型的「猜測」行為。
值得一提的是,這一次,文心X1.1通過基于知識一致性的強化學習技術,真正做到了「知識一致性」。
就以昨天的蘋果WWDC發布會為例,文心X1.1能否精準介紹iPhone 17系列?
當然!從輸出結果看得出,它分列出四款iPhone 17的各種參數以及價格,并附上了售賣日期。