MiniMax開(kāi)源推理模型M1:支持最高百萬(wàn)上下文輸入,訓(xùn)練成本為R1的十分之一
MiniMax發(fā)布新款開(kāi)源大模型,稱其性價(jià)比優(yōu)于DeepSeek。
6月17日,國(guó)內(nèi)大模型獨(dú)角獸MiniMax發(fā)布世界上第一個(gè)開(kāi)源的大規(guī)模混合架構(gòu)的推理模型MiniMax-M1,這也是“MiniMaxWeek”系列發(fā)布活動(dòng)的首個(gè)對(duì)外發(fā)布。
據(jù)MiniMax介紹,M1在面向生產(chǎn)力的復(fù)雜場(chǎng)景中能力是開(kāi)源模型中的最好一檔,超過(guò)國(guó)內(nèi)的閉源模型,接近海外的最領(lǐng)先模型,同時(shí)又有業(yè)內(nèi)最高的性價(jià)比。
MiniMax披露,M1的優(yōu)勢(shì)是支持目前業(yè)內(nèi)最高的100萬(wàn)上下文的輸入,和閉源模型里面的Google Gemini 2.5 Pro一樣,是DeepSeek R1的8倍,以及業(yè)內(nèi)最長(zhǎng)的8萬(wàn)Token推理輸出。
此次MiniMax M1的最大優(yōu)勢(shì)之一體現(xiàn)在成本上。根據(jù)M1大模型分析自身的技術(shù)優(yōu)勢(shì)顯示,MiniMax M1采用低成本訓(xùn)練,僅用512塊 H800 GPU三周時(shí)間,成本53.47萬(wàn)美元(約385萬(wàn)人民幣),僅為同類(lèi)模型訓(xùn)練成本的 1/10。
MiniMax稱,得益于以閃電注意力機(jī)制為主的混合架構(gòu),從而在計(jì)算長(zhǎng)的上下文輸入以及深度推理的時(shí)候顯著高效。根據(jù)推算,在生成長(zhǎng)度為10萬(wàn)tokens的場(chǎng)景下,MiniMax-M1的計(jì)算量(FLOPs)為DeepSeek R1的25%,在長(zhǎng)文本處理任務(wù)中具備顯著優(yōu)勢(shì)。
據(jù)介紹,MiniMax M1的核心優(yōu)勢(shì)在于超長(zhǎng)上下文處理能力和極低的算力消耗,同時(shí)在復(fù)雜任務(wù)(如工具調(diào)用、長(zhǎng)文本理解)中表現(xiàn)接近甚至超越 DeepSeek R1。其訓(xùn)練成本僅為R1的1/10,且提供更靈活的API定價(jià)策略,尤其適合需要處理百萬(wàn)級(jí)token的場(chǎng)景(如法律文檔分析、代碼庫(kù)理解)。DeepSeek R1則在傳統(tǒng)數(shù)學(xué)推理和編程基準(zhǔn)測(cè)試中略占優(yōu)勢(shì),但受限于上下文長(zhǎng)度和計(jì)算效率,在長(zhǎng)文本任務(wù)中明顯落后M1。
價(jià)格方面,M1在MiniMax APP和Web上支持不限量免費(fèi)使用。在API方面,第一檔0-32k的輸入長(zhǎng)度時(shí),輸入0.8元/百萬(wàn)token, 輸出8元/百萬(wàn)token;第二檔32k-128k的輸入長(zhǎng)度時(shí),輸入1.2元/百萬(wàn)token, 輸出16元/百萬(wàn)token;第三檔128k-1M輸入長(zhǎng)度時(shí),輸入2.4元/百萬(wàn)token, 輸出24元/百萬(wàn)token。
值得注意的是,DeepSeek已成為大模型廠商對(duì)標(biāo)的“風(fēng)向標(biāo)”。此前字節(jié)跳動(dòng)旗下火山引擎最新發(fā)布豆包大模型1.6,首創(chuàng)按“輸入長(zhǎng)度”區(qū)間定價(jià),深度思考、多模態(tài)能力與基礎(chǔ)語(yǔ)言模型統(tǒng)一價(jià)格,稱其綜合成本只有DeepSeek R1三分之一,每生成一條5秒的1080P視頻只需3.67元,為行業(yè)最低。
不過(guò),被視為集體競(jìng)爭(zhēng)對(duì)手的DeepSeek R1也在持續(xù)升級(jí)中。5月29日,據(jù)DeepSeek公告,DeepSeek R1模型已完成小版本升級(jí),當(dāng)前版本為DeepSeek-R1-0528。用戶通過(guò)官方網(wǎng)站、APP或小程序進(jìn)入對(duì)話界面后,開(kāi)啟“深度思考”功能即可體驗(yàn)最新版本。API也已同步更新,調(diào)用方式不變。
新版DeepSeek R1針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低45-50%左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。
從社交媒體的反饋來(lái)看,網(wǎng)友最為關(guān)注的是此次DeepSeek R1更新后的思考時(shí)間變長(zhǎng)。據(jù)測(cè)評(píng)顯示,此次DeepSeek單任務(wù)處理時(shí)長(zhǎng)可達(dá)30-60分鐘。
轉(zhuǎn)載請(qǐng)注明來(lái)自山西智睿祥新能源有限公司,本文標(biāo)題:《MiniMax開(kāi)源推理模型M1:支持最高百萬(wàn)上下文輸入,訓(xùn)練成本為R1的十分之一》
