6月17日,Minimax正式開源推理模型M1,采用Lightning Attention機(jī)制的混合注意力架構(gòu)。M1支持目前業(yè)內(nèi)最高100萬token上下文輸入,同時(shí)支持最多8萬token輸出。成本表現(xiàn)方面,M1在用8萬Token深度推理的時(shí)候,需要使用DeepSeek R1約30%的算力。
團(tuán)隊(duì)表示,M1整個(gè)強(qiáng)化學(xué)習(xí)階段只用到512塊H800三周時(shí)間,租賃成本為53.74萬美金。