隨著我國“人工智能+”行動加速推進(jìn),大模型技術(shù)在金融領(lǐng)域的應(yīng)用持續(xù)落地。為全面評估金融領(lǐng)域大模型的專業(yè)、可靠程度,近日,上海財(cái)經(jīng)大學(xué)推出的國內(nèi)首個(gè)金融領(lǐng)域大模型評估基準(zhǔn)升級為FinEval 6.0,新增了金融嚴(yán)謹(jǐn)性等維度并發(fā)布首份評測報(bào)告。FinEval 6.0對國內(nèi)外主流大模型的評測顯示,螞蟻集團(tuán)旗下理財(cái)AI“螞小財(cái)”的模型底座在金融嚴(yán)謹(jǐn)性等維度表現(xiàn)突出排名第一,跑贏了眾多通用大模型。

公開資料顯示,上海財(cái)經(jīng)大學(xué)是國內(nèi)最早開展金融領(lǐng)域大模型測評工作的高校,并在2024年參與制定了《金融大模型應(yīng)用測評指南》,這是全國首個(gè)以金融業(yè)務(wù)能力為核心的團(tuán)體標(biāo)準(zhǔn)。此次,上海財(cái)經(jīng)大學(xué)結(jié)合對AI企業(yè)、金融機(jī)構(gòu)的調(diào)研與投資者洞察,重點(diǎn)完善了FinEval 6.0的嚴(yán)謹(jǐn)性評測樣本,從金融學(xué)術(shù)知識、金融行業(yè)理解、金融嚴(yán)謹(jǐn)性測試、金融安全認(rèn)知、金融智能體應(yīng)用等關(guān)鍵維度,全面評估大模型在復(fù)雜金融業(yè)務(wù)場景中的表現(xiàn)。
同時(shí),F(xiàn)inEval 6.0對國內(nèi)外9款有代表性的大模型進(jìn)行評測,包括DeepSeek-R1、GPT- 4o等通用基礎(chǔ)模型,以及金融垂直領(lǐng)域模型。評測報(bào)告結(jié)果顯示,參評模型在金融學(xué)術(shù)知識方面的表現(xiàn)整體優(yōu)異,但在金融嚴(yán)謹(jǐn)性、金融行業(yè)理解等適配復(fù)雜場景的能力上表現(xiàn)各異。其中,理財(cái)AI“螞小財(cái)”的模型底座、螞蟻?zhàn)匝蠪inix大模型整體表現(xiàn)較好,總分跑贏了通用大模型。尤其在金融嚴(yán)謹(jǐn)性上,行業(yè)均值為70.27分,螞小財(cái)超出均值17分顯著領(lǐng)先。

官方數(shù)據(jù)顯示,“螞小財(cái)”是螞蟻集團(tuán)旗下的AI理財(cái)管家,連接了螞蟻財(cái)富平臺生態(tài)內(nèi)200多家基金公司、券商和財(cái)經(jīng)媒體的內(nèi)容與服務(wù)。在通用大模型的基礎(chǔ)上,“螞小財(cái)”技術(shù)團(tuán)隊(duì)還搭建了一套金融智能增強(qiáng)的技術(shù)體系,實(shí)現(xiàn)了金融場景內(nèi)專業(yè)功能、交互體驗(yàn)的全面增強(qiáng)。
“金融領(lǐng)域是國內(nèi)AI技術(shù)應(yīng)用的焦點(diǎn)場景之一,但天然也對AI的專業(yè)性、嚴(yán)謹(jǐn)性等能力提出更高標(biāo)準(zhǔn)。目前國內(nèi)AI在金融領(lǐng)域的表現(xiàn)逐漸提升,不斷從“博聞強(qiáng)識”走向“專業(yè)審慎”,為下一階段大規(guī)模應(yīng)用打好了基本盤?!睖y評團(tuán)隊(duì)負(fù)責(zé)人、上海財(cái)經(jīng)大學(xué)教授張立文表示,這些“AI+金融場景”的積極穩(wěn)妥探索,有助于在國際AI產(chǎn)業(yè)競爭中保持領(lǐng)先身位,也將打開我國數(shù)字金融、普惠金融建設(shè)的新局面。