中青報刊文:大模型成為“考試明星” 意味著什么
得益于深度思考和多模態(tài)能力的提升,大模型面對未經(jīng)訓練的全新題目測試,已經(jīng)達到人類優(yōu)秀考生的水平。
AI大模型豆包嘗試著做了今年的山東高考卷,得了690分左右,排名在前80位左右,甚至有望考上清華、北大。這只不過是大模型成為“考試明星”的最新一例。根據(jù)多份報告,人工智能系統(tǒng)已展現(xiàn)出通過大學入學考試及其他學術(shù)評估的能力。例如,ChatGPT通過了美國法學院和商學院的考試;同時,GPT-4模型能夠通過大多數(shù)STEM學科的評估,并在回答問題時實現(xiàn)高準確率。
人工智能通過這些考試的能力,引發(fā)了對教育的未來以及如何更好地培養(yǎng)學生掌握那些仍具有人類特質(zhì)的技能的思考。
大模型的考試成績意味著什么
首先,這可以理解為規(guī)?;哪J阶R別的成功。大模型在識別和再現(xiàn)語言、推理和問題解決方面表現(xiàn)卓越。縱觀大模型通過的考試,通常結(jié)構(gòu)清晰,格式固定,答案可以通過文本線索得出——而這正是大模型接受訓練的強項。
其次,大模型擁有廣泛的訓練數(shù)據(jù)來源,這使得它容易在考試中脫穎而出。許多考試題目與教材、輔導材料或歷年試題中的內(nèi)容高度相似,可能出現(xiàn)在模型的訓練語料中,或在結(jié)構(gòu)上與之類似。
再次,大模型實現(xiàn)了任務無關(guān)的通用性。通過這些考試的能力表明,大模型是通用型語言處理器——它們無須重新訓練就能在法律、醫(yī)學、STEM等領(lǐng)域間切換,這在系統(tǒng)設(shè)計層面非常了不起。
盡管成就不俗,我們也不必夸大大模型對人類考生的威脅。因為,考過并不等于“理解”,大模型的“成功”多是統(tǒng)計上的匹配,而非概念性的掌握——它們并不“知道”答案為何正確。
大模型還缺乏真實的推理基礎(chǔ)。如USMLE(美國醫(yī)生執(zhí)照考試)默認考生具備現(xiàn)實世界的經(jīng)驗積累和倫理判斷能力。大模型即使答對了題,也缺乏具身認知或臨床直覺。
我們還需認識到,大模型不存在原生的學習過程。它們并不會像人類那樣通過學習獲得知識——機器人不會因誤解而苦惱,也不會主動反思,更不會隨著時間內(nèi)化意義。
多元智能理論與大模型的考試表現(xiàn)
教育心理學家霍華德·加德納認為,智力是多元的,不能僅用傳統(tǒng)智商或考試成績來衡量。根據(jù)加德納的智能類型,我們會發(fā)現(xiàn),大模型的能力展現(xiàn)參差不齊:
在語言智能,即使用語言進行閱讀、寫作方面,大模型表現(xiàn)優(yōu)秀。
在邏輯-數(shù)學智能,即抽象推理、問題解決、模式識別能力方面,大模型表現(xiàn)良好,對于數(shù)學題、邏輯題等結(jié)構(gòu)化問題的解答能力十分強勁,盡管在復雜推理中仍有不穩(wěn)定性。
在視覺-空間智能,即在頭腦當中想象和操控物體的能力方面,大模型功能有限:純文本模型本身不具備視覺-空間推理能力,多模態(tài)模型(擁有視覺能力)正試圖在一定程度上對此加以改善。
在身體-動覺智能,即控制身體動作、保持身體協(xié)調(diào)能力方面,非常遺憾,大模型付之闕如——它本身沒有身體,也無法展開物理體驗或動作。
在音樂-節(jié)奏智能,即對音高、節(jié)奏、旋律的敏感度和創(chuàng)作能力方面,大模型可以模仿歌曲或分析音樂理論,但缺乏真正的聽覺體驗與音樂直覺。
在人際智能,即理解他人情感、動機、關(guān)系的能力方面,大模型能模擬同理心,但沒有真正的社會意識、情感或動機。
在自我認知智能,即自我覺察、情緒反思和自我理解的能力方面,大模型沒有自我,并不像某些人聲稱的那樣獲得了自我意識、目標或主觀經(jīng)驗。
最后,在自然觀察智能,即識別自然界模式、給出生物分類的能力方面,大模型可以檢索事實,但缺乏對自然環(huán)境的直觀感知與互動能力。
經(jīng)由這些對比,我們可以發(fā)現(xiàn),大模型在語言和邏輯智能方面表現(xiàn)卓越,但加德納強調(diào)具身性、情感性和經(jīng)驗性的廣泛智能,這是大模型在結(jié)構(gòu)上無法勝任的。
另一方面,從模擬與體驗的關(guān)系來看,大模型可以模擬某些智能(如共情或音樂創(chuàng)作),但缺乏真實的經(jīng)驗基礎(chǔ),而加德納的智能理論強調(diào)智力的發(fā)展與現(xiàn)實世界的互動密不可分。
教育上的反思:過度依賴大模型的害處
從教育評估的角度看,人工智能不斷提升的考試能力,引發(fā)了對學術(shù)誠信和潛在濫用的擔憂,促使教育工作者不得不重新思考傳統(tǒng)評估方法。
不過,我們也可以看到,盡管人工智能可以通過識別模式并生成正確答案來通過考試,卻并不一定意味著其對考試內(nèi)容的理解與人類相同。人工智能在語言處理以及需要“常識”或主觀解讀的問題上仍面臨挑戰(zhàn)。今天,我們可以心存僥幸的是,人工智能還難以應對需要深入理解、批判性思維或個人反思的復雜或微妙問題。
這表明,理解意義是人類獨有的能力,而目前的人工智能系統(tǒng)仍缺乏這種能力。“高考出色”的機器人其實與一些學生非常相似,他們吸收知識,然后照本宣科,根本不理解其中的含義。所以,機器人超越這類學生毫不足奇。
多元智能理論主張因材施教、發(fā)展多種能力。如果學校在教育中過度依賴大模型完成寫作或數(shù)學等任務,可能會忽視身體性、人際交往和情感成長這些對人類發(fā)展至關(guān)重要的領(lǐng)域。
所以,必須思考一種新型的教育。如果大模型都能通過為人類設(shè)計的考試,教育工作者就迫切需要重新思考考試的目標——不應只評估機械記憶或格式化的解題能力,還應涵蓋創(chuàng)造力、判斷力與情感智能。
與其驚嘆于高級的人工智能水平,不如說“機器人考生”揭示了考試本身的結(jié)構(gòu)與局限性。我們的確打造了強大的工具,但它們終究只是工具。這些模型可以成為強大的教學助手,但若將它們完全替代醫(yī)學、法律等領(lǐng)域的專業(yè)人員,可能帶來倫理和安全隱患。
大模型能通過各種考試,是工程復雜性的里程碑,但并不是與人類認知能力等價的標志。人類未來將如何與人工智能共存,是我們必須基于確鑿證據(jù)認真思考的問題。同時,我們要盡快思考,因為時間不多了。
(作者系北京大學新聞與傳播學院教授)
轉(zhuǎn)載請注明來自山西智睿祥新能源有限公司,本文標題:《中青報刊文:大模型成為“考試明星” 意味著什么》
