99r这里只有国产中文精品视频在线观看_欧美激情综合婷婷_紧窄粉嫩被粗大撑开视频_国产高清电影资源_日韩午夜精彩AV_国产综合亚洲欧美日韩一区二区等最新内容!_午夜福利+无码+自拍_91中文字幕无码乱人伦_日本黄色小网站_蜜臀av色欲av免费网站

看似加速,實則拖慢:AI 寫代碼讓開發(fā)者效率倒退19%

看似加速,實則拖慢:AI 寫代碼讓開發(fā)者效率倒退19%

zdgjhnb666 2025-07-15 今日熱點 5 次瀏覽 0個評論

大數(shù)據(jù)文摘出品

美國METR研究所完成了一項針對AI編程工具影響的實驗研究。他們發(fā)現(xiàn),經(jīng)驗豐富的開源開發(fā)者在使用AI編程工具時,完成任務的時間平均增長了19%。

這與開發(fā)者自己的感知完全相反。畢竟,參與研究的開發(fā)者普遍都相信,AI將提升他們的效率。

在任務開始前,他們預測AI能讓自己提速24%??涩F(xiàn)實數(shù)據(jù)冷冷地指出:AI讓他們“看似飛快,實則拖慢”。

圖注:當研究參與者可以使用像 Cursor Pro 這樣的AI工具時,任務實際上耗時增加了19%。

研究團隊通過隨機對照實驗(RCT),在真實環(huán)境中測試AI工具的使用效果。值得一提的是,這是目前公認的衡量因果關系最嚴格的方法。

實驗如何進行?

圖注:實驗設計。在分配條件前定義任務,通過屏幕錄制驗證執(zhí)行情況,并利用專家與開發(fā)者的預測衡量預期與實際結果的差距。

實驗共追蹤了16名高級開發(fā)者,這些開發(fā)者在各自的開源項目中完成了246個實際任務,任務涵蓋復雜模塊的開發(fā)與修復,工作負載真實而具體。

每個任務被隨機分配到兩個組:一組使用AI工具,另一組不使用。

AI組開發(fā)者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。

開發(fā)者在整個過程中錄屏,并記錄完成每個任務所花費的時間。為了剔除任務難度差異的干擾,研究人員采用了統(tǒng)計方法,引入開發(fā)者對任務時間的預估值作為參考。

換句話說,他們不僅測量“花了多長時間”,還測量“比預期多了多少”。

最終結果顯示:AI用戶完成任務的平均用時比非AI用戶長出19%。

諷刺的是,哪怕在任務完成后,那些用過AI的開發(fā)者仍然堅信,自己“節(jié)省了20%的時間”。

即便現(xiàn)實已經(jīng)反轉,他們依然覺得自己在加速。

研究者指出,這種“快感錯覺”可能來自AI協(xié)助下的新型流程分布。研究結果表明,AI并沒有真正提升核心產(chǎn)出環(huán)節(jié)的效率,只是重新分配了注意力和勞動方式。

具體來說,當AI工具被啟用后,開發(fā)者在“主動編碼”上的時間反而減少了。

他們花了更多時間在提示設計、AI產(chǎn)出審查、等待響應、閑置,以及理解生成內(nèi)容上。

研究顯示,開發(fā)者不是在寫代碼,而是在“與AI溝通如何寫代碼”。這種交互過程看起來很“充實”,但最終產(chǎn)出并不一定更快。

圖注:在使用AI的情況下,開發(fā)者減少了編碼和查找信息的時間,更多時間用于與AI交互和等待

對新項目或快速原型開發(fā),AI確實能提供幫助。但在面對成熟的大型項目,特別是開源社區(qū)中常見的、結構復雜、規(guī)則隱含、質(zhì)量要求高的工程時,AI反而成為新的負擔。

它需要大量的補充說明、更頻繁的審查,甚至還會引發(fā)語義誤解。

開發(fā)者不再是在解決問題,而是在解釋問題、矯正AI、并試圖相信AI有幫助。

此外,開發(fā)者的“心理節(jié)奏”也發(fā)生了變化。他們頻繁切換任務:提示生成、回顧產(chǎn)出、人工修正、重復嘗試,這種流程非常碎片化。

當一個人忙于各種小動作時,他自然會覺得自己很“快”。但數(shù)據(jù)不會說謊:他只是“動了很多”,并沒有“前進很遠”。

還有哪些發(fā)現(xiàn)?

METR的研究不僅揭示了AI工具在實際工作中的真實效率,還對目前主流AI評估體系提出了質(zhì)疑。

他們指出,當前業(yè)界廣泛采用的基準測試,如SWE-Bench和RE-Bench,存在嚴重偏差。這些測試通常是人工設置的小型題目,情境孤立,完全不反映真實項目的復雜性。

開發(fā)者在其中只需解決一小段代碼問題,不用考慮上下文、不用和團隊協(xié)作,也沒有歷史遺留負擔。

這種測試環(huán)境高度理想化,與開源項目、企業(yè)代碼庫、或大型框架開發(fā)的日常工作完全不同。

于是,我們就得到了一個錯誤的結論:AI表現(xiàn)得非常強大。

而METR的隨機對照實驗,則是在現(xiàn)實中運行、在項目中嵌入、在流程中測量。研究人員將AI直接部署到開發(fā)者的真實任務中,不干預流程,只記錄結果。

這是對“AI助力”的最直接檢驗。

而且,這種實驗還能揭示“感知偏差”:即人們在使用AI之后,對效果的主觀判斷如何偏離客觀現(xiàn)實。這才是真正有價值的測試方法。

所以,如果AI讓人“覺得自己更快”,卻“實際上更慢”,那么其價值評估將被全面高估。

企業(yè)、教育機構、平臺服務商,乃至政策制定者,都可能被誤導。

研究還暗示,AI工具的價值可能不是“提高效率”,而是“改造流程”。它改變了工作的節(jié)奏、重構了問題表達方式、干擾了注意力分配。

地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

作者長期關注 AI 產(chǎn)業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信 Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!

原標題:《看似加速,實則拖慢:AI 寫代碼讓開發(fā)者效率倒退19%》

閱讀原文

轉載請注明來自山西智睿祥新能源有限公司,本文標題:《看似加速,實則拖慢:AI 寫代碼讓開發(fā)者效率倒退19%》

每一天,每一秒,你所做的決定都會改變你的人生!