ChatGPT這門博士考試“不及格”

2025-01-25 09:27:30 來源：中國科學報

觀看：40

解難題如探囊取物，答歷史卻步履維艱。在人工智能交出的“成績單”上，歷史學成了一門“短板學科”。奧地利復雜性科學中心（CSH）最新研究顯示，即便是最先進的GPT-4 Turbo，在博士級歷史知識測試中也僅獲得46%的準確率，雖然超過25%的“蒙題”水平，但距離“及格”仍有不小差距。相關研究成果近日在加拿大溫哥華舉行的神經信息處理系統會議（NeurIPS）上發布。

“大語言模型，如ChatGPT，在某些領域確實成果斐然，比如已基本可以替代法律助理。但要它們判斷歷史社會特征，尤其是涉及北美和西歐以外地區時，能力就相當有限。”CSH社會復雜性研究小組負責人Peter Turchin說。

該研究的通訊作者、英國倫敦大學學院助理教授Maria del Rio Chanona也承認：“我原以為AI會表現得更好，但歷史不僅僅是事實的堆砌，更需要理解和解釋。”

為系統評估AI的歷史理解能力，來自CSH、牛津大學等機構的研究團隊設計了一套基于全球歷史數據庫（Seshat）的測試體系。該數據庫收錄了全球600個社會的歷史資料，包含超過36000個數據點和2700多個學術參考文獻。研究第一作者、CSH駐站科學家Jakob Hauser表示：“我們不只考察AI能否識別正確事實，還要測試它們是否能理解歷史證據的推斷過程。”研究團隊據此對Gemini、OpenAI和Llama三大系列的七個模型展開測試。

研究發現，AI在理解歷史方面存在多個維度的局限性。具體而言，在時間跨度上，AI在遠古史（公元前8000年至前3000年）的把握較為準確，但在理解近代史（公元1500年至今）時表現卻明顯下滑。在地域分布上，AI對拉美和北美地區的歷史把握較準，但對非洲和大洋洲的歷史理解明顯不足，這表明AI模型的訓練數據可能存在地域偏差。

研究還發現，AI在不同類型的歷史問題上表現迥異。比如，當分析古代法律制度的演變或社會組織的復雜程度時，AI能給出相對準確的答案。但一旦問題觸及歷史上的階級差異，或者社會階層流動性等深層社會議題時，AI的表現就大打折扣。這反映出AI對于較為具體、制度性的歷史知識掌握得更好，但在需要深入理解人類社會復雜關系的議題上還有很大提升空間。

“這項研究的主要發現是，盡管大語言模型令人印象深刻，但在處理高級歷史問題時仍缺乏足夠深度的理解能力。”del Rio Chanona說，“它們在基本事實方面表現不錯，但在涉及更細微的博士級歷史研究時，還達不到要求。”在七個受測模型中，GPT-4 Turbo表現最佳，準確率為46%，而Llama-3.1-8B的表現最差，僅為33.6%。

研究團隊已開始著手完善這一測試體系，他們計劃通過增加來自欠發達地區的數據，以及納入更復雜的歷史問題來完善這一基準測試。Hauser表示，這些發現對歷史學家和AI開發者都具有重要價值，既有助于指導歷史研究中AI的應用，也為改進AI模型提供了方向。

相關論文信息：

https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/

本文鏈接：ChatGPT這門博士考試“不及格”http://www.lensthegame.com/show-11-16770-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：科學家從蛋白質動態層面解答早期胚胎發育失敗原因

下一篇：河南省國際科技合作項目擬立項公示

ChatGPT這門博士考試“不及格”

熱門資訊

推薦資訊

科學最熱文章