解難題如探囊取物,答歷史卻步履維艱。在人工智能交出的“成績單”上,歷史學成了一門“短板學科”。奧地利復雜性科學中心(CSH)最新研究顯示,即便是最先進的GPT-4 Turbo,在博士級歷史知識測試中也僅獲得46%的準確率,雖然超過25%的“蒙題”水平,但距離“及格”仍有不小差距。相關研究成果近日在加拿大溫哥華舉行的神經信息處理系統會議(NeurIPS)上發布。
“大語言模型,如ChatGPT,在某些領域確實成果斐然,比如已基本可以替代法律助理。但要它們判斷歷史社會特征,尤其是涉及北美和西歐以外地區時,能力就相當有限。”CSH社會復雜性研究小組負責人Peter Turchin說。
該研究的通訊作者、英國倫敦大學學院助理教授Maria del Rio Chanona也承認:“我原以為AI會表現得更好,但歷史不僅僅是事實的堆砌,更需要理解和解釋。”
為系統評估AI的歷史理解能力,來自CSH、牛津大學等機構的研究團隊設計了一套基于全球歷史數據庫(Seshat)的測試體系。該數據庫收錄了全球600個社會的歷史資料,包含超過36000個數據點和2700多個學術參考文獻。研究第一作者、CSH駐站科學家Jakob Hauser表示:“我們不只考察AI能否識別正確事實,還要測試它們是否能理解歷史證據的推斷過程。”研究團隊據此對Gemini、OpenAI和Llama三大系列的七個模型展開測試。
研究發現,AI在理解歷史方面存在多個維度的局限性。具體而言,在時間跨度上,AI在遠古史(公元前8000年至前3000年)的把握較為準確,但在理解近代史(公元1500年至今)時表現卻明顯下滑。在地域分布上,AI對拉美和北美地區的歷史把握較準,但對非洲和大洋洲的歷史理解明顯不足,這表明AI模型的訓練數據可能存在地域偏差。
研究還發現,AI在不同類型的歷史問題上表現迥異。比如,當分析古代法律制度的演變或社會組織的復雜程度時,AI能給出相對準確的答案。但一旦問題觸及歷史上的階級差異,或者社會階層流動性等深層社會議題時,AI的表現就大打折扣。這反映出AI對于較為具體、制度性的歷史知識掌握得更好,但在需要深入理解人類社會復雜關系的議題上還有很大提升空間。
“這項研究的主要發現是,盡管大語言模型令人印象深刻,但在處理高級歷史問題時仍缺乏足夠深度的理解能力。”del Rio Chanona說,“它們在基本事實方面表現不錯,但在涉及更細微的博士級歷史研究時,還達不到要求。”在七個受測模型中,GPT-4 Turbo表現最佳,準確率為46%,而Llama-3.1-8B的表現最差,僅為33.6%。
研究團隊已開始著手完善這一測試體系,他們計劃通過增加來自欠發達地區的數據,以及納入更復雜的歷史問題來完善這一基準測試。Hauser表示,這些發現對歷史學家和AI開發者都具有重要價值,既有助于指導歷史研究中AI的應用,也為改進AI模型提供了方向。
相關論文信息:
https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/
本文鏈接:ChatGPT這門博士考試“不及格”http://www.lensthegame.com/show-11-16770-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 河南省國際科技合作項目擬立項公示