設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          ChatGPT這門博士考試“不及格”

          2025-01-25 09:27:30 來源: 中國科學報

           FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          解難題如探囊取物,答歷史卻步履維艱。在人工智能交出的“成績單”上,歷史學成了一門“短板學科”。奧地利復雜性科學中心(CSH)最新研究顯示,即便是最先進的GPT-4 Turbo,在博士級歷史知識測試中也僅獲得46%的準確率,雖然超過25%的“蒙題”水平,但距離“及格”仍有不小差距。相關研究成果近日在加拿大溫哥華舉行的神經信息處理系統會議(NeurIPS)上發布。
          FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “大語言模型,如ChatGPT,在某些領域確實成果斐然,比如已基本可以替代法律助理。但要它們判斷歷史社會特征,尤其是涉及北美和西歐以外地區時,能力就相當有限。”CSH社會復雜性研究小組負責人Peter Turchin說。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究的通訊作者、英國倫敦大學學院助理教授Maria del Rio Chanona也承認:“我原以為AI會表現得更好,但歷史不僅僅是事實的堆砌,更需要理解和解釋。”FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為系統評估AI的歷史理解能力,來自CSH、牛津大學等機構的研究團隊設計了一套基于全球歷史數據庫(Seshat)的測試體系。該數據庫收錄了全球600個社會的歷史資料,包含超過36000個數據點和2700多個學術參考文獻。研究第一作者、CSH駐站科學家Jakob Hauser表示:“我們不只考察AI能否識別正確事實,還要測試它們是否能理解歷史證據的推斷過程。”研究團隊據此對Gemini、OpenAI和Llama三大系列的七個模型展開測試。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究發現,AI在理解歷史方面存在多個維度的局限性。具體而言,在時間跨度上,AI在遠古史(公元前8000年至前3000年)的把握較為準確,但在理解近代史(公元1500年至今)時表現卻明顯下滑。在地域分布上,AI對拉美和北美地區的歷史把握較準,但對非洲和大洋洲的歷史理解明顯不足,這表明AI模型的訓練數據可能存在地域偏差。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究還發現,AI在不同類型的歷史問題上表現迥異。比如,當分析古代法律制度的演變或社會組織的復雜程度時,AI能給出相對準確的答案。但一旦問題觸及歷史上的階級差異,或者社會階層流動性等深層社會議題時,AI的表現就大打折扣。這反映出AI對于較為具體、制度性的歷史知識掌握得更好,但在需要深入理解人類社會復雜關系的議題上還有很大提升空間。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “這項研究的主要發現是,盡管大語言模型令人印象深刻,但在處理高級歷史問題時仍缺乏足夠深度的理解能力。”del Rio Chanona說,“它們在基本事實方面表現不錯,但在涉及更細微的博士級歷史研究時,還達不到要求。”在七個受測模型中,GPT-4 Turbo表現最佳,準確率為46%,而Llama-3.1-8B的表現最差,僅為33.6%。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究團隊已開始著手完善這一測試體系,他們計劃通過增加來自欠發達地區的數據,以及納入更復雜的歷史問題來完善這一基準測試。Hauser表示,這些發現對歷史學家和AI開發者都具有重要價值,既有助于指導歷史研究中AI的應用,也為改進AI模型提供了方向。FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          相關論文信息:FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/FYw流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:ChatGPT這門博士考試“不及格”http://www.lensthegame.com/show-11-16770-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 科學家從蛋白質動態層面解答早期胚胎發育失敗原因

          下一篇: 河南省國際科技合作項目擬立項公示

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲一区二区三区在线观看蜜桃| 国内精品视频一区二区八戒| 精品一区二区三区自拍图片区| 亚洲国产精品一区二区久| 色一情一乱一伦一区二区三欧美| 日韩免费视频一区二区| 亚洲综合一区二区国产精品| 亚洲一区免费观看| 91久久精品午夜一区二区| 麻豆AV一区二区三区| 日韩精品一区在线| 一区二区三区视频网站| 成人免费一区二区三区| 亚洲爆乳精品无码一区二区三区| 久久久久久免费一区二区三区| 一区二区三区午夜视频| 国产福利一区二区| 国产精品丝袜一区二区三区| 91久久精品午夜一区二区| 日本精品一区二区在线播放| 国产午夜毛片一区二区三区| 精品国产一区AV天美传媒| 一区二区传媒有限公司| 视频在线一区二区三区| 久久综合亚洲色一区二区三区| 变态调教一区二区三区| 日产亚洲一区二区三区| 人妻体内射精一区二区| 精品久久久久久无码中文字幕一区| 国产福利一区二区在线视频 | 日韩a无吗一区二区三区| 日本无卡码免费一区二区三区| 国产爆乳无码一区二区麻豆| 青娱乐国产官网极品一区| 人妻体内射精一区二区三区| 台湾无码AV一区二区三区| 国产一区二区免费在线| 亚洲AV无码一区二区三区久久精品| 日韩精品无码一区二区三区四区| 精品乱人伦一区二区| 精品免费AV一区二区三区|