不靠譜的AI？這一研究領域需警惕

2024-01-03 16:02:36 來源：科學網微信公眾號

觀看：651

文｜卜金婷田瑞穎

《自然》近日發文警告，對人工智能（AI）的不當使用或將催生大量不可靠或無用的研究，導致可重復性危機。而基于AI的科學文獻中的錯誤，是否已經在實際臨床中造成真正的危險尚不清楚。

在2020年底新冠疫情大流行期間，由于一些國家病毒感染檢測試劑短缺，利用胸部X射線診斷的方法備受關注，但人眼很難準確分辨感染與非感染個體之間的差異。一個印度團隊的報告稱，AI可以利用機器學習分析X射線圖像。這篇論文被引用了900多次。

次年9月，美國堪薩斯州立大學的計算機科學家Sanchari Dhar和Lior Shamir進行了更深入的研究。他們使用與印度團隊相同的圖像數據集來訓練機器學習算法，但只分析其中不顯示任何身體部位的空白背景部分，結果顯示，AI仍然能夠在遠高于隨機水平的情況下識別出感染病例。

這意味著，AI系統可以利用這些圖像數據成功完成診斷任務，卻無法學習到任何與臨床相關的特征——這可能使得它在醫學上毫無用處。

Shamir和Dhar還發現其他幾個案例，AI從圖像的空白處或無意義部分得到了類似的結果，其中一些論文被引用了數百次。這也讓Shamir擔憂道：“這些例子很有趣，但在生物醫學領域可能是致命的。”

“玩弄”數據和參數的AI

2021年的一項研究，回顧檢查了62項使用機器學習從胸部X射線或計算機斷層掃描中診斷是否感染新冠，結論指出，由于方法論缺陷或圖像數據集中的偏見，沒有一個AI模型在臨床上是有用的。

“AI允許研究人員‘玩弄’數據和參數，直到結果與期望一致。”Shamir說。

機器學習算法利用數據集訓練，直到它們能產生正確的輸出，隨后研究人員在訓練數據集的基礎上對其性能進行評估。雖然專家強調必須保持訓練集與測試集分開，但一些研究人員顯然沒有意識到這一點。

這之間的關系很微妙：如果在訓練數據集中取一個隨機子集作為測試數據，很可能導致數據泄漏；如果數據集來自同一患者或同一科學儀器，AI可能會學習識別與該患者或該儀器相關的特征，而不是解決特定的醫學問題。

美國普林斯頓大學計算機科學家Sayash Kapoor和Arvind Narayanan在今年作報告時也指出，這種數據泄露問題已在他們研究的17個領域中造成了可重復性問題，影響了數百篇論文。

糾正測試數據集也可能導致問題。如果數據不平衡，研究人員可能會采用重新平衡算法，例如合成少數群體過度采樣技術（SMOTE），該技術可以為采樣不足的區域合成數據。事實上，SMOTE并沒有平衡數據集，而是制造了與原始數據固有偏見相同的數據集。

即使是專家也很難避免這些問題。2022年，法國數字科學與技術研究所的數據科學家Ga?l Varoquaux和同事在巴黎發起了一個挑戰，要求參賽團隊開發出一種算法，能夠通過磁共振成像獲得的大腦結構數據對自閉癥譜系障礙作出準確診斷。

該挑戰共收到了來自61個團隊的589份算法，表現最佳的10個算法主要使用了機器學習，但是，這些算法并不能很好地推廣到另一個數據集上，該數據集與提供給參賽團隊用于訓練和測試其模型的公共數據是保密的。

Varoquaux認為，本質上是因為在小數據集上開發和測試算法，即使試圖避免數據泄露，最終也會因為與數據中的特定模式保持一致，從而使方法失去通用性。

解決問題

今年8月，Kapoor、Narayanan及其同事提出了一種解決問題的方法，即制定了一個基于AI的科學報告標準清單，包含涉及數據質量、建模細節和數據泄漏風險等32個問題。他們表示，該清單為基于機器學習的研究提供了跨學科的標桿。

很多人認為，使用AI的研究論文應該完全公開方法和數據。分析公司Booz Allen Hamilton的數據科學家Edward Raff在2019年進行的一項研究發現，255篇使用AI的論文中只有63.5%能夠復現，但加拿大蒙特利爾麥吉爾大學的計算機科學家Joelle Pineau等人表示，如果原始作者積極提供數據和代碼，那么重復率會高達85%。

基于此，Pineau和同事提出了一份基于AI的論文協議，規定提交時必須包含源代碼，并根據機器學習可重復性清單進行評估。但研究人員注意到，在計算科學領域進行完全可重復性都是困難的，更不用說在AI中了。

實際上，可重復性并不能保證AI能提供正確的結果，只是保證提供自洽的結果。荷蘭埃因霍溫科技大學的計算機科學家Joaquin Vanschoren就警告說：“很多影響力高的AI是由大公司創建的，他們很少立即公開代碼。有時也不愿意發布代碼，因為他們認為還沒有準備好接受公眾的審查。”

“如果沒有足夠的數據集，研究人員就無法正確評估模型，最終只會發表能顯示很好性能的低質量結果。”美國非營利機構可重復研究協會的主管Joseph Cohen強調，這個問題在醫學研究中十分嚴重。

生成式AI潛在的風險更大，它們可以從其訓練數據集中生成新的數據。例如，研究人員可以使用這些算法提高圖像的分辨率，除非十分小心，否則可能會引入人為痕跡。谷歌科學家Viren Jain表示，雖然自己致力于開發用于可視化和操作數據集的AI，但他也擔心研究人員濫用生成式AI。

另外，一些研究人員認為，必須改變有關數據呈現和報告的文化規范，才能讓問題真正得到解決。

加拿大多倫多大學的計算機科學家Benjamin Haibe-Kains對此并不樂觀。2020年，他和同事就批評了一項關于機器學習檢測乳腺癌的研究：“由于缺乏支持該研究的計算代碼，該研究并沒有科學價值。”

對此，該研究作者表示，由于部分數據來自醫院，他們有隱私顧慮，無權分享全部信息。

Haibe-Kains還指出，作者并不總是遵守數據透明度準則，期刊編輯在該方面通常沒有進行強有力的反擊。他認為問題不在于編輯放棄透明度的原則，而是編輯和審稿人可能對拒絕分享數據、代碼等的真實理由了解不足，因此往往滿足于一些不合理的理由。

事實上，作者可能并不了解確保其工作的可靠性和可重復性需要什么。

今年Nature進行的一項調查就詢問了1600多名研究人員關于對AI論文的同行評審是否足夠的看法。對于使用AI進行工作的科學家，有四分之一認為評審是足夠的，四分之一認為不夠，大約有一半表示不知道。

“我們應該努力適應新工具”

并非所有人都認為AI的危機正在逼近。

“我還沒有看到AI導致無法重復的結果增加。事實上，如果謹慎使用，AI可以幫助消除研究人員工作中的認知偏差。”神經科學家Lucas Stetzik說。

雖然人們普遍擔心許多已發表AI研究結果的有效性或可靠性，但目前還不清楚這些結果是否會導致臨床實踐中誤診。“如果這種情況已經發生，我也不會感到震驚。”芝加哥德保羅大學的Casey Bennett說。

在Cohen看來，問題可能會自行解決，就像其他新科學方法的初期一樣，“發表劣質論文的作者今后也不會再有工作機會，接受這些文章的期刊也會被認為不可信，優秀的作者也不會愿意在這些期刊上發表論文”。

Bennett認為，再過十幾年，研究人員將對AI能提供什么以及如何使用AI有更深入的認知，就像生物學家花了很長時間才更好地理解如何將基因分析與復雜疾病聯系起來一樣。

“人們越來越多地向基礎模型靠攏，例如OpenAI的GPT-3和GPT-4。這比內部訓練的定制模型更有可能產生可重復的結果。”谷歌公司的科學家Viren Jain認為，對于生成式AI，當所使用的模型差不多時，可重復性可能會提高。

相關信息：

https://www.nature.com/articles/d41586-023-03817-6

本文鏈接：不靠譜的AI？這一研究領域需警惕http://www.lensthegame.com/show-11-1878-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任，僅提供存儲服務。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇： 2023年最“炫”的六大分子

下一篇：美國功勛火箭殞命：3年半重復使用19次

不靠譜的AI？這一研究領域需警惕

熱門資訊

推薦資訊

科學最熱文章