要點(diǎn):
MIT的研究團(tuán)隊(duì)通過對語言模型的系統(tǒng)評估,展示了使用純文本模型訓(xùn)練視覺概念表征的可能性,通過代碼生成圖像,實(shí)現(xiàn)視覺學(xué)習(xí)系統(tǒng)。
雖然語言模型無法直接處理像素形式的視覺信息,但通過對字符串關(guān)系的建模,研究人員成功訓(xùn)練出能夠理解和生成復(fù)雜視覺概念的模型。
研究結(jié)果表明,語言模型在生成復(fù)雜場景方面表現(xiàn)出色,但在捕捉視覺細(xì)節(jié)如紋理、精確形狀等方面仍有改進(jìn)空間,通過文本糾錯(cuò)可進(jìn)一步提升模型的視覺生成能力。
1月31日 消息:最近,MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員進(jìn)行了一項(xiàng)有趣的研究,通過評估語言模型的視覺能力,揭示了純文本模型訓(xùn)練視覺概念表征的新可能性。
他們使用代碼而非圖像進(jìn)行渲染和表示,成功地教會(huì)語言模型生成和理解復(fù)雜的視覺概念。雖然生成的圖像可能不像自然圖像,但通過模型的自我糾正,研究人員證明了對字符串和文本進(jìn)行精確建模可以教會(huì)語言模型有關(guān)視覺世界的多種概念。
論文地址:https://arxiv.org/pdf/2401.01862.pdf
研究人員構(gòu)建了三個(gè)不同復(fù)雜度的文本描述數(shù)據(jù)集,從簡單的形狀和組合到復(fù)雜的場景,評估了模型在生成、識別和修改圖像渲染代碼方面的能力。
實(shí)驗(yàn)結(jié)果顯示,語言模型在生成由多個(gè)物體組成的復(fù)雜視覺場景方面表現(xiàn)出色,但在捕捉視覺細(xì)節(jié)方面有一些局限。通過文本糾錯(cuò),研究人員成功地改善了模型的視覺生成能力,為使用純文本模型訓(xùn)練視覺系統(tǒng)提供了新的思路。
研究中的一個(gè)關(guān)鍵發(fā)現(xiàn)是,語言模型在生成代碼方面表現(xiàn)出相當(dāng)高效的能力,但在識別以代碼表示的視覺概念方面較為困難。與人類相反,模型在生成復(fù)雜場景方面表現(xiàn)出色,但在解釋代碼內(nèi)容上存在難題。通過使用自身生成的自然語言反饋,研究人員成功地通過迭代過程改善了模型的視覺效果。
綜合而言,這項(xiàng)研究拓展了我們對語言模型的理解,展示了它們不僅可以理解視覺概念,還能夠通過文本生成和糾錯(cuò)進(jìn)行視覺學(xué)習(xí)。這為未來發(fā)展更強(qiáng)大的純文本模型提供了啟示,有望推動(dòng)語言模型在視覺領(lǐng)域的更廣泛應(yīng)用。
本文鏈接:文本模型訓(xùn)練過程「MIT最新研究:純文本模型也能訓(xùn)練出視覺表征 用代碼就能作畫」http://www.lensthegame.com/show-3-8617-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 200GB!AutoMathText:專注數(shù)學(xué)文本的超大規(guī)模數(shù)據(jù)集_wmt數(shù)據(jù)集