設(shè)置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          揭秘Sora:開(kāi)發(fā)團(tuán)隊(duì)成立不到1年,核心成員含多位華人

          2024-02-21 09:11:45 來(lái)源:

            揭秘Sora:開(kāi)發(fā)團(tuán)隊(duì)成立不到1年,核心成員包含多位華人Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          每經(jīng)記者 文巧 Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無(wú)論是清晰度、連貫性和時(shí)間上都令人驚嘆,一時(shí)間,諸如“現(xiàn)實(shí)不存在了”的評(píng)論在全網(wǎng)刷屏。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            Sora是如何實(shí)現(xiàn)如此顛覆性的能力的呢?這就不得不提到其背后的兩項(xiàng)核心技術(shù)突破――Spacetime Patch(時(shí)空Patch)技術(shù)和Diffusion Transformer(DiT,或擴(kuò)散型 Transformer)架構(gòu)。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            《每日經(jīng)濟(jì)新聞》記者查詢(xún)這兩項(xiàng)技術(shù)的原作論文發(fā)現(xiàn),時(shí)空Patch的技術(shù)論文實(shí)際上是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。DiT架構(gòu)技術(shù)論文的一作則是Sora團(tuán)隊(duì)領(lǐng)導(dǎo)者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的計(jì)算機(jī)視覺(jué)會(huì)議上因“缺少創(chuàng)新性”而遭到拒絕,僅僅1年之后,就成為Sora的核心理論之一。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            如今,Sora團(tuán)隊(duì)毫無(wú)疑問(wèn)已經(jīng)成為世界上最受關(guān)注的技術(shù)團(tuán)隊(duì)之一。記者查詢(xún)OpenAI官網(wǎng)發(fā)現(xiàn),Sora團(tuán)隊(duì)由Peebles等3人領(lǐng)導(dǎo),核心成員包括12人,其中有多位華人。值得注意的是,這支團(tuán)隊(duì)十分年輕,成立時(shí)間尚未超過(guò)1年。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            創(chuàng)新“站在谷歌肩上”Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

             此前,OpenAI在X平臺(tái)上展示了Sora將靜態(tài)圖像轉(zhuǎn)換為動(dòng)態(tài)視頻的幾個(gè)案例,其逼真程度令人驚嘆。Sora是如何做到這一點(diǎn)的呢?這就不得不提到該AI視頻模型背后的兩項(xiàng)核心技術(shù)――DiT架構(gòu)和Spacetime Patch(時(shí)空Patch)。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            據(jù)外媒報(bào)道,Spacetime Patch是Sora創(chuàng)新的核心之一,該 項(xiàng) 技 術(shù) 是 建 立 在 谷 歌DeepMind對(duì)NaViT(原生分辨率視覺(jué)Transformer)和ViT(視覺(jué)Transformer)的早期研究基礎(chǔ)上。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            Patch可以理解為Sora的基本單元,就像GPT-4 的基本單元是Token。Token是文字的片段,Patch則是視頻的片段。GPT-4被訓(xùn)練以處理一串Token,并預(yù)測(cè)出下一個(gè)Token。Sora遵循相同的邏輯,可以處理一系列的Patch,并預(yù)測(cè)出序列中的下一個(gè)Patch。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            Sora之所以能實(shí)現(xiàn)突破,在于其通過(guò)Spacetime Patch將視頻視為補(bǔ)丁序列,Sora保持了原始的寬高比和分辨率,類(lèi)似于NaViT對(duì)圖像的處理。這對(duì)于捕捉視覺(jué)數(shù)據(jù)的真正本質(zhì)至關(guān)重要,使模型能夠從更準(zhǔn)確的表達(dá)中學(xué)習(xí),從而賦予Sora近乎完美的準(zhǔn)確性。由此,Sora能夠有效地處理各種視覺(jué)數(shù)據(jù),而無(wú)需調(diào)整大小或填充等預(yù)處理步驟。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            記者注意到,OpenAI發(fā)布的Sora技術(shù)報(bào)告中透露了Sora的主要理論基礎(chǔ),其中Patch的技術(shù)論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢(xún)預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn),該篇論文是由谷歌DeepMind的科學(xué)家們于2023年7月發(fā)表的。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            相關(guān)論文曾遭拒絕Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

             除此之外,Sora的另一個(gè)重大突破是其所使用的架構(gòu),傳統(tǒng)的文本到視頻模型(如Runway、Stable Diffusion)通常是擴(kuò)散模型(Diffusion Model),文本模型例如GPT-4則是Transformer模型,而Sora則采用了DiT架構(gòu),融合了前述兩者的特性。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            據(jù)報(bào)道,傳統(tǒng)的擴(kuò)散模型的訓(xùn)練過(guò)程是通過(guò)多個(gè)步驟逐漸向圖片增加噪點(diǎn),直到圖片變成完全無(wú)結(jié)構(gòu)的噪點(diǎn)圖片,然后在生成圖片時(shí),逐步減少噪點(diǎn),直到還原出一張清晰的圖片。Sora采用的架構(gòu)是通過(guò)Transformer的編碼器-解碼器架構(gòu)處理包含噪點(diǎn)的輸入圖像,并在每一步預(yù)測(cè)出更清晰的圖像。DiT架構(gòu)結(jié)合時(shí)空Patch,讓Sora能夠在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練,輸出質(zhì)量也得到大幅提高。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            OpenAI發(fā)布的Sora技術(shù)報(bào)告透露,Sora采用的DiT架構(gòu)是基于一篇名為Scalable diffusion models with transformers的學(xué)術(shù)論文。記者查詢(xún)預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn),該篇原作論文是2022年12月由伯克利大學(xué)研究人員William (Bill) Peebles和紐約大學(xué)的一位研究人員Saining Xie共同發(fā)表。William (Bill) Peebles之后加入了OpenAI,領(lǐng)導(dǎo)Sora技術(shù)團(tuán)隊(duì)。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            然而,戲劇化的是,Meta的AI科學(xué)家Yann LeCun在X平臺(tái)上透露,“這篇論文曾在2023年的計(jì)算機(jī)視覺(jué)會(huì)議(CVR2023)上因‘缺少創(chuàng)新性’而遭到拒絕,但在2023年國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議(ICCV2023)上被接受發(fā)表,并且構(gòu)成了Sora的基礎(chǔ)。”Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            作為最懂DiT架構(gòu)的人之一,在Sora發(fā)布后,Saining Xie在X平臺(tái)上發(fā)表了關(guān)于Sora的一些猜想和技術(shù)解釋?zhuān)⒈硎荆癝ora確實(shí)令人驚嘆,它將徹底改變視頻生成領(lǐng)域。”Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            “當(dāng)Bill和我參與DiT項(xiàng)目時(shí),我們并未專(zhuān)注于創(chuàng)新,而是將重點(diǎn)放在了兩個(gè)方面:簡(jiǎn)潔性和可擴(kuò)展性。”他寫(xiě)道:“簡(jiǎn)潔性代表著靈活性。關(guān)于標(biāo)準(zhǔn)的ViT,人們常忽視的一個(gè)亮點(diǎn)是,它讓模型在處理輸入數(shù)據(jù)時(shí)變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們只處理可見(jiàn)的區(qū)塊,忽略被遮蔽的部分。同樣,Sora可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來(lái)控制生成視頻的尺寸。”Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            不過(guò),他認(rèn)為,關(guān)于Sora仍有兩個(gè)關(guān)鍵點(diǎn)尚未被提及。一是關(guān)于訓(xùn)練數(shù)據(jù)的來(lái)源和構(gòu)建,這意味著數(shù)據(jù)很可能是Sora成功的關(guān)鍵因素;二是關(guān)于(自回歸的)長(zhǎng)視頻生成,Sora的一大突破是能夠生成長(zhǎng)視頻,但OpenAI尚未揭示相關(guān)的技術(shù)細(xì)節(jié)。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            開(kāi)發(fā)團(tuán)隊(duì)還有“00后”Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

             隨著Sora的爆火,Sora團(tuán)隊(duì)也來(lái)到世界舞臺(tái)的中央,引發(fā)了持續(xù)的關(guān)注。記者查詢(xún)OpenAI官網(wǎng)發(fā)現(xiàn),Sora團(tuán)隊(duì)由William Peebles等3人領(lǐng)導(dǎo),核心成員包括12人。從團(tuán)隊(duì)領(lǐng)導(dǎo)和成員的畢業(yè)和入職時(shí)間來(lái)看,這支團(tuán)隊(duì)成立的時(shí)間較短,尚未超過(guò)1年。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            從年齡上來(lái)看,這支團(tuán)隊(duì)也非常年輕,兩位研究負(fù)責(zé)人都是在2023年才剛剛博士畢業(yè)。William (Bill) Peebles于去年5月畢業(yè),其與Saining Xie合著的擴(kuò)散Transformer論文成為Sora的核心理論基礎(chǔ)。Tim Brooks于去年1月畢業(yè),是DALL-E 3的作者之一,曾在谷歌和英偉達(dá)就職。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            團(tuán)隊(duì)成員中甚至還有“00后”。團(tuán)隊(duì)中的Will DePue生于2003年,2022年剛從密西根大學(xué)計(jì)算機(jī)系本科畢業(yè),在今年1月加入Sora項(xiàng)目組。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

            此外,團(tuán)隊(duì)還有幾位華人。據(jù)媒體報(bào)道,Li Jing是DALL-E 3的共同一作,2014年本科畢業(yè)于北京大學(xué)物理系,2019年獲得MIT物理學(xué)博士學(xué)位,于2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開(kāi)資料介紹。Waz流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          本文鏈接:揭秘Sora:開(kāi)發(fā)團(tuán)隊(duì)成立不到1年,核心成員含多位華人http://www.lensthegame.com/show-5-6758-0.html

          聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。

          上一篇: 創(chuàng)歷史新高 民航春節(jié)假期運(yùn)客1799.2萬(wàn)人次

          下一篇: 中國(guó)內(nèi)地中小企業(yè)投資AI技術(shù)意愿全球最強(qiáng)

          熱門(mén)資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 久久久av波多野一区二区| 精品一区二区三区免费毛片| 精品女同一区二区三区免费播放| 亚洲国产精品综合一区在线| 亚洲av无码一区二区三区在线播放| 搡老熟女老女人一区二区| ...91久久精品一区二区三区| 色噜噜狠狠一区二区| 精品一区二区三区中文| 国产一区二区精品尤物| 亚洲国产激情在线一区| 日本精品视频一区二区| 国产另类TS人妖一区二区 | 亚洲国产精品一区二区第一页免| 国产一区二区在线观看app| 无码av免费一区二区三区试看 | 精品免费国产一区二区| 日韩精品人妻一区二区三区四区| 国产福利在线观看一区二区| 中文字幕无线码一区| 精品无人区一区二区三区在线| 欧洲精品免费一区二区三区| 亚洲午夜福利AV一区二区无码| 久久精品无码一区二区三区不卡| 亚洲人AV永久一区二区三区久久 | 亚洲日本精品一区二区| 国产精品亚洲一区二区无码| 无码乱人伦一区二区亚洲| 国产福利一区二区| 精品无码国产一区二区三区AV| 精品一区二区91| 在线观看日本亚洲一区| 亚洲欧洲∨国产一区二区三区| 在线视频精品一区| 亚洲一区在线免费观看| 国产一区二区三区夜色| 欧洲无码一区二区三区在线观看| 中文字幕无线码一区二区| 日本夜爽爽一区二区三区| 91福利视频一区| 一区二区三区四区在线观看视频|