龍年第一熱詞:Sora
甲辰龍年迎新,最為吸睛的科技圈大事當(dāng)屬橫空出世的文生視頻模型Sora。2月16日凌晨,OpenAI官方發(fā)布了文生視頻模型Sora。與之前市面上的同類工具相比,Sora具有完成更加復(fù)雜任務(wù)的能力,還能帶來更為生動(dòng)的多視角視頻,在生成視頻的時(shí)長(zhǎng)、流暢度和邏輯性等方面優(yōu)勢(shì)顯著。
有趣的是,Sora發(fā)布后,美股知名工具軟件公司Adobe股價(jià)隨即暴跌超7%,圖片版權(quán)公司Shutterstock跌逾5%,市值一夜蒸發(fā)超7000萬美元,奈飛、迪士尼等影視公司和數(shù)據(jù)資產(chǎn)企業(yè)Getty Images等股價(jià)亦有不同程度的下跌。而國(guó)內(nèi)A股,龍年甫一開市相關(guān)AI概念股就掀起漲停潮,不少蹭上Sora概念的小市值公司更是連續(xù)斬獲漲停。不同市場(chǎng)不同企業(yè)股價(jià)走勢(shì)的強(qiáng)烈反差,提醒著大家,對(duì)Sora應(yīng)該有更多的“冷思考”:和過去兩年間同樣掀起大量討論的ChatGPT、Midjourney等工具相比,Sora有何過人之處?又是否真能如一些人所鼓吹的那樣,“將掀起另一次工業(yè)革命”?
1
都是“文轉(zhuǎn)片”,Sora牛在哪?
根據(jù)OpenAI發(fā)布的示范,只需要給Sora一段二三十字的指令,它就可以生成一段長(zhǎng)達(dá)一分鐘的影片,可以是寫實(shí)影片,可以是動(dòng)畫,也可以是歷史片﹑黑白片﹑3D科幻片。
看到這里,一些“AI神教”信奉者已經(jīng)迫不及待預(yù)言,在不久將來,所有人都可以隨時(shí)隨地生成影片,即是說拍攝﹑繪畫﹑剪片制片的門檻將不再存在。
可是,通過“文字指令”來生成“影片”這件事情,Sora并非全球首家,過去Google、Meta或是創(chuàng)業(yè)公司Runway ML都有展示出類似的技術(shù)。
不過,在看到公布的幾十條示范視頻的逼真性和清晰度后,很多人還是被震撼到了。比如那條雪地上撒歡的大狗,毛發(fā)絲絲閃亮發(fā)光,很具有“大片質(zhì)感”。這一效果放在電影工業(yè)中,像科幻大片《阿凡達(dá)》中人物飄逸的長(zhǎng)發(fā),那是一大批人一筆筆畫了好幾個(gè)月后,在電腦幫助下制作出來的,Sora卻是自動(dòng)即時(shí)生成。再加上“60秒超長(zhǎng)長(zhǎng)度”“單視頻多角度鏡頭”“充滿情感的角色”“高度擬真的細(xì)節(jié)”和“世界模型”等等優(yōu)勢(shì),對(duì)pika、Runway、Stable Video等同行競(jìng)品堪稱“降維打擊”。
有網(wǎng)友在評(píng)論時(shí)稱,“gg Pixar(皮克斯動(dòng)畫制作公司完蛋了)”。連和OpenAI向來不對(duì)付的馬斯克,在看到Sora作品后,也寫下評(píng)論謂“gg humans(人類完蛋了)”。
2
技術(shù)上有何過人之處?
在技術(shù)層面,據(jù)記者了解,Sora的核心技術(shù)主要包括Diffusion Transformer架構(gòu)和時(shí)空patches。
OpenAI的技術(shù)報(bào)告顯示,基于Diffusion Transformer,從一開始看似靜態(tài)噪聲影片出發(fā),經(jīng)過多步驟的噪聲去除過程逐漸生成影片。而時(shí)空patches將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表現(xiàn)形式。同時(shí),該模型對(duì)語言有著深刻的理解,能夠準(zhǔn)確地演繹提示內(nèi)容,并生成情感表達(dá)充分且引人注目的角色。
這可能不太好理解,源碼資本在一份報(bào)告中通過三個(gè)步驟的一系列比喻進(jìn)行了解釋,讓大眾讀者更容易明白一些:
第一步,想象一下,你正在對(duì)一間雜亂無章的房間打掃整理,方法是用盡可能少的盒子裝下所有東西,同時(shí)確保日后能快速找到所需之物。視頻壓縮網(wǎng)絡(luò)正是遵循這一原理。它將一段視頻的內(nèi)容“打掃和組織”成一個(gè)更加緊湊、高效的形式(即降維)。
接下來,你會(huì)為每個(gè)盒子編寫一張清單。這樣,當(dāng)你需要找回某個(gè)物品時(shí),只需查看對(duì)應(yīng)的清單,就能快速定位它在哪個(gè)盒子里。在Sora中,類似的“清單”就是空間時(shí)間潛在補(bǔ)丁。通過視頻壓縮網(wǎng)絡(luò)處理后,Sora會(huì)將視頻分解成一個(gè)個(gè)小塊,這些小塊含有視頻中一小部分的空間和時(shí)間信息,就好像是對(duì)視頻內(nèi)容的詳細(xì)“清單”。這讓Sora在之后的步驟中能針對(duì)性地處理視頻的每一部分。
最后,想象你和朋友一起玩拼圖游戲。這個(gè)游戲的目標(biāo)是根據(jù)一段故事來拼出一幅圖,每人負(fù)責(zé)一部分。最終,大家將各自的拼圖部分合并,形成一幅完整的圖畫。在Sora的視頻生成過程中,Transformer模型正扮演著類似的角色。它接收空間時(shí)間潛在補(bǔ)丁(即視頻內(nèi)容的“拼圖片”)和文本提示(即“故事”),然后決定如何將這些片段轉(zhuǎn)換或組合以生成最終的視頻,從而講述文本提示中的故事。
通過這三個(gè)關(guān)鍵步驟的協(xié)同工作,Sora能夠?qū)⑽谋咎崾巨D(zhuǎn)化為具有豐富細(xì)節(jié)和動(dòng)態(tài)效果的視頻內(nèi)容。不僅如此,這一過程還極大地提升了視頻內(nèi)容生成的靈活性和創(chuàng)造力,使Sora成為一個(gè)強(qiáng)大的視頻創(chuàng)作工具。
浙商證券電子首席分析師蔣高振概括說:“Sora主要有四方面的突破:其一,視頻生成視頻。Sora可以依據(jù)原視頻,用自然語言對(duì)其進(jìn)行修改,以達(dá)到更換環(huán)境、天氣等元素的目的。其二,向過去拓展視頻。過去類似產(chǎn)品主要是向未來拓展,而Sora可以向過去拓展,同時(shí)保持結(jié)尾的一致性。其三,視頻拼接。Sora可將不同種類的視頻拼接至同一視頻的統(tǒng)一場(chǎng)景下。其四,具有交互反饋。”他認(rèn)為,此次Sora在時(shí)長(zhǎng)和效果上,均有了更加接近人類拍攝視頻的效果。
3
Sora是否被“神化”了?
如果只是“文生片”的超能力,Sora不太可能成為今天這么火爆的話題,關(guān)鍵點(diǎn)是OpenAI的技術(shù)報(bào)告最后提到,當(dāng)模型在大規(guī)模數(shù)據(jù)上訓(xùn)練后,模型表現(xiàn)出許多有趣的新興能力,這些能力使得Sora能夠模擬現(xiàn)實(shí)世界中人類、動(dòng)物和環(huán)境的某些方面。
也就是說,模型訓(xùn)練前并沒有給它輸入一些物理規(guī)則,然而模型在接受大規(guī)模數(shù)據(jù)的訓(xùn)練后,自然而然學(xué)習(xí)到了這些物理規(guī)律。
例如,隨著相機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持一致地移動(dòng)。視頻主體在暫時(shí)地被遮擋或者離開畫面后,后續(xù)也能繼續(xù)存在,并且也能保證主體在多個(gè)鏡頭畫面中,保持外形的一致性。
Sora有時(shí)還能夠模擬以簡(jiǎn)單方式影響世界狀態(tài)的行為。例如,畫家可以在畫布上留下隨時(shí)間持續(xù)的新筆觸,或者一個(gè)人吃漢堡時(shí)能留下咬痕。
技術(shù)報(bào)告最后的結(jié)論是,Sora的這些示例,無論是模擬真實(shí)場(chǎng)景還是虛擬場(chǎng)景,大部分都體現(xiàn)了物理規(guī)律。這表明基于Transformer的Diffusion模型,是發(fā)展世界模型的一條可行道路。
這一結(jié)論直接被英偉達(dá)AI研究院首席研究科學(xué)家Jim Fan解讀成,“這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。它是對(duì)許多世界的模擬,無論是真實(shí)的還是幻想的。”他認(rèn)為,Sora是一個(gè)可學(xué)習(xí)的模擬器,或“世界模型”。
正是為此,國(guó)內(nèi)外學(xué)術(shù)界、產(chǎn)業(yè)界展開了激烈爭(zhēng)論。
激進(jìn)者如360集團(tuán)董事長(zhǎng)周鴻祎認(rèn)為,Sora展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破。“一旦AI接上攝像頭,把所有的電影和視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí),這就離AGI(通用人工智能)真的不遠(yuǎn)了,不是10年20年的問題,可能一兩年就可以實(shí)現(xiàn)。”
Meta首席科學(xué)家楊立昆則質(zhì)疑說:“僅憑能夠根據(jù)提示生成逼真的視頻,并不能說明系統(tǒng)真正理解了物理世界。生成過程與基于世界模型的因果預(yù)測(cè)不同,生成式模型只需要從可能性空間中找到一個(gè)合理的樣本即可,而無需理解和模擬真實(shí)世界的因果關(guān)系。”
獵豹移動(dòng)董事長(zhǎng)傅盛表示,Sora這次的重大突破并不代表技術(shù)上的重大升級(jí),更可以理解成是一個(gè)暴力美學(xué)。文生圖和文生視頻引擎,目前對(duì)世界的理解還停留在初級(jí)水平,可能只是通過生成符合人類感官的圖像來表現(xiàn),而不是真正的理解。
4
概念股該狂飆還是該瑟瑟發(fā)抖?
撇開Sora是否真能“理解世界”不說,OpenAI此次發(fā)布的Sora只能算是個(gè)預(yù)覽版,目前僅向部分設(shè)計(jì)師和電影制作人等特定人群提供訪問權(quán)限,以獲取改進(jìn)反饋。公司不僅未公布訓(xùn)練Sora模型的數(shù)據(jù)等基礎(chǔ)細(xì)節(jié),也沒確定何時(shí)面向公眾發(fā)布。
即使如此,美國(guó)一些分析人士認(rèn)為,AI在視頻生成領(lǐng)域的巨大發(fā)展前景為塑造影視產(chǎn)業(yè)新業(yè)態(tài)打開大門的同時(shí),恐將顛覆現(xiàn)存影視產(chǎn)業(yè)。相關(guān)分析使得主營(yíng)圖像處理、視頻制作軟件的Adobe公司股價(jià)應(yīng)聲下跌超過7%。
在中國(guó),Sora發(fā)布適逢龍年春節(jié)長(zhǎng)假。假期一過,各大券商機(jī)構(gòu)就迫不及待釋放研報(bào)吹捧Sora,并順勢(shì)推薦相關(guān)概念股。多家機(jī)構(gòu)認(rèn)為,考慮到視頻數(shù)據(jù)量相對(duì)文本和圖片有幾何級(jí)的提升,AI視頻生成對(duì)訓(xùn)練和推理的算力需求將大幅提升,算力廠商有望持續(xù)受益,包括高新發(fā)展、恒為科技、中科曙光、工業(yè)富、寒武紀(jì)、海光信息、利通電子收漲,浪潮信息、景嘉微、龍芯中科、紫光股份等股價(jià)均一度大漲。
這些機(jī)構(gòu)還指,若Sora成為視頻創(chuàng)作領(lǐng)域的超級(jí)應(yīng)用,將帶來巨大的網(wǎng)絡(luò)設(shè)備升級(jí)需求,從而打開龍頭廠商估值空間。光模塊概念股的中際旭創(chuàng)、天孚通信、新易盛、源杰科技、聯(lián)特科技等全數(shù)收獲漲停。
從產(chǎn)業(yè)角度來看,經(jīng)濟(jì)學(xué)家任澤平在《Sora橫空出世,會(huì)顛覆哪些行業(yè)?》一文中分析指出,以后“扔一部小說、出一部大片”不是不可能了,在當(dāng)下的短視頻時(shí)代,Sora“一個(gè)人”就全包了短視頻的攝影、導(dǎo)演、剪輯等任務(wù)。未來,Sora生成的各種不同用途的視頻,對(duì)于現(xiàn)在的短視頻、直播、影視、動(dòng)漫、廣告等行業(yè)都會(huì)產(chǎn)生深遠(yuǎn)影響。
比如,在短視頻創(chuàng)作領(lǐng)域,Sora有望極大降低短劇制作的綜合成本,解決“重制作而輕創(chuàng)作”的共性問題;廣告制作公司通過Sora 模型生成符合品牌的廣告視頻,顯著減少拍攝和后期制作成本;游戲與動(dòng)畫公司使用Sora直接生成游戲場(chǎng)景和角色動(dòng)畫,減少了3D模型和動(dòng)畫制作成本。
對(duì)此,巨人網(wǎng)絡(luò)在回應(yīng)記者時(shí)表示,短期來看,作為生產(chǎn)力工具,Sora有望極大提高游戲行業(yè)內(nèi)容創(chuàng)作效率;長(zhǎng)期來看,Sora涌現(xiàn)出對(duì)3D模型的理解以及強(qiáng)大的物理世界仿真能力,會(huì)對(duì)游戲底層工具層面產(chǎn)生深遠(yuǎn)影響。公司目前已將自研AI視頻風(fēng)格遷移技術(shù)廣泛應(yīng)用于研運(yùn)環(huán)節(jié),賦能內(nèi)容創(chuàng)意表達(dá)。
微盟集團(tuán)相關(guān)技術(shù)負(fù)責(zé)人表示,Sora將重塑短視頻營(yíng)銷產(chǎn)業(yè)。可以預(yù)見,隨著Sora等AI大模型加持下視頻生成能力的“智能化”發(fā)展,視頻拍攝于制作尤其是線下部分場(chǎng)景可由技術(shù)生成或擴(kuò)展,從而大大縮減線下實(shí)體場(chǎng)地和維護(hù)團(tuán)隊(duì)的支出成本,同時(shí)極大地釋放視頻類廣告素材的制作生成效率,由此帶來的“降本和提效”,有望推動(dòng)AI視頻生成技術(shù)快速進(jìn)入商業(yè)化應(yīng)用階段。
近年來借微短劇走紅海內(nèi)外的中文在線則在投資者關(guān)系活動(dòng)中表示,該公司擁有IP,未來或可運(yùn)用Sora或類似應(yīng)用生成短劇/短視頻,通過其現(xiàn)有成熟短劇或短視頻營(yíng)銷等商業(yè)路徑進(jìn)行規(guī)模化、商業(yè)化的變現(xiàn)。
5
還有什么在限制著Sora?
Sora首次發(fā)布展示雖然堪稱驚艷,但其生成能力并不完美也是顯而易見的。
根據(jù)已披露的影片顯示,不少素材仍屬“一眼假”,不符合物理學(xué)規(guī)律等AI生成的Bug不少。例如,在呈現(xiàn)“紅酒杯在桌上摔碎”的鏡頭中,杯子摔碎前紅酒已灑滿桌子,違背了物理邏輯;在一個(gè)女人走在街上的片段中,背景中有許多模糊的人,但如果再仔細(xì)觀察,他們看起來就像是四處漂浮的僵尸,在大約28秒的時(shí)候,這個(gè)女人的左腳邁出了兩步,這在生物學(xué)上是不可能的;另一段視頻展示的螞蟻只有四條腿,而大多數(shù)正常螞蟻都有六條腿。
同時(shí),與文本對(duì)話和圖片生成相比,訓(xùn)練成本高昂、高質(zhì)量數(shù)據(jù)集的缺乏、影片描述的模糊性和復(fù)雜度以及知識(shí)產(chǎn)權(quán)合規(guī)或輸出內(nèi)容不侵權(quán)等,都將是Sora需要跨越的門檻及挑戰(zhàn)。
實(shí)際上,任何人都可以輕松地將文本轉(zhuǎn)換為視頻,這一想法既令人興奮,也讓人感到害怕。
在美國(guó),隨著名人、政客等人物的深度造假視頻在網(wǎng)上變得越來越普遍,相應(yīng)的倫理和安全問題也讓人心驚,尤其是在總統(tǒng)選舉年和緊張的政治局勢(shì)背景下,這些工具很可能會(huì)植入社會(huì)偏見和仇恨內(nèi)容。可能AI制作的視頻仍會(huì)有一些不一致的地方,但普通人可能根本不會(huì)注意到這些細(xì)節(jié)。
美國(guó)聯(lián)邦貿(mào)易委員會(huì)2月15日提出了禁止使用AI工具冒充個(gè)人的規(guī)則。FTC表示,它正在提議修改一項(xiàng)已經(jīng)禁止冒充企業(yè)或政府機(jī)構(gòu)的規(guī)則,將保護(hù)范圍擴(kuò)大到所有個(gè)人。
國(guó)內(nèi)也有不少法律界人士表態(tài)稱,Sora的開發(fā)和使用過程中或許會(huì)侵犯他人著作權(quán)、隱私權(quán),違反數(shù)據(jù)保護(hù)相關(guān)法律,此外或許還會(huì)出現(xiàn)人權(quán)與倫理問題。
就以近日網(wǎng)友們津津樂道的“給Sora看一遍金庸的作品,100集的《射雕英雄傳》就出來了”為例,據(jù)知名IT專業(yè)律師趙占領(lǐng)分析指出,如果視頻是根據(jù)小說內(nèi)容生成一個(gè)相應(yīng)的視頻,它實(shí)際上是構(gòu)成侵權(quán)的,“這種實(shí)際上和小說改編成影視劇是類似的性質(zhì),侵犯的是改編權(quán)”。
除此之外,由于目前OpenAI并沒有公布Sora具體的算力、能源消耗需求以及參數(shù)量,初步判斷,它需要的數(shù)據(jù)量、算力以及能源消耗將是巨大成本,而這與其下個(gè)階段的開發(fā)和推廣必然存在矛盾。有消息指,在Sora發(fā)布前夕,OpenAI首席執(zhí)行官Sam Altman正尋求最高7萬億美元募資,以重塑全球AI芯片的基礎(chǔ)設(shè)施。
記者觀察
它為什么沒有誕生在中國(guó)?
和一年前ChatGPT成為節(jié)后火爆話題相似,今年Sora的走紅,又帶起了一波話題:為什么Sora沒有誕生在中國(guó)呢?
一度被誤傳為Sora發(fā)明者之一的畢業(yè)于上海交大、現(xiàn)任紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧在澄清傳聞時(shí)談到,“對(duì)于Sora這樣的復(fù)雜系統(tǒng),人才第一,數(shù)據(jù)第二,算力第三,其他都沒有什么是不可替代的。”
至于“在問Sora為什么沒出現(xiàn)在中國(guó)的同時(shí),可能也得問問假設(shè)真的出現(xiàn)了(可能很快),我們有沒有準(zhǔn)備好?如何能保證知識(shí)和創(chuàng)意的通暢準(zhǔn)確傳播,讓每個(gè)人擁有講述和傳播自己故事的‘超能力’,做到某種意義上的信息平權(quán)。”
上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華在回應(yīng)相關(guān)話題時(shí)表示,大模型需要的無外乎就是人才、數(shù)據(jù)、算力。我們國(guó)家最不缺的就是工程人才,我也不認(rèn)為數(shù)據(jù)是我們的根本短板,可能現(xiàn)在最直接的因素還是算力上面,Sora說白了也是一個(gè)大力出奇跡的活,但我們現(xiàn)在算力跟不上,是一個(gè)明顯的短板。“另外,我認(rèn)為可能還很缺的因素,就是所謂的信心。我們中國(guó)人還是強(qiáng)調(diào)經(jīng)濟(jì)務(wù)實(shí),都喜歡跟哪個(gè)理念一結(jié)合就能夠去快速變現(xiàn)。這本質(zhì)上還是一個(gè)信仰和信心的問題。”
■采寫:新快報(bào)記者 鄭志輝
■圖片:VCG
本文鏈接:五大問題讓你明白,我們談?wù)揝ora時(shí)是在談?wù)撌裁?a href="/show-1-5985-0.html">http://www.lensthegame.com/show-1-5985-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。