Sora之父：文生視頻領(lǐng)域正在進入一個新的范式轉(zhuǎn)換階段

2024-06-15 19:00

文本設(shè)置

小號

默認(rèn)

大號

Plus(0條)

Sora團隊研究負(fù)責(zé)人，Dalle系列系列主要作者Aditya Ramesh近日分享了從iGPT和Dalle 1開始，OpenAI在圖像和視頻生成領(lǐng)域所發(fā)現(xiàn)的一系列范式改變：CLIP的成功，文字描述在圖像生成模型訓(xùn)練中越來越重要的地位。 | 相關(guān)閱讀（騰訊科技）

東木

執(zhí)大象天下往

OpenAI在這場AI革命中近乎燈塔般的存在。之前Sora的橫空出世，給賽道選手致命一擊，好在選手們都在調(diào)整狀態(tài)，迎頭趕上Sora，至少不要落得太遠。因此Sora之父Aditya Ramesh關(guān)于文生視頻領(lǐng)域正在進入一個新的范式轉(zhuǎn)換階段的演講，可以說關(guān)乎著文生視頻未來的走向，而對生成模型過去幾年中的發(fā)展以及未來的發(fā)展方向的探討無疑能讓同行們吸收能量，獲得突破的機緣。

Aditya Ramesh 介紹了 OpenAI 視頻生成團隊的研究成果，包括 Dalle 1、iGPT 和 CLIP 等模型，并分享了他對這些模型的觀察和思考。在Ramesh 看來，Dalle 1 是一個有趣的項目，但它并不是從視覺世界中提取智能信息的關(guān)鍵路徑。相比之下，CLIP 模型通過學(xué)習(xí)文本與圖像交集中的內(nèi)容，能夠更高效地提取圖像中的智能信息。而Dalle 3 的研究結(jié)果，即通過使用更詳細(xì)的描述和優(yōu)先考慮數(shù)據(jù)中學(xué)到的內(nèi)容，可以提高模型的訓(xùn)練效率和生成能力。

謝賽寧與Ramesh問答環(huán)節(jié)，讓人們了解到 OpenAI 在招聘策略、長期研究目標(biāo)以及對高等教育角色的看法等問題。OpenAI 的招聘策略注重潛力和多樣性，同時專注于設(shè)定長期的研究目標(biāo)，并為研究人員提供足夠的計算資源。Ramesh對網(wǎng)絡(luò)視頻對 AGI 發(fā)展的重要性以及未來的研究方向的看法是，現(xiàn)有的網(wǎng)絡(luò)視頻數(shù)據(jù)可能已經(jīng)足夠支持目前的研究，但未來需要探索新的數(shù)據(jù)源和感官媒介來幫助實現(xiàn) AGI 的目標(biāo)。Ramesh的演講并引發(fā)的討論，對于關(guān)注人工智能和生成模型的研究人員和從業(yè)者來說，無疑是個啟發(fā)。

評論

撰寫或查看更多評論

請打開財富Plus APP

前往打開

熱讀文章

關(guān)注我們

Sora之父：文生視頻領(lǐng)域正在進入一個新的范式轉(zhuǎn)換階段

東木

撰寫或查看更多評論