
2月16日凌晨,OpenAI發(fā)布了其最新成果——文生視頻模型Sora。這一模型可以根據(jù)用戶的指令,生成長達(dá)60秒的高清視頻,同時也能夠從靜態(tài)圖像中生成視頻,并對現(xiàn)有視頻進(jìn)行擴(kuò)展和填補缺失內(nèi)容。據(jù)介紹,Sora不僅可以生成復(fù)雜場景,包括多角色和多角度鏡頭,還能精確呈現(xiàn)物體和背景的細(xì)節(jié),以及角色的情感表達(dá)。
OpenAI官網(wǎng)上已經(jīng)發(fā)布了48個視頻demo,展示了Sora的強大功能。這些demo中,Sora展現(xiàn)了出色的細(xì)節(jié)呈現(xiàn)能力,并且能夠深刻理解物體在現(xiàn)實世界中的存在狀態(tài),生成具有豐富情感的角色。例如,通過一個Prompt描述,在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標(biāo)志的街道上,Sora生成的視頻中,女士身著黑色皮衣、紅色裙子,在霓虹街頭行走,不僅主體連貫穩(wěn)定,還包含了多個鏡頭,展現(xiàn)了豐富的細(xì)節(jié)和情感表達(dá)。
除了能夠生成復(fù)雜場景外,Sora還可以根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻。通過使用Transformer架構(gòu),Sora具有極強的擴(kuò)展性,并且利用了類似于GPT中的標(biāo)記(Token)的“補丁”數(shù)據(jù)單位集合,使得模型能夠在更廣泛的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練和擴(kuò)散變化。
OpenAI表示,他們的目標(biāo)是教會AI理解和模擬運動中的物理世界,以解決現(xiàn)實世界中需要交互的問題。Sora是在對DALL·E和GPT的研究基礎(chǔ)上構(gòu)建的,利用了DALL·E 3的重述提示詞技術(shù),為視覺模型提供高描述性的標(biāo)注,從而使得模型能夠更好地遵循文本指令。
在線地址:https://openai.com/sora













