所有語言
分享
文章來源:AI鯨選社
作者:到底哥
在Sora難產卻爆🔥的這幾天中,每個人都有點望梅不止渴的心態。
未來是什麼,ChatGPT形成的共識可能用了3月,Sora形成共識可能也就3天。大家也不用焦慮,從而被割韭菜。以下這個網站能排隊提前申請測試資格,也可以看到Sora目前生成的視頻Demo和對應提示詞,並且支持漢語在內的多語言。
當然,這個網站也是個套殼網站,繳費還是等Sora上線后,去官網繳費比較靠譜。
這裏給大家潑一盆冷水,Sora上線后,能AI生成的場景肯定有限,並且複雜度不會太高,價格也肯定很貴(ChatGPT4一個月20美元,Sora肯定更貴),所以早期幾乎不會有什麼實際用途。
當然,未來迭代幾代后,殺死剪輯工具剪映肯定不在話下,就像剪映讓Adobe Pr買斷費大幅降低一樣。
這其中就出現了一個問題,在Sora難實用化和剪映不夠智能的中間態,還有沒有可用智能的AI視頻製作工具?
這時候,Meta 發布了一個可以利用 AI 自動剪輯視頻的 Agents LAVE。
這是我翻譯的LAVE官方宣傳文檔,大家對這個產品可以有一個清晰的認知。
我們提供了LAVE產品,一個視頻編輯工具,是由LLM提供的語言增強。LAVE引入了一個基於LLM的執行Agents,能夠理解用戶的自然語言命令、計劃和執行相關操作,以實現用戶的編輯目標。
這些動作包括概念化協助,如頭腦風暴和描述視頻料庫,包括基於語義的視頻檢索、故事板(將視頻排序以形成敘事)和修剪剪輯,為了啟用這些代理動作,LAVE使用視覺語言模型(VLMs)自動生成視頻的視覺效果。
我們從產品界面看LAVE的布局:
從LAVE的視頻生成界面可以看到,左邊是自然語言描述視頻內容的窗口,可以輸入提示詞以及展示 LLM 詳細的剪輯邏輯。
右邊是AI直接生成的視頻,可以鼠標點擊后獲得 LLM, 幫你總結的這段視頻的內容,不需要播放, AI 也會自動生成的素材標題。
底下是視頻自動剪輯的可視軸,視頻就在這裏自動和手動剪輯。
實際上,LAVE產品化也沒那麼完整,更多還是Agents模式跑程序。
具體是LAVE根據你指令的角色分配之後,描述Agents可以執行的一系列動作。LAVE從行動計劃中解析每個行動描述,並將其轉化為相應的後端函數調用。
可調用5種內容:1)素材概覽,2)創意頭腦風暴,3)視頻檢索,4)故事板,5)剪輯修剪。前四種功能可通過Agents訪問,第5種直接操作。
其中,基於語言的視頻檢索是通過向量存儲數據庫實現的,而其餘功能則是通過LLM提示工程實現的。LAVE以每秒一幀的速率對視頻幀進行採樣。然後使用大模型對每幀進行標題標註。
LAVE到底好不好用,官網說法是LAVE為視頻編輯提供了兩種交互模式:代理輔助和直接操作。這種雙重模式為用戶提供了靈活性,並允許他們根據需要細化代理操作。
其中8名試驗者說非常好用,8名人士中有新手也有成熟的視頻剪輯師。
其實到底好不好用,可能在於LLM對視頻每幀的理解能力,這就需要產品正式發布時才可用。
不過從現在來看,Sora的世界模型、物理引擎,被很多技術大牛評論並不可能,只是將訓練的數據壓縮權重。
而剪映是通過視頻庫中給視頻打標籤,然後合成相應內容,對視頻的每一幀理解不到位,所以合成的只是粗略符合,而且現在抖音會給剪映AI生成的視頻限流。
LAVE的中間態是深刻了解視頻每一幀,然後自動剪輯成符合每一句文案的畫面。未來配合Sora使用,可能對短視頻和廣告製作行業,都將快速產生影響。
其實國內也有創業者做過類似的產品Demo,甚至設計了視頻自動發布的部分,只是這款複雜的產品沒能最終面市。
只能說現在視頻為王的時代,字節跳動的張楠都去親自負責剪映,類似產品確實有機會。最終比拼的是,用戶手中使用的效果。