IT之家 10 月 27 日消息,今天上午,美團 LongCat 團隊發(fā)布并開源 LongCat-Video 視頻生成模型。根據官方介紹,其以統(tǒng)一模型在文生、圖生視頻基礎任務上達到開源 SOTA(最先進水平),并依托原生視頻續(xù)寫任務預訓練,實現分鐘級長視頻連貫生成,保障跨幀時序一致性與物理運動合理性,在長視頻生成領域具備顯著優(yōu)勢。

根據介紹,近年來,“世界模型”(World Model)可讓人工智能真正理解、預測甚至重構真實世界,從而被視作通往下一代智能的核心引擎。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng),“世界模型”賦予人工智能“看見”世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑:通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,人工智能得以在數字空間中模擬、推演乃至預演真實世界的運行。
作為基于 Diffusion Transformer(DiT)架構的多功能統(tǒng)一視頻生成基座,LongCat-Video 創(chuàng)新通過“條件幀數量”實現任務區(qū)分 —— 文生視頻無需條件幀、圖生視頻輸入 1 幀參考圖、視頻續(xù)寫依托多幀前序內容,原生支持三大核心任務且無需額外模型適配,形成“文生 / 圖生 / 視頻續(xù)寫”完整任務閉環(huán)。
文生視頻:可生成 720p、30fps 高清視頻,能精準解析文本中物體、人物、場景、風格等細節(jié)指令,語義理解與視覺呈現能力達開源 SOTA 級別。
圖生視頻:嚴格保留參考圖像的主體屬性、背景關系與整體風格,動態(tài)過程符合物理規(guī)律,支持詳細指令、簡潔描述、空指令等多類型輸入,內容一致性與動態(tài)自然度表現優(yōu)異。
視頻續(xù)寫:視頻續(xù)寫是 LongCat Video 的核心差異化能力,可基于多幀條件幀續(xù)接視頻內容,為長視頻生成提供原生技術支撐。
依托視頻續(xù)寫任務預訓練、Block-Causual Attention 機制和 GRPO 后訓練,LongCat-Video 可穩(wěn)定輸出 5 分鐘級別的長視頻,且無質量損失,號稱達到行業(yè)“頂尖”水平。
IT之家附有關鏈接如下:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
Project Page:https://meituan-longcat.github.io/LongCat-Video/
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。