美團發(fā)布開源 LongCat-Video 視頻生成模型，可穩(wěn)定輸出 5 分鐘級內容

2025/10/27 10:50:44 來源：IT之家作者：清源責編：清源

評論：

IT之家 10 月 27 日消息，今天上午，美團 LongCat 團隊發(fā)布并開源 LongCat-Video 視頻生成模型。根據官方介紹，其以統(tǒng)一模型在文生、圖生視頻基礎任務上達到開源 SOTA（最先進水平），并依托原生視頻續(xù)寫任務預訓練，實現分鐘級長視頻連貫生成，保障跨幀時序一致性與物理運動合理性，在長視頻生成領域具備顯著優(yōu)勢。

根據介紹，近年來，“世界模型”（World Model）可讓人工智能真正理解、預測甚至重構真實世界，從而被視作通往下一代智能的核心引擎。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng)，“世界模型”賦予人工智能“看見”世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑：通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識，人工智能得以在數字空間中模擬、推演乃至預演真實世界的運行。

作為基于 Diffusion Transformer（DiT）架構的多功能統(tǒng)一視頻生成基座，LongCat-Video 創(chuàng)新通過“條件幀數量”實現任務區(qū)分 —— 文生視頻無需條件幀、圖生視頻輸入 1 幀參考圖、視頻續(xù)寫依托多幀前序內容，原生支持三大核心任務且無需額外模型適配，形成“文生 / 圖生 / 視頻續(xù)寫”完整任務閉環(huán)。

文生視頻：可生成 720p、30fps 高清視頻，能精準解析文本中物體、人物、場景、風格等細節(jié)指令，語義理解與視覺呈現能力達開源 SOTA 級別。
圖生視頻：嚴格保留參考圖像的主體屬性、背景關系與整體風格，動態(tài)過程符合物理規(guī)律，支持詳細指令、簡潔描述、空指令等多類型輸入，內容一致性與動態(tài)自然度表現優(yōu)異。
視頻續(xù)寫：視頻續(xù)寫是 LongCat Video 的核心差異化能力，可基于多幀條件幀續(xù)接視頻內容，為長視頻生成提供原生技術支撐。

依托視頻續(xù)寫任務預訓練、Block-Causual Attention 機制和 GRPO 后訓練，LongCat-Video 可穩(wěn)定輸出 5 分鐘級別的長視頻，且無質量損失，號稱達到行業(yè)“頂尖”水平。

IT之家附有關鏈接如下：

GitHub：https://github.com/meituan-longcat/LongCat-Video
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video
Project Page：https://meituan-longcat.github.io/LongCat-Video/

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：美團，人工智能，LongCat

美團發(fā)布開源 LongCat-Video 視頻生成模型，可穩(wěn)定輸出 5 分鐘級內容

相關文章

美團發(fā)布開源 LongCat-Video 視頻生成模型，可穩(wěn)定輸出 5 分鐘級內容