美團(tuán)開源虛擬人視頻生成模型 LongCat-Video-Avatar：號(hào)稱“不說話”時(shí)都像人

2025/12/18 17:57:08 來源：IT之家作者：清源責(zé)編：清源

評(píng)論：

感謝IT之家網(wǎng)友斯文當(dāng)不了飯吃、Diixx 的線索投遞！

IT之家 12 月 18 日消息，據(jù)“龍貓 LongCat”公眾號(hào)今晚的推文，美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布并開源 SOTA 級(jí)虛擬人視頻生成模型 ——LongCat-Video-Avatar。

該模型基于 LongCat-Video 基座打造，延續(xù)“一個(gè)模型支持多任務(wù)”的核心設(shè)計(jì)，原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及視頻續(xù)寫等核心功能，同時(shí)在底層架構(gòu)上全面升級(jí)，實(shí)現(xiàn)動(dòng)作擬真度、長(zhǎng)視頻穩(wěn)定性與身份一致性三大維度的突破。

據(jù)官方介紹，該模型具備如下技術(shù)亮點(diǎn)。

“告別僵硬，迎接鮮活”：不僅能指揮嘴型，還能同步指揮眼神、表情和肢體動(dòng)作，實(shí)現(xiàn)豐富飽滿的情感表達(dá)。

連“不說話”的時(shí)候，都很像人：美團(tuán)通過 Disentangled Unconditional Guidance（解耦無條件引導(dǎo)）訓(xùn)練方法，讓模型明白了“靜音”不等于“死機(jī)”。在說話的間歇，虛擬人也會(huì)如同人類一般自然地眨眼、調(diào)整坐姿、放松肩膀。

據(jù)介紹，LongCat-Video-Avatar 因此成為首個(gè)同時(shí)支持文字、圖片、視頻三種生成模式的“全能選手”，虛擬人從此有了“真正的生命力”。

在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權(quán)威公開數(shù)據(jù)集上的定量評(píng)測(cè)表明，LongCat-Video-Avatar 在多項(xiàng)核心指標(biāo)上達(dá)到 SOTA 領(lǐng)先水平。

IT之家附項(xiàng)目地址：

GitHub: https://github.com/meituan-longcat/LongCat-Video
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project: https://meigen-ai.github.io/LongCat-Video-Avatar/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

美團(tuán)開源虛擬人視頻生成模型 LongCat-Video-Avatar：號(hào)稱“不說話”時(shí)都像人

相關(guān)文章