IT之家 7 月 11 日消息,螞蟻集團 10 日開源了名為 EchoMimic 的新項目,其能夠通過人像面部特征和音頻來幫人物“對口型”,結(jié)合面部標(biāo)志點和音頻內(nèi)容生成較為穩(wěn)定、自然的視頻。

該項目具備較高的穩(wěn)定性和自然度,通過融合音頻和面部標(biāo)志點(面部關(guān)鍵特征和結(jié)構(gòu),通常位于眼、鼻、嘴等位置)的特征,可生成更符合真實面部運動和表情變化的視頻。
其支持單獨使用音頻或面部標(biāo)志點生成肖像視頻,也支持將音頻和人像照片相結(jié)合做出“對口型”一般的效果。據(jù)悉,其支持多語言(包含中文普通話、英語)及多風(fēng)格,也可應(yīng)對唱歌等場景。
IT之家附相關(guān)鏈接:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。