12月18日,美團LongCat團隊正式發布并開源SOTA級虛擬人視頻生成模型LongCat-Video-Avatar。該模型基于LongCat-Video基座打造,延續"一個模型支持多任務"的核心設計,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及視頻續寫等核心功能,同時在底層架構上全面升級,實現動作擬真度、長視頻穩定性與身份一致性三大維度的顯著突破。在技術層面,該模型通過"解耦無條件引導"訓練方法,使虛擬人在語音間歇也能呈現眨眼、調整姿勢等自然狀態,告別傳統虛擬人"靜音即死機"的僵硬感。針對長視頻生成中常見的畫面質量退化問題,團隊提出了"跨片段隱空間拼接"策略,可支持生成長達5分鐘的視頻并保持畫面穩定。在身份一致性方面,模型采用了帶位置編碼的參考幀注入與"參考跳躍注意力"機制,在保持角色特征的同時減少動作僵化。在HDTF、CelebV-HQ、EMTD和EvalTalker等權威公開數據集的定量評測中,LongCat-Video-Avatar在多項核心指標上達到SOTA領先水平。該模型支持Diffusers、Safetensors、ONNX和PyTorch等多種主流框架,提供中英文雙語支持,適用于演員表演片段制作、歌手動態視頻生成、播客配套畫面創作、產品演示視頻制作及多人互動場景合成等多元場景。對于開發者而言,模型可通過GitHub倉庫、Hugging Face社區及項目官網三大官方平臺獲取完整資源。該模型采用MIT開源許可,實現全場景免費開放,個人用戶可免費用于學習研究,企業用戶可直接將其集成至商業產品開發,徹底降低了虛擬人視頻創作的技術與成本門檻。(來源于網絡)