我要投稿

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

发布日期：2025-12-18 21:44:11 浏览次数： 1862

作者：美团技术团队

微信搜一搜，关注“美团技术团队”

今年 8 月，美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现，迅速成为语音驱动虚拟人领域的主流工具，吸引全球数十万名开发者的使用。10月底，LongCat 团队开源了 LongCat-Video 视频生成模型，尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上，LongCat 团队针对实际场景中的核心痛点持续优化，正式发布并开源 SOTA 级虚拟人视频生成模型 —— LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造，延续 “一个模型支持多任务” 的核心设计，原生支持 Audio-Text-to-Video（AT2V）、Audio-Text-Image-to-Video（ATI2V）及视频续写等核心功能，同时在底层架构上全面升级，实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破，为开发者提供更稳定、高效、实用的创作解决方案。

项目地址：

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project：

https://meigen-ai.github.io/LongCat-Video-Avatar/

开源 SOTA 拟真度

让虚拟人“活”起来

告别“僵硬”，迎接“鲜活”：还记得以前那些虚拟人吗？只有嘴巴在动，头和身体却像没通电，看起来既尴尬又不自然。全新的 LongCat-Video-Avatar 彻底改变了这一点。它像一位全能导演，不仅指挥嘴型，还同步指挥眼神、表情和肢体动作，实现丰富饱满的情感表达，让虚拟人真正“演”了起来。

各类训练策略的对比分析

连“不说话”的时候，都很像人：真人说话是有停顿和呼吸的。我们通过一种独特的训练方法 Disentangled Unconditional Guidance（解耦无条件引导），让模型明白了“静音”不等于“死机”。现在，哪怕是在说话的间歇，虚拟人也会像你我一样，自然地眨眼、调整坐姿、放松肩膀。

这种技术让 LongCat-Video-Avatar 成为首个同时支持文字、图片、视频三种生成模式的全能选手。从口型精准到全身生动，虚拟人从此有了真正的生命力。

长时序高质量生成

让视频“稳”下来

上一代 InfiniteTalk 在长视频生成中会出现视觉质量退化的现象，而VAE 的反复编解码是正是视觉质量退化的主要原因。现有方法通常将上一段生成结果解码为像素，再将末尾帧重新编码为潜变量，作为下一段的条件——这一“解码→再编码”循环会持续引入累积误差，导致色彩偏移与细节模糊。

LongCat-Video-Avatar 的整体架构

LongCat-Video-Avatar提出了Cross-Chunk Latent Stitching（跨片段隐空间拼接） 训练策略以根本性解决此问题。在训练阶段，我们从同一视频中采样两个连续且部分重叠的片段，在隐空间内直接进行特征替换，让模型学会在潜空间中无缝衔接上下文。

在推理时，系统直接将前一段生成的 latent 序列末尾部分作为下一段的 context latent，全程无需解码到像素域。该设计不仅消除 VAE 循环带来的画质损失，还显著提升推理效率，并有效弥合训练与推理之间的流程差异（train-test gap）。实验显示，LongCat-Video-Avatar 在生成5分钟约 5000 帧视频时仍保持稳定色彩与清晰细节。

商用级一致性

精准锚定角色，让演绎生动自如

为维持长视频中的身份（ID）一致性， InfiniteTalk 采用注入参考帧的方式，但有时会导致色彩偏移（color shift）或动作僵化（“复制-粘贴”效应）。LongCat-Video-Avatar 从以下两方面进行系统升级：

基座升级：视频基础模型迁移到 LongCat-Video，后者在大规模长视频预训练中具备了更强的身份保持与色彩一致性先验。
参考机制创新：我们引入了带位置编码的参考帧注入模式。推理时，用户可通过指定RoPE中的索引位置，灵活控制参考帧在生成块中的插入位置。更重要的是，我们设计了Reference Skip Attention机制，在参考帧相邻的时间步，屏蔽参考帧对注意力计算的直接影响，仅允许其提供身份语义先验，而不主导具体动作生成。这套机制在确保ID一致性的同时，有效抑制了动作的重复与僵化，使长视频既稳定又富有变化。