一个开源人体动画生成模型,支持通过音频驱动半身人物生成逼真的动画效果。具有引人注目的动作表现力、简化的生成流程和半身人物动画特点,可实现音频驱动的人物说话、表情和肢体动作的协调一致。
V1 模型做的是:数字脸项目,到 V2 就支持生成引人注目的半身人物视频。它利用一种新颖的音频姿势动态协调策略,包括姿势采样和音频扩散,来增强半身细节、面部和手势表现力,同时减少条件冗余。可用于数字人直播、虚拟主播、视频编辑、AI 配音等项目。
GitHub 仓库:https://github.com/antgroup/echomimic_v2