一個開源人體動畫生成模型,支持通過音頻驅動半身人物生成逼真的動畫效果。具有引人注目的動作表現力、簡化的生成流程和半身人物動畫特點,可實現音頻驅動的人物說話、表情和肢體動作的協調一致。
V1 模型做的是:數字臉項目,到 V2 就支持生成引人注目的半身人物視頻。它利用一種新穎的音頻姿勢動態協調策略,包括姿勢採樣和音頻擴散,來增強半身細節、面部和手勢表現力,同時減少條件冗餘。可用於數字人直播、虛擬主播、視頻編輯、AI 配音等項目。
GitHub 倉庫:https://github.com/antgroup/echomimic_v2