音频驱动多人对话视频生成框架 MultiTalk 爱乘米站长 发表于2025/9/3 19:06 64964浏览 0评论 3分钟阅读 MultiTalk项目地址 GitHub项目地址:https://github.com/MeiGen-AI/MultiTalk 项目简介MultiTalk是由中山大学、美团等机构联合开发的音频驱动多人对话视频生成框架。其核心功能是通过单张图片和音频输入,生成口型精准、动作自然的数字人视频,尤其擅长多人交互场景(如对话、合唱)。技术亮点包括Diffusion架构、L-ROPE定位技术,以及两阶段训练策略。项目开源免费,支持本地部署。 标签:#数字人