我是李邦华,AI社工通主理人。
社工站要做个宣教视频,找真人拍?排练半天,一条不过就重来,做出来的视频口型还对不上。之前试过一些数字人工具,说中文嘴型总是差那么点意思,看着就很假。
说白了,JoyHallo就是专门给中文优化的数字人视频生成器——给它一张照片和一段录音,直接生成口型精准的说话视频,普通话终于不嘴瓢了。
能干啥?
照片+录音=说话视频:上传一张正面照、一段普通话录音,自动生成嘴型同步的数字人说话视频,全程不用出镜。
普通话口型特别准:京东健康团队用29小时中文语音数据专门训练的,zh、ch、sh这些普通话特有的发音,嘴型对得比其他工具准得多。
表情跟着语气走:音频里的情绪变化,数字人脸上也能看出来——说到重点表情认真,说到轻松的地方自然微笑。
中英文混着说也行:有些专业术语需要夹杂英文?JoyHallo支持跨语言生成,不会出现中英文切换时嘴型崩掉的问题。
推理速度快14% :用了半解耦结构,比传统全耦合模型生成速度快14.3%,不用等太久。
担心啥?
需要什么配置? 建议N卡显存12G以上,RTX 3060及以上就能跑。没有显卡的可以用云端部署。
效果够真实吗? 在中文场景下,JoyHallo是目前开源数字人里口型最准的之一。京东自己都在用,质量有保证。
会不会很难操作? 有Web界面版本,上传图片和音频点一下就行,不需要写代码。
社工站怎么用?
做政策解读视频:把政策要点写成稿子录成音频,配上数字人形象,生成短视频发到居民群,比纯文字通知有效得多。
做服务流程介绍:办事流程、救助申请步骤这些,用数字人一步一步讲清楚,比写图文更直观。
做培训课件:新社工入职培训、志愿者培训,用数字人录制标准化的讲解视频,不用每次都安排人来讲。
做社区公告:停水停电通知、社区活动预告,用数字人播报更有温度,居民更愿意看。
关键是,这些视频做好之后可以反复用,同类内容换个音频就行,不用重新拍。
产品信息
表格
| 项目 | 详情 |
|---|---|
| 产品名称 | JoyHallo |
| 开发团队 | 京东健康 |
| 项目地址 | https://github.com/jdh-algo/JoyHallo |
| 费用 | 开源免费 |
| 技术门槛 | 中等(有Web界面,建议有N卡) |
| 推荐指数 | ⭐⭐⭐⭐ |
说实话,社工站做视频最大的痛点就是没人出镜、拍出来效果差。JoyHallo这种专门优化中文的数字人工具,终于让普通话数字人不再"对不上嘴"了,做出来的视频看着舒服、听着自然。
想了解更多AI工具怎么用在社工日常工作?加AI社工交流群,社工们一起交流实操经验👇
