一、项目概述
二、核心技术
-
创新架构 -
7.5Hz超低帧率连续语音分词器(声学和语义) -
下一个分词扩散框架 -
大型语言模型(LLM)理解文本上下文 -
扩散头生成高保真声学细节
-
-
性能突破 -
支持长达90分钟的连续语音合成 -
最多4位不同说话者同时对话 -
中英文无缝切换能力 -
即兴唱歌功能
-
三、应用场景
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
四、技术优势
-
计算效率 -
7.5Hz超低帧率显著提升长序列处理能力 -
比传统TTS系统快10倍以上
-
-
语音质量 -
声音逼真度达0.95+相似度 -
支持情感表达和语气控制
-
-
扩展性 -
提供0.5B、1.5B和7B三种模型变体 -
支持流媒体和预览版功能
-
五、安装与使用
-
快速安装 git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice/ pip install -e .
-
演示启动 # 1.5B模型 python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
-
文件推理 python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/