语音 AI 工具你用过不少,但大多数都有个共同问题——处理时长卡得很死。录音一小时,得分段上传、等结果、拼内容,麻烦得很。VibeVoice 解决了这个痛点:单次最长处理 60 分钟音频,输出结构化文本,GitHub 25.7k Stars。微软出品,最近还有大动作——刚刚宣布被社区采用,Vibing 语音输入法已经基于它构建了 macOS 和 Windows 客户端。

相关链接
- GitHub:https://github.com/microsoft/VibeVoice
- 官网:https://microsoft.github.io/VibeVoice
- Hugging Face:Collection 页面
- ASR Playground:https://aka.ms/vibevoice-asr
- 论文:TTS 论文 / ASR 论文
VibeVoice 是什么
VibeVoice 是微软开源的前沿语音 AI 模型家族,包含自动语音识别(ASR)和文本转语音(TTS)两大核心能力。核心技术亮点在于采用连续语音分词器(Acoustic 和 Semantic),以 7.5 Hz 超低帧率工作,在大幅提升计算效率的同时完整保留音频质量。
技术架构上,VibeVoice 采用 next-token diffusion 框架——大语言模型负责理解文本上下文和对话流程,扩散头(diffusion head)负责生成高保真 acoustic details。底层基座模型为 Qwen2.5 1.5B。
整个项目由微软团队维护,Python 100%,MIT 许可证。最近更新非常活跃——就在今天(2026-03-29),项目刚更新了 Vibing 下载链接和 ASR Playground 上线消息。
| 模型 | 参数量 | 能力 | 体验链接 |
|---|---|---|---|
| VibeVoice-ASR | 7B | 60分钟长语音识别 | ASR Playground |
| VibeVoice-TTS | 1.5B | 90分钟语音合成(代码已下架) | 已禁用 |
| VibeVoice-Realtime | 0.5B | 流式实时 TTS | Colab |
核心模型详解
VibeVoice-ASR — 长语音识别
VibeVoice-ASR 是目前开源领域最强大的长语音识别模型之一,核心能力体现在三个维度:
60 分钟单次处理:传统 ASR 模型将音频切成小块处理,容易丢失全局上下文。VibeVoice-ASR 单次最长接受 60 分钟连续音频,在 64K token 长度内确保全过程的说话人追踪和语义连贯。这对于会议记录、长访谈、播客转录等场景价值巨大。
结构化输出:模型同时完成 ASR、说话人分割(diarization)和时间戳标注,输出结构化结果——谁在什么时间说了什么,不需要后期再处理。
自定义热词:用户可提供自定义热词(人名、专业术语、背景信息等),引导识别过程,显著提升特定领域内容的准确率。
支持 50+ 语言,包括中英文。已集成进 Hugging Face Transformers v5.3.0,直接用 transformers 库即可调用。
VibeVoice-TTS — 长文本语音合成
VibeVoice-TTS 支持单次最长 90 分钟的语音合成,最多 4 个不同说话人,支持中英文及跨语言合成,可以生成富有表现力的自然语音。
重要说明:2025 年 9 月 5 日,微软官方宣布因发现该工具被用于与研究初衷不符的场景,已将 TTS 代码从仓库移除(仅保留权重文件)。官方明确表示不建议在商业或真实场景中未经进一步测试就使用该模型。
VibeVoice-Realtime-0.5B — 流式 TTS
这是目前最值得关注的模型:参数量仅 0.5B,部署友好;首音频延迟约 300ms,达到实时标准;支持流式文本输入,可生成约 10 分钟的长文本语音。
Colab notebook 已经开放,可以直接在线体验。
最新动态(2026-03-29)
今天项目有两个重大更新:
Vibing 语音输入法发布:Vibing 是一个基于 VibeVoice-ASR 构建的语音输入法,已提供 macOS 和 Windows 客户端下载。这是首个将 VibeVoice-ASR 落地的商业应用产品。
集成进 Transformers 5.3.0:VibeVoice-ASR 已作为 Hugging Face Transformers 官方 release 的一部分发布,开发者可以直接通过 transformers 库调用,无需额外安装。
快速上手
Python 调用 ASR(Transformers 方式)
pip install transformers>=5.3.0
from transformers import AutoModelForCTC, AutoProcessor
import torch
model_id = "microsoft/VibeVoice-ASR"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForCTC.from_pretrained(model_id)
# 输入音频路径
inputs = processor(torch_audio, return_tensors="pt", sampling_rate=16_000)
with torch.no_grad():
outputs = model(**inputs)
transcription = processor.batch_decode(outputs.logits)[0]
print(transcription)
vLLM 加速推理
# 参考 vllm-asr 文档
# 启用 vLLM 加速推理以提升吞吐量
python -m vllm.entrypoints.openai.asr_server \
--model microsoft/VibeVoice-ASR
微调自定义
项目提供了完整的 finetuning 代码,可以针对特定领域(医疗、法律、金融等)做定制化训练。
技术架构
VibeVoice 的核心技术是连续语音分词器,工作在 7.5 Hz 帧率——这是目前公开的技术中最低的帧率之一。超低帧率意味着处理长序列时的计算量大幅降低,同时通过连续表示保留更多音频细节。
整体框架结合了 next-token prediction 和 diffusion model 的优点:LLM 负责语义理解和上下文建模,diffusion head 负责声学细节的生成和精炼。
适用人群
- 语音 AI 研究者:目前 25.7k Stars,学术界和工业界关注度极高,论文已发表
- 开发者:Transformers 库直接集成,Python 友好,微调代码开源
- 需要长语音处理的产品:会议转录、播客整理、长访谈内容提取
- 开源语音工具爱好者:实时 TTS 模型 0.5B,门槛低、可玩性强
总结
VibeVoice 是目前开源领域最完整的语音 AI 解决方案之一,核心优势在于超长处理能力:ASR 单次 60 分钟、TTS 单次 90 分钟、实时 TTS 300ms 延迟,这在开源模型中极为少见。
25.7k Stars 和已集成进 Transformers 5.3.0 的事实说明它不是玩具,而是真正被社区广泛采用的工业级模型。最近上线的 Vibing 语音输入法也证明了它在实际产品中的落地能力。
有一点需要特别注意:TTS 代码已被微软官方主动下架,理由是防止被滥用于深度伪造。如果你的场景需要 TTS 能力,建议优先考虑 Realtime-0.5B 模型,或等待官方推出更安全的版本。
© 版权声明
本站部分内容源于网络收集,文章等版权归原作者所有,若需删稿请联系管理员邮箱:[email protected]
相关文章
暂无评论...