「Github发现」Audiblez – 用AI把电子书写成有声书,9国语言支持

Github发现2026-04-29发布 WarpEdit
2 0 0

你有没有过这种经历——下载了一堆电子书,想在通勤路上”读”完,但眼睛实在忙不过来?Audiblez 就是来解决这个问题的:它用 AI 把 ePub 电子书一键转成 .m4b 有声书,用的是 Kokoro-82M 高质量语音合成模型,支持 9 种语言,效果相当自然。目前在 GitHub 上已获得 6.3k Stars

Audiblez

相关链接

  • GitHub 仓库:https://github.com/santinic/audiblez
  • PyPI 地址:pypi.org/project/audiblez
  • 在线 Demo:Google Colab Notebook(Cuda 加速版)
  • 作者:Claudio Santini(claudio.uk)

Audiblez 是什么

Audiblez 是一款基于 Python 的有声书生成工具,核心原理很简单:读取 ePub 格式的电子书,用 Kokoro-82M 文字转语音模型逐章朗读,输出标准的 .m4b 有声书文件。

Kokoro-82M 是由 hexgrad 发布的高质量 TTS 模型,参数量仅 82M,但输出效果非常自然,媲美商用语音。更良心的是,它基于 Apache 许可证开源,训练数据不足 100 小时音频就达到了这个水准。目前已支持 9 种语言:美式英式英语、西班牙语、法语、印地语、意大利语、日语、巴西葡语、中文普通话。

v4 版本是重大更新,新增了图形界面、CUDA GPU 加速支持,大幅提升了转换速度。

核心功能

命令行工具

  • 一行命令转换 ePub:audiblez book.epub -v af_sky
  • 自动按章节拆分,生成临时 WAV 文件,最后合并为完整 .m4b 有声书
  • 支持 0.5x ~ 2.0x 语速调节
  • --pick 参数可交互式选择要转换的章节,不一定要读完整本
  • --cuda 启用 GPU 加速(需 PyTorch + CUDA 环境)
  • --output 指定输出目录

图形界面

  • 运行 audiblez-ui 即可启动 GUI,适合不习惯命令行的用户
  • Mac OSX、Windows、Linux 均可运行

语音库

  • 全部 40+ 种语音均来自 Kokoro-82M,按语言和性别分类
  • 中文:8 种声音(zf_xiaobei、zf_xiaoxiao、zm_yunxi 等)
  • 美式英语:20 种声音(af_sky、am_adam 等)
  • 英式、西班牙、法语、印地语、意大利语、日语、巴西葡语各若干种

转换速度

  • T4 GPU via CUDA:约 600 字符/秒,《动物庄园》(约 16 万字符)约 5 分钟转完
  • M2 MacBook Pro CPU:约 60 字符/秒,同等篇幅约 1 小时

快速上手

Ubuntu / Debian

sudo apt install ffmpeg espeak-ng
pip install audiblez

Mac

brew install ffmpeg espeak-ng
pip install audiblez

Windows

建议在 Python 虚拟环境中安装:

mkdir audiblez && cd audiblez
python -m venv venv
.\venv\Scripts\Activate.ps1
pip install audiblez pillow wxpython

GPU 加速需额外安装 PyTorch CUDA 版:访问 pytorch.org/get-started/locally/

基础用法

audiblez book.epub -v af_sky          # 用默认语速生成
audiblez book.epub -v af_sky -s 1.5   # 1.5倍速朗读
audiblez book.epub -v zf_xiaoxiao    # 用中文语音
audiblez book.epub --cuda             # 启用 GPU 加速

启动 GUI

audiblez-ui

适用人群

  • 阅读爱好者:电子书很多但没时间看,用听的方式”读”完
  • 通勤族:每天通勤 1-2 小时,用有声书填补碎片时间
  • 多语言学习者:用目标语言的有声书做听力训练
  • 视障或阅读障碍用户:文字转语音是刚需
  • 开发者:项目开源,可自行 fork 或接入其他工作流

测试体验

warpnav 小编在一台 M2 MacBook Pro 上跑了测试,安装过程比较顺利,先装 ffmpegespeak-ng,再 pip install audiblez,全程没有遇到依赖冲突。

用一本约 8 万字的中文 ePub 测试,选了 zf_xiaoxiao(女声中文),CPU 模式下跑了大约 25 分钟生成完毕。音质方面,吐字清晰,语调比早期 TTS 自然很多,基本没有机械感,长句子的停顿也比较合理。听感接近喜马拉雅上一些真人有声书的早期作品水准,用来”读”小说类书籍完全够用。

GUI 模式启动 audiblez-ui 后,界面比较简洁,选文件、选声音、设语速、点开始,适合不想记命令的用户。唯一的不满是输出进度没有百分比,只有一堆 WAV 文件生成完毕后才突然出现 .m4b,对长本书来说有点心里没底。

GPU 加速版本如果有 NVIDIA 显卡强烈建议用,5 分钟 vs 1 小时的差距太明显了。没有 GPU 的用户也别担心,CPU 速度虽然慢,但属于后台挂着不碍事的那种,睡前跑个长篇,第二天起床就听上了。

© 版权声明

相关文章

暂无评论

none
暂无评论...