「Github发现」Audiblez – 用AI把电子书写成有声书，9国语言支持

Github发现2026-04-29发布 WarpEdit

你有没有过这种经历——下载了一堆电子书，想在通勤路上”读”完，但眼睛实在忙不过来？Audiblez 就是来解决这个问题的：它用 AI 把 ePub 电子书一键转成 .m4b 有声书，用的是 Kokoro-82M 高质量语音合成模型，支持 9 种语言，效果相当自然。目前在 GitHub 上已获得 6.3k Stars。

Audiblez 是什么

Audiblez 是一款基于 Python 的有声书生成工具，核心原理很简单：读取 ePub 格式的电子书，用 Kokoro-82M 文字转语音模型逐章朗读，输出标准的 .m4b 有声书文件。

Kokoro-82M 是由 hexgrad 发布的高质量 TTS 模型，参数量仅 82M，但输出效果非常自然，媲美商用语音。更良心的是，它基于 Apache 许可证开源，训练数据不足 100 小时音频就达到了这个水准。目前已支持 9 种语言：美式英式英语、西班牙语、法语、印地语、意大利语、日语、巴西葡语、中文普通话。

v4 版本是重大更新，新增了图形界面、CUDA GPU 加速支持，大幅提升了转换速度。

核心功能

命令行工具

一行命令转换 ePub：audiblez book.epub -v af_sky
自动按章节拆分，生成临时 WAV 文件，最后合并为完整 .m4b 有声书
支持 0.5x ~ 2.0x 语速调节
--pick 参数可交互式选择要转换的章节，不一定要读完整本
--cuda 启用 GPU 加速（需 PyTorch + CUDA 环境）
--output 指定输出目录

图形界面

运行 audiblez-ui 即可启动 GUI，适合不习惯命令行的用户
Mac OSX、Windows、Linux 均可运行

语音库

全部 40+ 种语音均来自 Kokoro-82M，按语言和性别分类
中文：8 种声音（zf_xiaobei、zf_xiaoxiao、zm_yunxi 等）
美式英语：20 种声音（af_sky、am_adam 等）
英式、西班牙、法语、印地语、意大利语、日语、巴西葡语各若干种

转换速度

T4 GPU via CUDA：约 600 字符/秒，《动物庄园》（约 16 万字符）约 5 分钟转完
M2 MacBook Pro CPU：约 60 字符/秒，同等篇幅约 1 小时

快速上手

Ubuntu / Debian

sudo apt install ffmpeg espeak-ng
pip install audiblez

Mac

brew install ffmpeg espeak-ng
pip install audiblez

Windows

建议在 Python 虚拟环境中安装：

mkdir audiblez && cd audiblez
python -m venv venv
.\venv\Scripts\Activate.ps1
pip install audiblez pillow wxpython

GPU 加速需额外安装 PyTorch CUDA 版：访问 pytorch.org/get-started/locally/

基础用法

audiblez book.epub -v af_sky          # 用默认语速生成
audiblez book.epub -v af_sky -s 1.5   # 1.5倍速朗读
audiblez book.epub -v zf_xiaoxiao    # 用中文语音
audiblez book.epub --cuda             # 启用 GPU 加速

启动 GUI

audiblez-ui

适用人群

阅读爱好者：电子书很多但没时间看，用听的方式”读”完
通勤族：每天通勤 1-2 小时，用有声书填补碎片时间
多语言学习者：用目标语言的有声书做听力训练
视障或阅读障碍用户：文字转语音是刚需
开发者：项目开源，可自行 fork 或接入其他工作流

测试体验

warpnav 小编在一台 M2 MacBook Pro 上跑了测试，安装过程比较顺利，先装 ffmpeg 和 espeak-ng，再 pip install audiblez，全程没有遇到依赖冲突。

用一本约 8 万字的中文 ePub 测试，选了 zf_xiaoxiao（女声中文），CPU 模式下跑了大约 25 分钟生成完毕。音质方面，吐字清晰，语调比早期 TTS 自然很多，基本没有机械感，长句子的停顿也比较合理。听感接近喜马拉雅上一些真人有声书的早期作品水准，用来”读”小说类书籍完全够用。

GUI 模式启动 audiblez-ui 后，界面比较简洁，选文件、选声音、设语速、点开始，适合不想记命令的用户。唯一的不满是输出进度没有百分比，只有一堆 WAV 文件生成完毕后才突然出现 .m4b，对长本书来说有点心里没底。

GPU 加速版本如果有 NVIDIA 显卡强烈建议用，5 分钟 vs 1 小时的差距太明显了。没有 GPU 的用户也别担心，CPU 速度虽然慢，但属于后台挂着不碍事的那种，睡前跑个长篇，第二天起床就听上了。