AI 音乐生成领域又添一员猛将!ACE-Step 1.5 是一个高效的开源音乐生成基础模型,能够在消费级硬件上实现商业级质量的音乐生成。只需不到 4GB 显存即可本地运行,普通用户也能轻松体验 AI 作曲的乐趣。

相关链接
- GitHub:https://github.com/ace-step/ACE-Step-1.5
- 项目主页:https://ace-step.github.io/ace-step-v1.5.github.io/
- Hugging Face:https://huggingface.co/ACE-Step/Ace-Step1.5
- 在线 Demo:https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
- Technical Report:https://arxiv.org/abs/2602.00744
ACE-Step 1.5 是什么
ACE-Step 1.5 是由 StepFun 开发的高效开源音乐生成基础模型,旨在将商业级音乐生成能力带入消费级硬件。该模型在常用评估指标上实现了超越大多数商业音乐模型的生成质量,同时保持极快的生成速度。
核心亮点:
- 生成速度:A100 上每首完整歌曲只需 2 秒,RTX 3090 上只需 10 秒
- 本地运行:显存需求低于 4GB,消费级显卡即可运行
- 个性化支持:只需几首歌曲即可训练 LoRA,捕捉个人风格
核心功能
⚡ 性能
- 超快生成:A100 上<2秒/歌,RTX 3090 上<10秒
- 灵活时长:支持 10 秒到 10 分钟的音频生成
- 批量生成:最多可同时生成 8 首歌曲
🎵 生成质量
- 商业级输出:质量超越大多数商业音乐模型(介于 Suno v4.5 和 Suno v5 之间)
- 丰富风格:支持 1000+ 乐器和风格,精细音色描述
- 多语言歌词:支持 50+ 语言的歌词提示
🎛️ 多功能与控制
| 功能 | 描述 |
|---|---|
| 参考音频输入 | 使用参考音频引导生成风格 |
| 翻唱生成 | 从现有音频创建翻唱 |
| 局部重绘编辑 | 选择性本地音频编辑和重新生成 |
| 音轨分离 | 将音频分离为单独的音轨 |
| 多轨生成 | 添加多层,如 Suno Studio 的「Add Layer」功能 |
| 人声转 BGM | 为人声轨道自动生成伴奏 |
| LoRA 训练 | 一键标注和训练,8 首歌曲,3090 上 1 小时(12GB 显存) |
| 质量评分 | 自动评估生成音频的质量 |
快速开始
环境要求
- Python 3.11-12
- 推荐 CUDA GPU(也支持 MPS / ROCm / Intel XPU / CPU)
安装步骤
# 1. 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 克隆并安装
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
# 3. 启动 Gradio UI(首次运行自动下载模型)
uv run acestep
# 或启动 REST API 服务器
uv run acestep-api
打开 http://localhost:7860(Gradio)或 http://localhost:8001(API)。
Windows 便携版
Windows 用户可以下载预装依赖的便携包:ACE-Step-1.5.7z
显卡选择指南
| 显卡显存 | 推荐 LM 模型 | 后端 | 备注 |
|---|---|---|---|
| 无(仅 DiT) | — | INT8 量化 + CPU 卸载 | |
| 6-8GB | acestep-5Hz-lm-0.6B | PyTorch | 轻量级 LM |
| 8-16GB | 0.6B / 1.7B | vLLM | 8-12GB 用 0.6B,12-16GB 用 1.7B |
| 16-24GB | 1.7B | vLLM | 20GB+ 可用 4B |
| ≥24GB | 4B | vLLM | 最佳质量,所有模型均可加载 |
技术架构
ACE-Step 1.5 的核心是一种新型混合架构,其中语言模型(LM)作为全能规划器:它将简单的用户查询转化为全面的歌曲蓝图——从短循环到 10 分钟的作曲——同时通过思维链(Chain-of-Thought)合成元数据、歌词和标题,以指导扩散变换器(DiT)。
独特的是,这种对齐通过内在强化学习实现,仅依赖模型内部机制,从而消除了外部奖励模型或人类偏好的偏见。
适用人群
- 音乐创作者和制作人
- 内容创作者需要背景音乐
- AI 音乐爱好者
- 想在本地运行 AI 音乐生成的技术爱好者
- 预算有限但想体验 AI 作曲的用户
总结
ACE-Step 1.5 是一个极具竞争力的开源音乐生成模型。它在生成质量上能够与商业模型媲美,同时保持了开源的灵活性——本地运行、低显存需求、LoRA 个性化训练。对于想要体验 AI 作曲但不想依赖云服务的用户来说,这是一个极佳的选择。
更重要的是,它的生成速度非常快——在高端显卡上只需几秒就能生成一首完整的歌曲,大大降低了创作的时间成本。
© 版权声明
本站部分内容源于网络收集,文章等版权归原作者所有,若需删稿请联系管理员邮箱:[email protected]
相关文章
暂无评论...