【自部署】TTS文本转语音大模型（docker一键使用）

bobobo · 2025-09-27

马上国庆节了，写了个小玩具给大伙耍耍。

众所周知，阿里开源的Cosyvoice文本转语音大模型的效果非常的不错，

我也把玩了很久

但苦于没有高性能的显卡（租的卡总有一种紧迫感，用得不舒坦

），所以写了个纯CPU运行的版本。

相较于官方原版：

CPU推理时原版精简后

内存占用 4G+ 4G+

硬盘占用 20G+ 8.93G

速度相同 50s/it 50s/it

对于原版，做了以下处理：

1. 剔除不必要的Python环境依赖和模型文件，硬盘占用减少10G

2. 基于python:3.10-slim镜像（裸镜像仅43M大小），并且使用Docker打包，系统更轻量的同时，不会遇到安装报错、版本不兼容、网络错误等等等等问题，小白也能轻松部署。

3. 重写了WebUI，（原版UI仅供测试使用，并且解决了第一次生成时，无法获取音频的问题），步骤指导更清晰！

硬件要求：

- 物理内存推荐 8G，加swap缓存也能跑，但是慢。

- 硬盘剩余空间大于 10G

- 流量消耗大约 10G

- CPU在推理时，会满载95%+（注意vps商家有无限制）

好了，说了那么多，下面就是详细步骤了：

第一步：将下面内容保存为docker-compose.yml

services:
cov:
image: eureka6688/cosyvoice
container_name: cov
ports:
- "50000:50000"
command: ["python", "web.py", "--port", "50000"]
stdin_open: true
tty: true
restart: unless-stopped复制代码

第二步：在保存docker-compose.yml的目录下运行以下命令

docker compose up -d复制代码

等待10分钟，也许更久，就能够在
要查看链接，请先登录 or 注册
访问到web服务界面了

没错，就这么简单！

接下来用nginx反代使用也好，ssh隧道转发到本地使用也可以，甚至可以直接打开防火墙50000端口，再通过公网IP+50000端口访问都没问题（注意网络安全！）

精彩评论

Eureka 发表于半小时前

演示效果请移步：
要查看链接，请先登录 or 注册

点击展开...

swds 发表于1 小时前

有ARM版没. 甲骨文arm闲置中

点击展开...

Eureka 发表于半小时前

要查看链接，请先登录 or 注册

有ARM版没. 甲骨文arm闲置中

点击展开...

没有额

点击展开...

fxzou 发表于半小时前

感谢分享

点击展开...

扫地僧 发表于半小时前

要查看链接，请先登录 or 注册

没有额

点击展开...

源码开源么？可以的话我帮编译一个

点击展开...

【自部署】TTS文本转语音大模型（docker一键使用）

bobobo

Active member

Similar threads