Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。
1. 环境准备
安装依赖:确保已安装 Python(建议版本 3.12 或更高)和 Conda 环境管理工具。
安装 Conda:Conda 是一个开源的包管理和环境管理工具,对于安装和管理 Spark-TTS-0.5B 的依赖项至关重要。如果你的系统尚未安装 Conda,可以前往 Miniconda 的官方网站(https://docs.conda.io/en/latest/miniconda.html ),根据你的操作系统(Windows、macOS 或 Linux)选择适合的 Miniconda 安装程序。以 Windows 系统为例,下载完成后,双击安装程序(.exe 文件),按照安装向导的提示进行操作,在安装过程中务必勾选 “Add Conda to PATH” 选项,这样才能在命令提示符中方便地使用 Conda。安装完成后,打开命令提示符,输入conda --version,若显示版本号,则说明安装成功。
克隆代码仓库:运行以下命令将 Spark-tts 仓库克隆到本地:
git clone https://github.com/SparkAudio/Spark-tts.git
cd Spark-tts
创建虚拟环境:使用 Conda 创建并激活虚拟环境:
conda create -n sparktts -y python=3.12
conda activate sparktts
安装依赖库:运行以下命令安装所需依赖:
pip install -r requirements.txt
2. 下载预训练模型
通过 Python 下载:
from huggingface_hub import snapshot_download
snapshot_download(“SparkAudio/Spark-tts-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”)
通过 Git 下载:
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
3. 基本使用
运行示例脚本:
cd example
bash infer.sh
命令行生成语音:
python -m cli.inference \
–text “需要合成的文本” \
–device 0 \
–save_dir “保存音频的路径” \
–model_dir pretrained_models/Spark-TTS-0.5B \
–prompt_text “提示音频的文本内容” \
–prompt_speech_path “提示音频的路径”
4. 使用 Web 界面
启动 Web UI:运行以下命令启动界面:
python webui.py –device 0
功能支持:Web 界面支持语音克隆和语音生成,可上传参考音频或直接录制音频。
5. 可选功能
本网站提供的「Spark-TTS」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-04-16]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!