AI 很好搜

Spark-TTSSpark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。
请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!

Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。
 

技术特点

  • 零样本语音克隆
    Spark TTS 能够在没有特定说话人训练数据的情况下,仅通过几秒钟的参考音频,快速复现说话人的声音。这种技术突破了传统语音克隆对大量训练数据的依赖,极大地降低了语音克隆的门槛。
  • 双语支持与跨语言合成
    Spark TTS 支持中英双语,并能够进行跨语言语音合成。例如,用户可以用一种语言输入文本,生成另一种语言的语音输出,满足多语言场景下的语音合成需求。
  • 细粒度语音控制
    用户可以通过调整性别、音高、语速、说话风格等参数,生成符合特定需求的语音。例如,可以要求生成“男性、低音、慢速”的声音,Spark TTS 能精准完成任务。
  • 高效语音合成
    Spark TTS 基于 Qwen2.5 架构,摒弃了传统 TTS 中需要额外生成模型的复杂流程。它直接从 LLM 预测的编码中重建音频,推理速度大幅提升。
  • 高质量语音输出
    Spark TTS 即使在低比特率下也能提供高保真语音合成,自然度评分接近真人水平。

应用场景

  • 虚拟主播
    可以创建具有独特语音风格的虚拟主播,满足个性化内容创作需求。
  • 有声读物
    根据文本内容生成多样化的语音,提升用户体验。
  • 智能语音助手
    为语音助手提供个性化语音,增强交互自然度。
  • 多语言内容创作
    支持跨语言语音合成,方便制作多语言内容。

如何使用

1. 环境准备

安装依赖:确保已安装 Python(建议版本 3.12 或更高)和 Conda 环境管理工具。

安装 Conda:Conda 是一个开源的包管理和环境管理工具,对于安装和管理 Spark-TTS-0.5B 的依赖项至关重要。如果你的系统尚未安装 Conda,可以前往 Miniconda 的官方网站(https://docs.conda.io/en/latest/miniconda.html ),根据你的操作系统(Windows、macOS 或 Linux)选择适合的 Miniconda 安装程序。以 Windows 系统为例,下载完成后,双击安装程序(.exe 文件),按照安装向导的提示进行操作,在安装过程中务必勾选 “Add Conda to PATH” 选项,这样才能在命令提示符中方便地使用 Conda。安装完成后,打开命令提示符,输入conda --version,若显示版本号,则说明安装成功。​

克隆代码仓库:运行以下命令将 Spark-tts 仓库克隆到本地:

git clone https://github.com/SparkAudio/Spark-tts.git

cd Spark-tts

创建虚拟环境:使用 Conda 创建并激活虚拟环境:

conda create -n sparktts -y python=3.12

conda activate sparktts

安装依赖库:运行以下命令安装所需依赖:

pip install -r requirements.txt

2. 下载预训练模型

通过 Python 下载:

from huggingface_hub import snapshot_download

snapshot_download(“SparkAudio/Spark-tts-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”)

通过 Git 下载:

mkdir -p pretrained_models

git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 基本使用

运行示例脚本:

cd example

bash infer.sh

命令行生成语音:

python -m cli.inference \

–text “需要合成的文本” \

–device 0 \

–save_dir “保存音频的路径” \

–model_dir pretrained_models/Spark-TTS-0.5B \

–prompt_text “提示音频的文本内容” \

–prompt_speech_path “提示音频的路径”

4. 使用 Web 界面

启动 Web UI:运行以下命令启动界面:

python webui.py –device 0

功能支持:Web 界面支持语音克隆和语音生成,可上传参考音频或直接录制音频。

5. 可选功能

  • 语音克隆:上传参考音频,生成与参考音频相似的语音。
  • 语音参数调整:通过调整性别、语速、音高等参数,生成个性化语音。

数据统计

特别声明&浏览提醒

本网站提供的「Spark-TTS」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-04-16]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!

热门图文资讯

  1. 几种主流视频生成大模型
  2. 实用好用的AI工具推荐