语音合成 (TTS) 与声音克隆

无界音流不仅能“听懂”您的话,还能“说出”您的文字。通过内置的 Python Bridge 和本地模型,它提供了强大的文字转语音(TTS)和声音克隆功能。目前系统集成了 Qwen3-TTSIndex-TTS2 两大核心引擎,满足不同场景的需求。

打开“模型配置”
打开“模型配置”
选择模型,配置模型路径或API<
选择模型,配置模型路径或API
上传参考音频
上传参考音频
合成语音文本与参数
合成语音文本与参数
生成语音音频文件
生成语音音频文件

Qwen3-TTS 引擎

Qwen3-TTS 是一个强大的多功能语音合成引擎,支持三种不同的工作模式:

🎙️ Base (基础模型)

提供高质量、自然流畅的标准语音合成。适用于常规的文本朗读、有声书制作等场景,无需任何参考音频即可生成清晰的语音。

👥 CustomVoice (声音克隆)

只需提供一段 5-15 秒的清晰参考音频,即可克隆出与参考音频音色高度相似的语音。非常适合制作个性化配音或数字人分身。

✨ VoiceDesign (声音设计)

无需参考音频,直接通过文本提示词(Prompt)来“捏”出你想要的声音。例如输入“一个年轻女性,声音欢快”,模型即可生成符合描述的全新音色。

Index-TTS2 引擎

Index-TTS2 引擎在声音克隆的基础上,引入了更精细的情感和风格控制能力:

💡

提示: 声音克隆的效果很大程度上取决于参考音频的质量。请尽量使用发音清晰、无背景噪音、语速适中的音频作为参考。

本地模型下载与目录配置(推荐)

如果您使用本地 TTS(Qwen3-TTS / Index-TTS2),需要先下载模型文件,然后在设置里填写 TTS 模型目录(参考 ModelScope 文档;小白安装指南见 附录 A)。

Qwen3-TTS(Base / CustomVoice / VoiceDesign)

分别下载三种模式对应的模型目录:

modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-Base --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-Base
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir ./Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign

在无界音流设置里,将 TTS 模型目录 指向您当前要使用的模型目录(例如 Base 模式使用 ./Qwen/Qwen3-TTS-12Hz-1.7B-Base)。

Index-TTS2(声音克隆)

modelscope download --model IndexTeam/IndexTTS-2 --local_dir ./IndexTeam/IndexTTS-2

在无界音流设置里,将 TTS 模型目录 指向 IndexTTS-2 的模型目录。

⚠️

注意: 离线模式下不会自动下载模型。如果目录不存在或不可用,TTS 会直接报错。

云端 API 服务配置

除了强大的本地模型,无界音流还支持接入多种主流的云端 TTS API 服务,为您提供更多样化的音色选择和更稳定的合成体验。目前支持的云端 API 包括:

火山引擎(Volcengine)配置说明

在无界音流的“设置”面板中选择 Volcengine TTS(火山引擎) 后,至少需要填写:

可选项包括 UID、音频格式(Encoding)、采样率(Rate)、语速/音量/音高倍率、情感(Emotion)等。开通与音色选择可参考 附录 C(包含官方链接)。

⚙️

配置方法: 请在无界音流的“设置” -> “API 配置”面板中,选择您想要使用的服务商,并填入相应的 API Key 和相关参数。配置完成后,即可在语音合成界面直接选择对应的云端音色进行使用。

TTS 运行环境配置

为了使用 TTS 和声音克隆功能,您需要确保本地环境已正确配置: