ElevenLabs 语音合成指南
- **Text to Speech (TTS)**: 文字转语音。支持 29 种语言。
5分钟
2025-12-26
音频生成AI语音TTSElevenLabs
ElevenLabs 语音合成指南
ElevenLabs 是目前公认的全球最强 AI 语音合成(TTS)平台。它生成的语音在情感表达、语调起伏、呼吸感和口音模仿上,几乎达到了以假乱真的地步。
1. 核心功能
- Text to Speech (TTS): 文字转语音。支持 29 种语言。
- Speech to Speech (STS): 变声器。上传一段你的录音,让他变成另一个人的声音(保留你的语气和语速)。
- Voice Cloning (声音克隆):
- Instant Cloning: 只需要 1 分钟素材,立刻克隆出一个声音(适合短视频)。
- Professional Cloning: 上传 30 分钟以上的高清素材,训练一个完美的数字分身(适合有声书、虚拟人)。
- Dubbing (AI 配音/翻译): 将一段视频自动翻译成另一种语言,并保留原说话人的音色。
2. 操作指南
2.1 基础 TTS
- 访问 elevenlabs.io。
- 在 Speech Synthesis 页面输入文本。
- 选择 Model:
Eleven Multilingual v2: 最推荐,支持中英混读,情感丰富。Eleven Turbo v2.5: 速度极快,适合实时对话流。
- 选择 Voice: 官方提供了数十个预设声音(如 Adam, Rachel)。
- 调节 Settings:
- Stability (稳定性): 越高越平稳(像新闻联播);越低越随机(情感波动大)。
- Similarity (相似度): 越高越像原声,但可能引入噪音。
2.2 声音克隆 (Instant Cloning)
- 进入 VoiceLab -> Add Generative or Cloned Voice。
- 选择 Instant Voice Cloning。
- 上传一段清晰的、无背景音乐的 MP3(建议 1-3 分钟)。
- 命名并保存。
- 现在你就可以用这个声音去读任何文字了。
注意:请务必确保你有权使用该声音(需点击确认拥有版权)。
3. 提示词工程 (对于语音)
ElevenLabs 虽然没有显式的 Prompt 框,但在文本中加入“提示”甚至可以控制语气。
- 虽然官方不完全支持 SSML,但可以通过标点符号控制节奏。
...: 长停顿。!: 激昂。": 引用语气。
- Emotion Prompting (隐式): 在文本前加一句
[shouting]或者[whispering](这是 v3 模型正在探索的功能,v2 主要靠文本语义和稳定性参数控制)。
4. API 开发
ElevenLabs 的 API 非常简单且强大,广泛用于 AI 客服和数字人。
import requests
url = "https://api.elevenlabs.io/v1/text-to-speech/<VOICE_ID>"
headers = {
"xi-api-key": "<ZOUR_API_KEY>",
"Content-Type": "application/json"
}
data = {
"text": "你好,这是一个测试。",
"model_id": "eleven_multilingual_v2",
"voice_settings": {
"stability": 0.5,
"similarity_boost": 0.5
}
}
response = requests.post(url, json=data, headers=headers)
with open('output.mp3', 'wb') as f:
f.write(response.content)
最后更新:2025-12