ElevenLabs 语音合成指南

ElevenLabs 是目前公认的全球最强 AI 语音合成（TTS）平台。它生成的语音在情感表达、语调起伏、呼吸感和口音模仿上，几乎达到了以假乱真的地步。

1. 核心功能

Text to Speech (TTS): 文字转语音。支持 29 种语言。
Speech to Speech (STS): 变声器。上传一段你的录音，让他变成另一个人的声音（保留你的语气和语速）。
Voice Cloning (声音克隆):
- Instant Cloning: 只需要 1 分钟素材，立刻克隆出一个声音（适合短视频）。
- Professional Cloning: 上传 30 分钟以上的高清素材，训练一个完美的数字分身（适合有声书、虚拟人）。
Dubbing (AI 配音/翻译): 将一段视频自动翻译成另一种语言，并保留原说话人的音色。

2. 操作指南

2.1 基础 TTS

访问 elevenlabs.io。
在 Speech Synthesis 页面输入文本。
选择 Model:
- Eleven Multilingual v2: 最推荐，支持中英混读，情感丰富。
- Eleven Turbo v2.5: 速度极快，适合实时对话流。
选择 Voice: 官方提供了数十个预设声音（如 Adam, Rachel）。
调节 Settings:
- Stability (稳定性): 越高越平稳（像新闻联播）；越低越随机（情感波动大）。
- Similarity (相似度): 越高越像原声，但可能引入噪音。

2.2 声音克隆 (Instant Cloning)

进入 VoiceLab -> Add Generative or Cloned Voice。
选择 Instant Voice Cloning。
上传一段清晰的、无背景音乐的 MP3（建议 1-3 分钟）。
命名并保存。
现在你就可以用这个声音去读任何文字了。

注意：请务必确保你有权使用该声音（需点击确认拥有版权）。

3. 提示词工程 (对于语音)

ElevenLabs 虽然没有显式的 Prompt 框，但在文本中加入“提示”甚至可以控制语气。

虽然官方不完全支持 SSML，但可以通过标点符号控制节奏。
- ...: 长停顿。
- !: 激昂。
- ": 引用语气。
Emotion Prompting (隐式): 在文本前加一句 [shouting] 或者 [whispering]（这是 v3 模型正在探索的功能，v2 主要靠文本语义和稳定性参数控制）。

4. API 开发

ElevenLabs 的 API 非常简单且强大，广泛用于 AI 客服和数字人。

import requests

url = "https://api.elevenlabs.io/v1/text-to-speech/<VOICE_ID>"

headers = {
  "xi-api-key": "<ZOUR_API_KEY>",
  "Content-Type": "application/json"
}

data = {
  "text": "你好，这是一个测试。",
  "model_id": "eleven_multilingual_v2",
  "voice_settings": {
    "stability": 0.5,
    "similarity_boost": 0.5
  }
}

response = requests.post(url, json=data, headers=headers)
with open('output.mp3', 'wb') as f:
    f.write(response.content)

最后更新：2025-12

ElevenLabs 语音合成指南

1. 核心功能

2. 操作指南

2.1 基础 TTS

2.2 声音克隆 (Instant Cloning)

3. 提示词工程 (对于语音)

4. API 开发

AI导航助手