ElevenLabs 语音合成指南

- **Text to Speech (TTS)**: 文字转语音。支持 29 种语言。

5分钟
2025-12-26
音频生成AI语音TTSElevenLabs

ElevenLabs 语音合成指南

ElevenLabs 是目前公认的全球最强 AI 语音合成(TTS)平台。它生成的语音在情感表达、语调起伏、呼吸感和口音模仿上,几乎达到了以假乱真的地步。


1. 核心功能

  • Text to Speech (TTS): 文字转语音。支持 29 种语言。
  • Speech to Speech (STS): 变声器。上传一段你的录音,让他变成另一个人的声音(保留你的语气和语速)。
  • Voice Cloning (声音克隆):
    • Instant Cloning: 只需要 1 分钟素材,立刻克隆出一个声音(适合短视频)。
    • Professional Cloning: 上传 30 分钟以上的高清素材,训练一个完美的数字分身(适合有声书、虚拟人)。
  • Dubbing (AI 配音/翻译): 将一段视频自动翻译成另一种语言,并保留原说话人的音色。

2. 操作指南

2.1 基础 TTS

  1. 访问 elevenlabs.io
  2. Speech Synthesis 页面输入文本。
  3. 选择 Model:
    • Eleven Multilingual v2: 最推荐,支持中英混读,情感丰富。
    • Eleven Turbo v2.5: 速度极快,适合实时对话流。
  4. 选择 Voice: 官方提供了数十个预设声音(如 Adam, Rachel)。
  5. 调节 Settings:
    • Stability (稳定性): 越高越平稳(像新闻联播);越低越随机(情感波动大)。
    • Similarity (相似度): 越高越像原声,但可能引入噪音。

2.2 声音克隆 (Instant Cloning)

  1. 进入 VoiceLab -> Add Generative or Cloned Voice。
  2. 选择 Instant Voice Cloning
  3. 上传一段清晰的、无背景音乐的 MP3(建议 1-3 分钟)。
  4. 命名并保存。
  5. 现在你就可以用这个声音去读任何文字了。

注意:请务必确保你有权使用该声音(需点击确认拥有版权)。

3. 提示词工程 (对于语音)

ElevenLabs 虽然没有显式的 Prompt 框,但在文本中加入“提示”甚至可以控制语气。

  • 虽然官方不完全支持 SSML,但可以通过标点符号控制节奏。
    • ...: 长停顿。
    • !: 激昂。
    • ": 引用语气。
  • Emotion Prompting (隐式): 在文本前加一句 [shouting] 或者 [whispering](这是 v3 模型正在探索的功能,v2 主要靠文本语义和稳定性参数控制)。

4. API 开发

ElevenLabs 的 API 非常简单且强大,广泛用于 AI 客服和数字人。

import requests

url = "https://api.elevenlabs.io/v1/text-to-speech/<VOICE_ID>"

headers = {
  "xi-api-key": "<ZOUR_API_KEY>",
  "Content-Type": "application/json"
}

data = {
  "text": "你好,这是一个测试。",
  "model_id": "eleven_multilingual_v2",
  "voice_settings": {
    "stability": 0.5,
    "similarity_boost": 0.5
  }
}

response = requests.post(url, json=data, headers=headers)
with open('output.mp3', 'wb') as f:
    f.write(response.content)

最后更新:2025-12

AI导航助手

Powered by DeepSeek

你好!我是AI导航助手,由DeepSeek驱动。

我可以帮你: • 推荐适合你的AI模型 • 解答AI相关问题 • 直接带你跳转到相关页面

试试点击下方问题,或直接输入你的问题!

快捷提问:

哪个AI模型最好?有免费的AI吗?写代码用哪个?API怎么接入?

点击按钮可直接跳转到相关页面