OpenAI TTS 使用指南
OpenAI 提供了目前市面上也属于第一梯队的文本转语音(Text-to-Speech, TTS)模型。它的特点是**极度自然**,能在只有文本输入的情况下,自动脑补出语气、停顿和情感,听起来完全不像传统的机械朗读。
5分钟
2025-12-26
音频生成AI语音TTSOpenAI
OpenAI TTS 使用指南
OpenAI 提供了目前市面上也属于第一梯队的文本转语音(Text-to-Speech, TTS)模型。它的特点是极度自然,能在只有文本输入的情况下,自动脑补出语气、停顿和情感,听起来完全不像传统的机械朗读。
1. 核心模型与音色
模型
OpenAI 提供两个主要模型:
tts-1:速度最优,延迟极低,适合实时对话场景。tts-1-hd:音质最优,采样率更高,适合制作视频配音、播客等需要高保真的场景。
音色 (Voices)
目前共有 6 种预设音色,每种都有鲜明的性格特征:
- Alloy:中性,全面,适用性最广。
- Echo:偏沉稳的男声,适合叙述。
- Fable:比较活泼的英式口音(或偏向故事感)。
- Onyx:深沉、浑厚的男低音,非常适合做电影解说。
- Nova:充满活力的女声,适合快节奏的短视频。
- Shimmer:清晰、明亮的女声。
2. 如何使用
2.1 在 ChatGPT 中使用
在 ChatGPT 的手机 App 中,长按任意一条回答,选择 "Read Aloud"(朗读),使用的就是 TTS 模型。你可以在设置中切换这些音色。
2.2 通过 API 调用 (Python 示例)
对于开发者,可以通过 API 生成 MP3 文件。
from openai import OpenAI
import os
client = OpenAI(api_key="你的API_KEY")
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="你好,这是一段完全由 AI 生成的语音。你听得出来其中的情感变化吗?"
)
# 保存文件
response.stream_to_file("output.mp3")
print("语音已生成:output.mp3")
3. 进阶技巧
- 多语言混读:OpenAI TTS 最强大的地方在于它能完美处理中英文混合的文本,不会出现生硬的切换感。
- 控制语速:虽然 API 没有直接的 speed 参数(部分 SDK 版本支持),但你可以通过在文本中加入标点符号(如逗号、句号、换行)来隐式控制停顿节奏。
- 长文本处理:API 单次请求有字符限制(通常是 4096 字符)。如果需要朗读长文章,需要先用代码将文本按句子或段落切分,分别生成音频后再拼接。
如果你需要一个听起来像真人的 AI 配音,OpenAI TTS 是目前性价比(价格/效果比)最高的选择之一。