OpenAI TTS 使用指南

OpenAI 提供了目前市面上也属于第一梯队的文本转语音（Text-to-Speech, TTS）模型。它的特点是极度自然，能在只有文本输入的情况下，自动脑补出语气、停顿和情感，听起来完全不像传统的机械朗读。

1. 核心模型与音色

模型

OpenAI 提供两个主要模型：

tts-1：速度最优，延迟极低，适合实时对话场景。
tts-1-hd：音质最优，采样率更高，适合制作视频配音、播客等需要高保真的场景。

音色 (Voices)

目前共有 6 种预设音色，每种都有鲜明的性格特征：

Alloy：中性，全面，适用性最广。
Echo：偏沉稳的男声，适合叙述。
Fable：比较活泼的英式口音（或偏向故事感）。
Onyx：深沉、浑厚的男低音，非常适合做电影解说。
Nova：充满活力的女声，适合快节奏的短视频。
Shimmer：清晰、明亮的女声。

2. 如何使用

2.1 在 ChatGPT 中使用

在 ChatGPT 的手机 App 中，长按任意一条回答，选择 "Read Aloud"（朗读），使用的就是 TTS 模型。你可以在设置中切换这些音色。

2.2 通过 API 调用 (Python 示例)

对于开发者，可以通过 API 生成 MP3 文件。

from openai import OpenAI
import os

client = OpenAI(api_key="你的API_KEY")

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="你好，这是一段完全由 AI 生成的语音。你听得出来其中的情感变化吗？"
)

# 保存文件
response.stream_to_file("output.mp3")
print("语音已生成：output.mp3")

3. 进阶技巧

多语言混读：OpenAI TTS 最强大的地方在于它能完美处理中英文混合的文本，不会出现生硬的切换感。
控制语速：虽然 API 没有直接的 speed 参数（部分 SDK 版本支持），但你可以通过在文本中加入标点符号（如逗号、句号、换行）来隐式控制停顿节奏。
长文本处理：API 单次请求有字符限制（通常是 4096 字符）。如果需要朗读长文章，需要先用代码将文本按句子或段落切分，分别生成音频后再拼接。

如果你需要一个听起来像真人的 AI 配音，OpenAI TTS 是目前性价比（价格/效果比）最高的选择之一。