OpenAI TTS 使用指南

OpenAI 提供了目前市面上也属于第一梯队的文本转语音(Text-to-Speech, TTS)模型。它的特点是**极度自然**,能在只有文本输入的情况下,自动脑补出语气、停顿和情感,听起来完全不像传统的机械朗读。

5分钟
2025-12-26
音频生成AI语音TTSOpenAI

OpenAI TTS 使用指南

OpenAI 提供了目前市面上也属于第一梯队的文本转语音(Text-to-Speech, TTS)模型。它的特点是极度自然,能在只有文本输入的情况下,自动脑补出语气、停顿和情感,听起来完全不像传统的机械朗读。

1. 核心模型与音色

模型

OpenAI 提供两个主要模型:

  • tts-1:速度最优,延迟极低,适合实时对话场景。
  • tts-1-hd:音质最优,采样率更高,适合制作视频配音、播客等需要高保真的场景。

音色 (Voices)

目前共有 6 种预设音色,每种都有鲜明的性格特征:

  1. Alloy:中性,全面,适用性最广。
  2. Echo:偏沉稳的男声,适合叙述。
  3. Fable:比较活泼的英式口音(或偏向故事感)。
  4. Onyx:深沉、浑厚的男低音,非常适合做电影解说。
  5. Nova:充满活力的女声,适合快节奏的短视频。
  6. Shimmer:清晰、明亮的女声。

2. 如何使用

2.1 在 ChatGPT 中使用

在 ChatGPT 的手机 App 中,长按任意一条回答,选择 "Read Aloud"(朗读),使用的就是 TTS 模型。你可以在设置中切换这些音色。

2.2 通过 API 调用 (Python 示例)

对于开发者,可以通过 API 生成 MP3 文件。

from openai import OpenAI
import os

client = OpenAI(api_key="你的API_KEY")

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="你好,这是一段完全由 AI 生成的语音。你听得出来其中的情感变化吗?"
)

# 保存文件
response.stream_to_file("output.mp3")
print("语音已生成:output.mp3")

3. 进阶技巧

  • 多语言混读:OpenAI TTS 最强大的地方在于它能完美处理中英文混合的文本,不会出现生硬的切换感。
  • 控制语速:虽然 API 没有直接的 speed 参数(部分 SDK 版本支持),但你可以通过在文本中加入标点符号(如逗号、句号、换行)来隐式控制停顿节奏。
  • 长文本处理:API 单次请求有字符限制(通常是 4096 字符)。如果需要朗读长文章,需要先用代码将文本按句子或段落切分,分别生成音频后再拼接。

如果你需要一个听起来像真人的 AI 配音,OpenAI TTS 是目前性价比(价格/效果比)最高的选择之一。

AI导航助手

Powered by DeepSeek

你好!我是AI导航助手,由DeepSeek驱动。

我可以帮你: • 推荐适合你的AI模型 • 解答AI相关问题 • 直接带你跳转到相关页面

试试点击下方问题,或直接输入你的问题!

快捷提问:

哪个AI模型最好?有免费的AI吗?写代码用哪个?API怎么接入?

点击按钮可直接跳转到相关页面