API概述
TTS服务API提供了简单而强大的方式将文本转换为自然语音。我们支持多种语言和声音,并允许您调节语速、语调以适应不同场景需求。
基础URL:
所有API请求均使用HTTP协议,返回标准HTTP状态码表示请求结果。
文本转语音 API
端点
GET /tts
参数
参数 | 类型 | 必选 | 描述 |
---|---|---|---|
t |
string | 是 | 要转换的文本(需要进行URL编码) |
v |
string | 否 | 语音名称,使用short_name格式,默认: zh-CN-XiaoxiaoNeural。可通过/voices接口获取所有可用语音 |
r |
string | 否 | 语速调整,范围: -100%到100%,默认: 0。正值加快语速,负值减慢语速 |
p |
string | 否 | 语调调整,范围: -100%到100%,默认: 0。正值提高语调,负值降低语调 |
o |
string | 否 | 输出音频格式,默认: audio-24khz-48kbitrate-mono-mp3。详见下方支持的格式列表 |
s |
string | 否 | 情感风格,可用值取决于所选语音的style_list属性。例如:"cheerful"、"sad"等 |
示例请求
curl "/tts?t=%E4%BD%A0%E5%A5%BD%EF%BC%8C%E4%B8%96%E7%95%8C&v=zh-CN-XiaoxiaoNeural&r=0%25&p=0%25"
另一个示例(带情感风格)
curl "/tts?t=%E4%BB%8A%E5%A4%A9%E5%A4%A9%E6%B0%94%E7%9C%9F%E5%A5%BD&v=zh-CN-XiaoxiaoNeural&s=cheerful"
响应
返回音频文件,内容类型取决于请求的输出格式。正常响应状态码为200。
错误响应
如果请求参数有误或服务出现问题,将返回对应的HTTP错误码和错误消息。
状态码 | 描述 |
---|---|
400 | 参数错误或缺失必要参数 |
404 | 请求的资源不存在 |
500 | 服务器内部错误 |
获取可用语音 API
端点
GET /voices
参数
参数 | 类型 | 必选 | 描述 |
---|---|---|---|
locale |
string | 否 | 筛选特定语言的语音,例如:zh-CN(中文)、en-US(英文) |
gender |
string | 否 | 筛选特定性别的语音,可选值:Male(男性)、Female(女性) |
示例请求
curl "/voices?locale=zh-CN&gender=Female"
响应
返回JSON格式的可用语音列表:
[
{
"name": "Microsoft Server Speech Text to Speech Voice (zh-CN, XiaoxiaoNeural)",
"display_name": "Xiaoxiao",
"local_name": "晓晓",
"short_name": "zh-CN-XiaoxiaoNeural",
"gender": "Female",
"locale": "zh-CN",
"locale_name": "中文(中国)",
"style_list": ["cheerful", "sad", "angry", "fearful", "disgruntled"]
},
...
]
响应字段说明:
- name:语音的完整名称
- display_name:显示用名称(拉丁字符)
- local_name:本地化名称
- short_name:简短名称(用于API调用的v参数)
- gender:性别(Male或Female)
- locale:语言代码
- locale_name:语言本地化名称
- style_list:支持的情感风格列表(如有)
兼容OpenAI接口 API
语音合成
POST /v1/audio/speech
请求体 (JSON)
参数 | 类型 | 必选 | 描述 |
---|---|---|---|
model |
string | 是 | 当前仅支持值: "tts-1" |
input |
string | 是 | 要转换的文本内容 |
voice |
string | 是 | 声音名称,使用Microsoft语音格式,例如:ja-JP-KeitaNeural、zh-CN-XiaoxiaoNeural |
speed |
number | 否 | 语速调整,范围: 0.5到2.0,默认: 1.0 |
示例请求
curl -X POST "/v1/audio/speech" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"input": "你好,世界!",
"voice": "zh-CN-XiaoxiaoNeural"
}'
另一个示例(带速度调整)
curl -X POST "/v1/audio/speech" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"input": "こんにちは、世界!",
"voice": "ja-JP-NanamiNeural",
"speed": 1.2
}'
响应
返回音频文件,内容类型取决于请求的输出格式。正常响应状态码为200。
错误响应
如果请求有误,将返回JSON格式的错误信息:
{
"error": {
"message": "错误信息描述",
"type": "错误类型",
"code": "错误代码"
}
}
支持的输出格式
格式名称 | 描述 |
---|---|
audio-16khz-32kbitrate-mono-mp3 |
MP3格式,16kHz, 32kbps |
audio-16khz-64kbitrate-mono-mp3 |
MP3格式,16kHz, 64kbps |
audio-16khz-128kbitrate-mono-mp3 |
MP3格式,16kHz, 128kbps |
audio-24khz-48kbitrate-mono-mp3 |
MP3格式,24kHz, 48kbps |
audio-24khz-96kbitrate-mono-mp3 |
MP3格式,24kHz, 96kbps |
audio-24khz-160kbitrate-mono-mp3 |
MP3格式,24kHz, 160kbps |
riff-16khz-16bit-mono-pcm |
WAV格式,16kHz |
riff-24khz-16bit-mono-pcm |
WAV格式,24kHz |