VOICEVOX本地API怎么用Python发HTTP请求合成日语语音？流程和关键参数有哪些？

通过HTTP请求使用Python调用VOICEVOX引擎实现文字转语音，核心是向VOICEVOX在本地启动的HTTP服务（默认端口50021）发送特定的POST请求。整个过程分为两个主要步骤：首先发送文本以获取音频查询参数，然后使用这些参数合成最终的音频文件 [ref_1]。 ### **VOICEVOX HTTP API 工作流程** VOICEVOX引擎启动后，会在本地 `http://127.0.0.1:50021` 提供一个RESTful API。调用流程如下表所示： | 步骤 | 端点 | 方法 | 主要参数 | 返回结果 | | :--- | :--- | :--- | :--- | :--- | | **1. 音频查询** | `/audio_query` | `POST` | `speaker` (说话人ID), `text` (待合成文本) | 一个包含音高、语速、语调等合成参数的JSON对象 | | **2. 语音合成** | `/synthesis` | `POST` | `speaker` (说话人ID), `query_data` (上一步的JSON) | 二进制WAV音频数据 | ### **完整的Python实现代码** 以下是一个功能完整的Python脚本，它封装了上述流程，并支持通过命令行参数调用。 ```python import argparse import re import requests def get_parser(): """ 配置命令行参数解析器参考来源: [ref_1] """ parser = argparse.ArgumentParser(description="通过HTTP请求调用VOICEVOX引擎合成语音") parser.add_argument("-t", "--text", type=str, required=True, help="需要合成的文本") parser.add_argument("-o", "--output", type=str, default="audio.wav", help="输出音频文件路径") parser.add_argument("-s", "--speaker", type=int, default=2, help="说话人ID (例如: 2-四国めたん)") parser.add_argument("-S", "--speed", type=float, default=1.0, help="语速比例 (默认1.0)") return parser def text_to_speech_with_voicevox(text: str, output_path: str, speaker: int = 2, speed: float = 1.0) -> None: """ 核心函数：通过HTTP请求调用VOICEVOX合成语音参数说明: text: 待合成的文本 output_path: 合成音频的保存路径 speaker: 声线ID，决定说话人角色 speed: 语速，1.0为正常速度参考来源: [ref_1] """ # 步骤1: 向/audio_query端点发送请求，获取音频合成查询参数 url_audio_query = "http://127.0.0.1:50021/audio_query" params = { "speaker": speaker, "text": text } try: response = requests.post(url_audio_query, params=params) response.raise_for_status() # 如果请求失败则抛出异常 query_data = response.text # 获取返回的JSON字符串 except requests.exceptions.RequestException as e: print(f"音频查询请求失败: {e}") return # 可选：调整JSON中的语速参数 # 参考来源[ref_1]中使用了正则替换来修改speedScale字段 query_data = re.sub(r'"speedScale":[0-9.]+', f'"speedScale":{speed:.2f}', query_data) # 步骤2: 向/synthesis端点发送请求，合成最终音频 url_synthesis = "http://127.0.0.1:50021/synthesis" headers = { "Content-Type": "application/json" } params2 = { "speaker": speaker, } try: response = requests.post(url_synthesis, headers=headers, params=params2, data=query_data) response.raise_for_status() # 将返回的二进制音频数据写入文件 with open(output_path, "wb") as file: file.write(response.content) print(f"语音合成成功！音频已保存至: {output_path}") except requests.exceptions.RequestException as e: print(f"语音合成请求失败: {e}") if __name__ == "__main__": # 解析命令行参数 parser = get_parser() args = parser.parse_args() # 调用核心合成函数 text_to_speech_with_voicevox(args.text, args.output, args.speaker, args.speed) ``` ### **使用方式与示例** #### **1. 作为独立脚本使用** 确保VOICEVOX桌面应用已启动并在后台运行（监听50021端口）。然后在命令行中执行： ```bash python voicevox_tts.py -t "こんにちは、音声合成の世界へようこそ" -o ./output.wav -s 2 -S 1.2 ``` * `-t`: 指定要合成的日文或文本。 * `-o`: 指定输出的WAV文件路径。 * `-s`: 指定说话人ID（例如，2代表“四国めたん”）。 * `-S`: 指定语速（1.2表示1.2倍速）。 #### **2. 作为函数模块集成到其他Python项目中** 你可以将 `text_to_speech_with_voicevox` 函数导入到你的主程序中调用。 ```python # 在你的主程序文件中 from voicevox_tts import text_to_speech_with_voicevox # 合成一句问候语 text_to_speech_with_voicevox( text="おはようございます。今日も良い一日を。", output_path="greeting.wav", speaker=0, # 例如，0-ずんだもん speed=0.9 # 稍慢的语速 ) ``` ### **关键参数与配置说明** 1. **说话人ID (Speaker ID)**: 这是最重要的参数之一，决定了合成语音的音色。VOICEVOX提供了多个角色，每个角色有唯一的ID。你需要在VOICEVOX的界面或官方文档中查询对应的ID。例如，在提供的参考代码中默认使用了ID `2` [ref_1]。 2. **语速控制 (Speed Scale)**: 通过修改第一步请求返回的JSON数据中的 `speedScale` 字段来实现。上述代码使用了正则表达式进行替换。语速值大于1.0会加快，小于1.0会减慢 [ref_1]。 3. **错误处理**: 生产环境中，应增加更健壮的错误处理，例如检查VOICEVOX引擎是否已启动、网络是否连通、返回的状态码是否为200等。 4. **性能考虑**: 对于需要低延迟的实时应用场景（如游戏内实时语音），参考资料[ref_1]中提到，可以考虑使用C++配合轻量级的HTTP库（如cpp-httplib）来实现，以降低延迟。但对于大多数Python应用，`requests`库的性能已经足够。 ### **应用场景示例** 此方法不仅限于视觉小说。任何需要将文本动态转换为日语语音的Python应用都可以使用此方案，例如： * **智能助手对话**: 为日语聊天机器人添加语音反馈。 * **内容创作**: 自动为视频生成日语旁白。 * **语言学习工具**: 生成单词或句子的标准发音。 * **游戏开发**: 为独立游戏中的动态文本或NPC对话生成语音，正如参考资料中为视觉小说角色添加配音一样 [ref_1]。通过上述步骤和代码，你可以轻松地将VOICEVOX强大的语音合成能力集成到你的Python项目中。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python函数怎么设计才能同时支持百分制和150分制的及格判断？

目录

VOICEVOX本地API怎么用Python发HTTP请求合成日语语音？流程和关键参数有哪些？

Python内容推荐

python实现TTS离线语音合成

基于Python离线语音合成练手作品

Python-PyTorch实现了Tacotron语音合成模型

python系列：Python 调用Windows内置的语音合成，并生成wav文件

基于Python3.7的讯飞离线语音合成SDK

Python源码：文字合成为语音

百度语音合成python代码调用api

豆包 API 调用示例代码详解-Python版

python 调科大讯飞在线接口，将人声语音转为tts

基于百度语音API开发的集成语音识别与语音合成功能的Python基础工具包_语音识别语音合成百度语音APIWolframAPI图灵机器人API树莓派语音助手Pytho.zip

讯飞TTS语音合成Python封装

Python 访问http, https请求

Python库 | google_api_python_client-1.7.0-py2.py3-none-any.whl

Python-谷歌Tacotron语音合成的一个TensorFlow实现包含预先训练的模型

调用百度语音识别API，Python SDK 并评估WER词错误率

语音合成,使用python pyttsx3实现语音合成

Python-Text2Speech深度学习文字语音合成

DeepSeek API 的 Python 客户端

用于ElevenLabs文本到语音的官方Python API

python 实现语音聊天机器人的示例代码

python语音识别实践之百度语音API

chromedriver-linux64-150.0.7843.0(Canary).zip

西电计网实验资料[代码]

易语言源码exe感染与清除

基于STM32实现BootLoader程序串口命令XmodemCRC16验证

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构