发音人自训练平台使用指南

发音人自训练平台，是科大讯飞提供的一项声音定制化训练的平台服务，旨在帮助用户定制更适合自己业务的发音人。发音人自训练平台降低了定制发音人的使用门槛，用户只需要上传一段符合要求的音频，通过发音人自训练平台完成自动化训练，即可训练出属于自己的定制发音人。

#第一步：进入发音人自训练平台页

成功登录讯飞开放平台账户后，通过左上角的「产品服务」—「语音合成」—「发音人自训练平台」，进入到发音人自训练产品页，点击“立即定制”，进入到发音人自训练平台

#第二步：创建发音人

点击“创建发音人”，进入创建流程

填写说明： “发音人名称”：可以输入自定义发音人名称，发音人名称输入要求为：中/英文字符，禁止使用标点符号、换行符等特殊字符，限制在5个字以内； “性别”：男、女或其他，三种性别任选一种； “年龄”：儿童、少年、青年、中年、老年、其他，六种年龄任选一种。 “上传音频”：展示压缩包要求，给出【示例文件】和【示例音频】。音频格式暂时仅支持wav格式，单次最多上传10个文件，总大小不超过200M，文件时间在10分钟15分钟内；自训练平台目前暂时只支持中文，音频存在其他内容可能会影响最终效果；一个音库为单个人的高质量、无噪音、无背景音的人声语音数据；多人或多种不同风格录音数据，需分开训练；语音能量建议在1000025000幅度之间，能量不能太小，或语音不能出现截幅，否则会影响最终的音库质量。您上传的音频需要包括阅读“示例文件”文字的声音。

填写完毕后，点击【提交训练】完成发音人创建，进入下一流程。

备注：带*部分为必填项。

#第三步：申请商用

#第四步：接口调用

调用接口文档、调用示例可以参考在线语音合成，需注意变更的两个参数说明如下：

参数名	类型	必传	描述	示例
vcn	string	是	发音人，申请通过后，在线购买即可看到此参数值	例如传"xiaoyan"
ent	string	是	发音人引擎类型	固定传"ptts"

#常见问题

1、定制发音人的版权属于谁？

答：定制发音人只有在申请商用通过后，发音人的版权才属于音频提供方

2、如何获得训练次数？

答：您可以在“在线语音合成”（https://www.xfyun.cn/services/online_tts）购买套餐，不同产品套餐赠送训练次数不同。

3、训练的音频要求？

答：音频格式暂时仅支持wav格式，单次最多上传10个文件，总大小不超过100M，文件时间在10分钟~15分钟内；自训练平台目前暂时只支持中文，音频存在其他内容可能会影响最终效果；

4、训练的等待时间？

答：提交音频后，预计耗时3-5小时。

5、申请商用的条件？

最后修改时间： 1 年前