我们已经准备好了,你呢?

2023我们与您携手共赢,为您的企业形象保驾护航!


喜讯:国内、香港、海外云服务器租用特惠活动,2核/4G/10M仅需31元每月,点击抢购>>>

点击这里点击这里申请百度智能云特邀VIP帐号,立即体验语音技术产品>>>

百度智能云语音识别技术-语音识别极速版API

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

调用流程

  1. 鉴权认证:使用appKey secretKey 访问 https://openapi.baidu.com 换取 token ,详细见[鉴权认证机制]

  2. 确认请求方式:选择一种HTTP POST 请求格式,参见下一节 请求方式

  3. 填写参数:详细见 参数说明

适用范围及demo下载

任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。

示例Demo代码见: https://github.com/Baidu-AIP/speech-demo

浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接使用本接口。需从服务器端发起调用。

语音识别极速版调用地址:https://vop.baidu.com/pro_api

语音格式

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型,m4a格式输入适用于微信小程序的录音文件,详见格式说明)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。

音频文件格式转换可以使用音频软件进行。批量音频格式转换,可使用开源ffmpeg格式转换工具文档

超过60秒音频可使用VAD切分工具进行切分

小程序m4a格式设置

  • 参数format改为m4a

  1. 仅支持单声道

  2. 采样率仅支持16000

  3. CBR bitrates 24000-96000,推荐48000

  4. 仅支持AAC-LC, 不支持 例如HE-AAC ,LD,ELD等

  5. brand 仅支持 mp42:0, mini Version 0 ,不支持 M4A

微信小程序录音参数,请重点关注并设置以下必填字段:

属性类型默认值必填说明
durationnumber60000百度语音restapi最大支持 60s,即这个值不能超过60000
sampleRatenumber16000必须设为 16000
numberOfChannelsnumber1比如设为1,单声道
encodeBitRatenumber48000默认值即可,建议48000,可设为24000-96000。该值越大的话,生成文件越大
formatstringaac默认值即可,只支持aac,不支持mp3






参数说明

  • 格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(AAC编码);固定16k 采样率;

  • 系统支持语言种类 普通话


识别语言及模型选择

短语音识别极速版dev_pid 参数列表

dev_pid语言模型是否有标点备注
80001普通话(纯中文识别)语音近场识别模型极速版有标点支持自定义词库


请求说明

语音数据上传 POST 方式有 2 种:

  1. JSON 格式 POST 上传本地音频文件。

  2. RAW 格式 POST 上传本地音频文件。

JSON 方式

  • 音频文件,读取二进制内容后,进行 base64 编码后放在 speech 参数内。

  • 音频文件的原始大小, 即二进制内容的字节数,填写 “len” 字段

由于使用 json 格式, header 为:

Content-Type:application/json

注意 由于 base64 编码后,数据会增大 1/3。

RAW方式

  • 音频文件,读取二进制内容后,直接放在 body 中。

  • Content-Length 的值即为音频文件的大小。(一般代码会自动生成)。

由于使用 raw 方式, 采样率和文件格式需要填写在 Content-Type 中

Content-Type: audio/pcm;rate=16000


JSON方式上传音频

语音数据和其他参数通过标准 JSON 格式串行化 POST 上传, JSON 里包括的参数:

字段名类型可需描述
formatstring必填语音文件的格式,pcm/wav/amr/m4a。不区分大小写。推荐pcm文件
rateint必填采样率,16000,固定值
channelint必填声道数,仅支持单声道,请填写固定值 1
cuidstring必填用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
tokenstring必填开放平台获取到的开发者[access_token]获取 Access Token "access_token")
dev_pidint必填80001(极速版输入法模型)
lm_idint选填自训练平台模型id
lanstring选填,废弃参数历史兼容参数,已不再使用
speechstring必填本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。
lenint必填本地语音文件的的字节数,单位字节

上传示例(speech, len 参数)

即:JSON格式POST上传本地文件

固定头部header

Content-Type:application/json

请求示例

4K大小的pcm文件(普通话录音)请求:

POST https://vop.baidu.com/pro_api

speech 参数填写为 文件内容base64后的结果:

{ "format":"pcm", "rate":16000, "dev_pid":80001, "channel":1, "token":xxx, "cuid":"baidu_workshop", "len":4096, "speech":"xxx", // xxx为 base64(FILE_CONTENT) }

返回示例

{"corpus_no":"6433214037620997779","err_msg":"success.","err_no":0,"result":["北京科技馆,"],"sn":"371191073711497849365"}

注意事项

len 字段表示原始语音大小字节数,不是 base64 编码之后的长度。


RAW 方式上传

即 raw格式POST上传本地文件 语音数据直接放在 HTTP BODY 中,控制参数以及相关统计信息通过
推荐:TOP云智能建站优惠活动,仅880元即可搭建一个后台管理五端合一的智能网站(PC网站、手机网站、百度智能小程序、微信小程序、支付宝小程序),独享百度搜索SEO优势资源,让你的网站不仅有颜值有排面,更有排名,可以实实在在为您带来效益,请点击进入TOP云智能建站>>>,或咨询在线客服了解详情。



我们已经准备好了,你呢?

2023我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

131-3501-0006

上班时间

周一到周五

公司电话

130-0743-9476

二维码
线