热词概述
在使用语音识别&音视频字幕相关服务时,若存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。
使用流程
第一步:创建应用
在火山引擎控制台-豆包语音中成功创建应用并开通服务
第二步:创建热词

- 在左侧弹窗中输入热词文件名称、热词内容,我们同时提供您通过文件上传和文本输入的方式来编辑需要优化的热词文件内容,点击提交创建热词

- 每一个热词文件会生成对应的热词ID,您可以通过复制按钮复制ID,在识别请求中传入boosting_table_id来生效对应的热词文件

- 创建完成的热词可以查看详情、修改和下载对应的文件
- 同时您可以通过右上角切换应用来切换维护不同应用下的热词文件

第三步:接口调用
- 在请求语音识别相关服务时,传入
boosting_table_id
为热词 ID,或是传入boosting_table_name
为热词文件名即可 - 在请求字幕识别服务时,除了热词 ID 还需要传入
asr_appid
为当前 appid - 详细使用方法见 API 接口文档:
使用限制
- 目前支持中英文的热词优化
- 每一个应用下最多支持10个词表文件的创建
- 每个词表文件支持2000个热词,每行一个热词,通过回车键隔开,每个热词少于10个字,每个热词后可输入热度权重,用|隔开,范围1-10,不填权重则默认为4。举例:“火山语音|8”
- 文件上传支持TXT格式,UTF-8编码格式
- 热词不支持除换行和空格之外的标点符号
- 包含阿拉伯数字和特殊符号的词需要更换为对应的汉字来优化,例如:奥迪A4L,需要更改为“奥迪A四L”
- 尽量不要添加单字和无实体意义的常见词或场景口语化的高频词,以免造成对整体识别效果的负向影响,如“没有”、“不是”等
- 识别&字幕接口调用时,一个请求中只支持生效一张词表
- 识别SDK热词能力开发中,尽请期待