语音识别的智能化程度总结

2019-03-13

语音识别是基于语音识别、语音合成、自然语言理解、内容反馈等技术,的主要应用场景包含机器人电话客服、智慧党建、智能问答、活体身份认证、法庭庭审实时记录、实时演讲字幕和翻译、访谈录音转写、业务电话内容监控、有声阅读、党建会议录音等,需要语音识别及词意转化准确率很高,需要实现听懂、会说、理解。

新易维软件研究目前市场上多种语音识别的技术,通过各项指标的综合比较和模拟,总结出目前语音识别的智能化实现程度:

录音文件识别

对用户上传的录音文件进行自动识别并返回识别文本,可用于呼叫中心语音质检,庭审数据库录入,会议记录总结,医院病历录入等场景。

实时语音转写

对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景。

几句话识别

对60秒内的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App,智能家电,智能助手等产品中。

语音合成

能将用户提交的文本转换成自然流畅的语音,目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、通知、任务播报、文学有声阅读等场景。

语音合成声音定制

提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为客户定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。

语言模型自学习工具

用户可以自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度。目前仅支持上传文本数据对语言模型进行定制。未来会推出上传音频数据对声学模型进行定制。