中文语音识别引擎,盘点中国语音识别技术公司排名


计算机视觉(CV)是AI领域一大吸金赛道 , 也由此产生了商汤、云从、依图、旷视这样的“图像四小龙” 。而这四小龙之一的「依图科技」却率先拓宽边界 , 踏入语音和自然语言处理(NLP)行业 。
12月11日 , 依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台 , 并和华为发布了“智能语音联合解决方案” 。
其实早在2016年 , 当计算机视觉公司刚开始吸引投资人注意时 , 语音识别就开始规模化场景落地 。现如今 , 百度、腾讯、京东、小米纷纷发布智能音箱 , 各种手机搭载语音交互 , 智能翻译工具、智能客服等语音类产品层出不穷 。
那么 , 相比同类产品 , 依图语音技术的比较优势和市场空间会在哪里?在未来产品化落地上 , 依图会有怎样的规划?围绕这些问题 , 36氪独家专访了依图科技首席创新官 , 前Google Research Scientist吕昊博士 。
依图科技首席创新官吕昊博士
确实 , 这个时间点进入语音行业挑战重重 , 一则先发优势不再 , 二则市场拥挤 , 科大讯飞、BAT大厂纷纷入局 , 从技术上升到平台生态 , 市场空间看似余地不多 。
对此 , 吕昊表示:依图团队对国内现有的语音识别技术都做了调研 , 发现在不少场景下 , 语音识别效果并不理想 , 例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等 。因此 , 依图会从这些可优化空间入手 , 对模型算法进行打磨 , 提升识别率 , 降低字错率 。
在语音识别领域 , 15%的字错率是一条红线 , 超过则基本不具备可读性 , 而低于3%则是可以被认为具备类人的语音识别能力 。然而 , 在实际说话过程中 , 人的语速、语气、口音、语态等都会影响识别准确度 。此外 , 不同于英文 , 中文复杂的语言元素 , 以及同音不同意等问题为语音识别带来了更大的挑战 。那么依图如何应对呢?
吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集 , 对于语音识别缺乏体验和比较的工具 , 为提升识别准确率 , 依图团队搜集了大量真实对话数据 , 以及专业类、生活类的细分语料库 , 基于此 , 依图提出了自己多维度、多场景的测试数据集 , 由此来对模型算法进行训练和测试 。
据悉 , 在基于全球最大中文开源数据库的AISHELL-2的测试中 , 依图短语音听写的字错率为3.71% , 官方称领先原业内领先者科大讯飞约20% 。在若干近场、混响、噪声等公开测试集上 , 依图平均字错率 6.39% , 领先讯飞 11% 。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后(全部测试集共 50小时、60万汉字) , 依图平均字错率 8.27% , 讯飞是9.30% , 依图仍然领先讯飞 11% 左右 。

推荐阅读