中文语音识别引擎,盘点中国语音识别技术公司排名( 二 )


基于不同数据测试集上 , 依图语音识别技术的准确率表现
其实 , 如果想实现真正意义上的语音交互 , 语音只是一部分 , 更重要的则是对语义的理解 。如果我们把语音技术比作人的嘴巴和耳朵 , 用于表达和获取;那么语义理解则是人的大脑 , 能够帮助信息处理和解析 。在语义理解方面 , 依图同样在进行技术积累 。
吕昊表示:虽然此次是从语音切入 , 但是团队一直是语音、语义两线并行 。2017年时 , 依图就曾将自然语言处理(NLP)技术用于AI 医疗解决方案 , 结合自建的临床中文知识图谱 , 对医学文本等多模态数据进行解析和信息提取 。今年 , 依图的论文更入选NLP顶会EMNLP 2018 , 针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放 。
此前 , 在视觉领域 , 依图已经在安防、医疗、金融、零售等领域有了产品化、商业化积累 。对于是否会将语音技术迁移于这些领域 , 吕昊回应:这一阶段仍旧以技术积累为主 , 依图在开放平台上提供了自有的API和模型算法 , 一方面可以经由市场验证算法质量 , 另一方面可以由此接近不同行业和场景 。
据官方信息 , 依图与微软联合发布的语音开放平台基于Azure Cloud , 将依图的语音识别技术能力开放给广泛第三方应用开发者使用 。依图和华为联合发布的“智能语音联合解决方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的Atlas 300AI加速卡 , 形成软硬一体化解决方案 。
在未来 , 依图计划陆续开放长语音转写API、实时语音转写API等 。正如吕昊所说:希望为第三方应用开发者在语音领域提供多一个语音技术选择 。
【中文语音识别引擎,盘点中国语音识别技术公司排名】笔者认为:结合自有的CV技术积累 , 依图或许可在多模态情感识别和计算领域发力 , 融合视觉、语音等多重数据 , 全方位提升机器的感知能力 。在商业化层面 , 虽然当下的依图语音技术开放平台仍旧以技术积累为重心 , 但依托CV积累的的B端用户 , 为企业级客户提供语音解决方案只是时间早晚问题 。

推荐阅读