至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数 。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小 。
接下来就要介绍怎样把这个矩阵变成文本了 。首先要介绍两个概念:音素:单词的发音由音素构成 。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary 。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述 。状态:这里理解成比音素更细致的语音单位就行啦 。通常把一个音素划分成3个状态 。
语音识别是怎么工作的呢?实际上一点都不神秘,无非是:第一步,把帧识别成状态(难点);第二步,把状态组合成音素;第三步,把音素组合成单词 。
推荐阅读
- x27支持面部解锁吗 vivoX27面部识别介绍
- 辩证否定观原理 辩证否定观原理简述
- 滚筒洗衣机的工作原理
- 屏下指纹识别原理 一起来了解一下
- 三星bixby语音可以更改声音吗 简介三星bixby语音可以更改声音吗
- 王者荣耀哇太帅了语音怎么获得 王者荣耀哇太帅了语音如何获得
- 堤坝的拼音 堤坝词语音节和释义
- 杠杆原理的完整公式是什么 杠杆原理的完整公式
- 百度拍照识别功能在哪 手机百度怎样使用拍照识别
- 都江堰原理 都江堰原理介绍