语音识别原理 五分钟就能弄懂( 二 )


至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数 。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小 。
接下来就要介绍怎样把这个矩阵变成文本了 。首先要介绍两个概念:音素:单词的发音由音素构成 。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见The CMU Pronouncing Dictionary 。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述 。状态:这里理解成比音素更细致的语音单位就行啦 。通常把一个音素划分成3个状态 。
语音识别是怎么工作的呢?实际上一点都不神秘,无非是:第一步,把帧识别成状态(难点);第二步,把状态组合成音素;第三步,把音素组合成单词 。

推荐阅读