语音识别原理五分钟就能弄懂( 二 ) _知识经验

至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。
接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing Dictionary 。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。
语音识别是怎么工作的呢？实际上一点都不神秘，无非是：第一步，把帧识别成状态（难点）；第二步，把状态组合成音素；第三步，把音素组合成单词。

语音识别原理五分钟就能弄懂( 二 )

推荐阅读

预防山火的措施（预防山火的措施有哪些）

美味海鲜菇瘦肉汤粉

果茶简单快速做法果茶怎么做

猪肚|为何一只活鸭卖70元，烤好的鸭子才卖18元？其中是否另有隐情？

微信如何申请

监理工程师考试哪个科目最难？

鸡翅码|家常鸡翅菜谱，啤酒鸡翅，简单美味营养，吃不够，适合夏天

插花创作的主题是什么

金立手机输入法怎么调如何调换手机输入法

全息摄影的原理和实验现象

shopify需要注册公司吗？开店流程是什么？

宠物美容师培训学校|宠物美容师培训学校排行榜

洗衣机强洗要多久

炒牛肉丝怎么才嫩

豆芽|炒酸辣绿豆芽，先放醋还是先炒豆芽？教你正确做法，看完明白了

ipad屏幕失灵点不动是什么情况

扣扣昵称男生扣扣昵称男生有哪些

88句 2022年二十四节气春分的诗句古诗

给自己生日祝福语简短给自己生日简短的祝福语有哪些

片云天共远永夜月同孤是什么意思片云天共远永夜月同孤的意思

语音识别原理 五分钟就能弄懂( 二 )

推荐阅读

语音识别原理五分钟就能弄懂( 二 )