当前位置: 开发笔记 > 后端 > 正文

hmm求隐藏序列_NLP（2）：用于语音识别、分词的隐马尔科夫模型(HMM)

作者：葉の鋼琴曲 | 来源：互联网 | 2023-06-20 09:57

1马尔科夫随机过程设随机变量X(t)随时间t(tt1,t2,t3tn)而变化，E为其状态空间，若随机变量x满足马尔科夫性，如下&#x

1 马尔科夫随机过程

设随机变量X(t)随时间t(t&＃61;t1,t2,t3...tn)而变化&＃xff0c;E为其状态空间&＃xff0c;若随机变量x满足马尔科夫性&＃xff0c;如下&＃xff1a;

即X在tn时刻的状态只与其前一时刻时状态的值有关&＃xff0c;则称该随机变量的变化过程是马尔科夫随机过程&＃xff0c;随机变量满足马尔科夫性。

2 隐马尔科夫模型(HMM)

如图所示为马尔科夫模型的图结构

基于此图结构可知&＃xff0c;HMM模型满足如下的性质&＃xff1a;(1) 它基于观测变量来推测未知变量&＃xff1b;(2) 状态序列满足马尔科夫性&＃xff1b;(3) 观测序列变量X在t时刻的状态仅由t时刻隐藏状态yt决定。
同时&＃xff0c;隐马尔科夫模型是一种概率图模型&＃xff0c;它将学习任务归结于计算变量的概率分布。通过考虑联合概率P(Y,X)来推断Y的分布。
考虑马尔科夫性质以及随机变量Y在t时刻的状态仅由y(t-1)决定&＃xff0c;观测序列变量X在t时刻的状态仅由yt决定&＃xff0c;有&＃xff1a;

从而可以推出联合概率&＃xff1a;

总的来说&＃xff0c;马尔科夫模型是利用已知的观测序列来推断未知变量序列的模型。

例如在分词任务中&＃xff0c;中文的句子“请问今天的天气怎么样&＃xff1f;”就是可以被观测到的序列&＃xff0c;而其分词的标记序列就是未知的状态序列“请问/今天/深圳/的/天气/怎么样/&＃xff1f;”这种分词方式对应的标记序列为“BEBEBESBEBME”标记序列&＃xff1a;标签方案中通常都使用一些简短的英文字符[串]来编码。
标签列表如下&＃xff0c;在分词任务中&＃xff0c;通常用BMES标记。
B&＃xff0c;即Begin&＃xff0c;表示开始
M&＃xff0c;即Mediate&＃xff0c;表示中间
E&＃xff0c;即End&＃xff0c;表示结尾
S&＃xff0c;即Single&＃xff0c;表示单个字符

3 HMM模型的几个重要概率矩阵

仔细分析此联合概率表达式&＃xff0c;可知其分为三个部分&＃xff1a;

(1) 初始状态概率P(y1)
初始概率矩阵是指序列头的状态分布&＃xff0c;以分词为例&＃xff0c;就是每个句子开头&＃xff0c;标记分别为BMES的概率。(2) 状态转移概率P(yi|yi-1)
状态转移概率是指状态序列内&＃xff0c;两个时刻内不同状态之间转移的状态分布。以分词为例&＃xff0c;标记状态总共有BMES四种&＃xff0c;因此状态转移概率构成了一个4*4的状态转移矩阵。这个矩阵描述了4种标记之间转化的概率。例如&＃xff0c;P(yi&＃61;”E”|yi-1&＃61;”M”)描述的i-1时刻标为“M”时&＃xff0c;i时刻标记为“E”的概率。(3) 输出观测概率P(xi|yi)
输出观测概率是指由某个隐藏状态输出为某个观测状态的概率。以分词为例&＃xff0c;标记状态总共有BMES四种&＃xff0c;词表中有N个字&＃xff0c;则输出观测概率构成了一个4*N的输出观测概率矩阵。这个矩阵描述了4种标记输出为某个字的概率。例如&＃xff0c;P(Xi&＃61;”深”|yi&＃61;”B”)描述的是i时刻标记为“B”时&＃xff0c;i时刻观测到到字为“深”的概率。

4 HMM在分词应用中的实战

经过上面的讲述&＃xff0c;各位读者可能还是会对HMM有一种似懂非懂的感觉。所以这一节中介绍其在分词应用中的实践&＃xff0c;通过完整实际的思路介绍和代码讲解&＃xff0c;相信各位读者能够对HMM模型有一个准确的认识。
假设有词序列Y &＃61; y1y2....yn&＃xff0c;HMM分词的任务就是根据序列Y进行推断&＃xff0c;得到其标记序列X&＃61; x1x2....xn&＃xff0c;也就是计算这一个概率&＃xff1a;

根据贝叶斯公式&＃xff1a;

当语料确定时

可以认为是常数&＃xff0c;所以只需计算

这样的话&＃xff0c;就是要计算3小节的那三个概率矩阵&＃xff0c;当获得上述三个矩阵之后&＃xff0c;便可以根据维特比算法计算出一个词序列对应概率最大的分词标记序列&＃xff0c;就此也就完成了分词的任务。那我们就还剩下2个任务&＃xff1a;4.1 根据语料计算三个概率矩阵
当获得了分好词的语料之后&＃xff0c;三个概率可以通过如下方式获得&＃xff1a;(1) 初始状态概率P(y1)
统计每个句子开头&＃xff0c;序列标记分别为B&＃xff0c;S的个数&＃xff0c;最后除以总句子的个数&＃xff0c;即得到了初始概率矩阵。(2) 状态转移概率P(yi|yi-1)
根据语料&＃xff0c;统计不同序列状态之间转化的个数&＃xff0c;例如count(yi&＃61;”E”|yi-1&＃61;”M”)为语料中i-1时刻标为“M”时&＃xff0c;i时刻标记为“E”出现的次数。得到一个4*4的矩阵&＃xff0c;再将矩阵的每个元素除以语料中该标记字的个数&＃xff0c;得到状态转移概率矩阵。(3) 输出观测概率P(xi|yi)
根据语料&＃xff0c;统计由某个隐藏状态输出为某个观测状态的个数&＃xff0c;例如count(xi&＃61;”深”|yi&＃61;”B”)为i时刻标记为“B”时&＃xff0c;i时刻观测到字为“深”的次数。得到一个4*N的矩阵&＃xff0c;再将矩阵的每个元素除以语料中该标记的个数&＃xff0c;得到输出观测概率矩阵。
我们看一下该部分的代码&＃xff1a;

Pi &＃61; {k: v*1.0/line_num for k,v in Pi_dict.items()}
A &＃61; {k: { k1: v1/ Count_dict[k] for k1, v1 in v.items()}
for k, v in A_dict.items()
}
B&＃61; {k: { k1: v1/ Count_dict[k] for k1, v1 in v.items()}
for k,v in B_dict.items()
}
line_num为预料中句子的个数&＃xff1b;
Pi_dic记录了语料中句子中开头标记的个数。
Count_dict记录了预料中“BMES”四个标记的个数&＃xff1b;
A_dict记录了不同序列状态之间转化的个数&＃xff1b;
B_dict记录了不同隐藏状态输出为某个观测状态的个数。

4.2 维特比算法
训练结束之后&＃xff0c;便可获得三个概率矩阵&＃xff0c;那么该如何利用上述矩阵&＃xff0c;获得一个句子的最大概率分词标记序列&＃xff0c;即完成分词任务呢&＃xff1f;下面就是我们要介绍的维特比算法。
设Q是所有可能状态的集合Q&＃61;{q1,q2,....qN}&＃xff0c;V&＃61;{v1,v2,...vM}是所有可能的观测集的集合。其中N是可能的状态数(例如标记个数4&＃xff1a;“BMES”)&＃xff0c;M是可能的观测状态数(例如字典中字的个数)。
一个隐马尔可夫模型由一个三元组(Pi,A,B)确定&＃xff0c;I是长度为T的状态序列&＃xff0c;O是对应的观测序列&＃xff0c;先用数学符号表示上述的三个概率矩阵&＃xff1a;
初始概率矩阵&＃xff0c;表示序列开头&＃xff0c;序列状态为yi的概率

状态转移矩阵&＃xff0c;表示序列状态由yi转为yj的概率

输出状态矩阵&＃xff0c;表示序列状态为yi时&＃xff0c;输出字为xj的概率

进而&＃xff0c;为了叙述方便&＃xff0c;引入两个变量&＃xff1a;定义时刻t状态为i的所有单个路径(i1,i2,i3,...,it)中概率最大值为&＃xff0c;简单记为delta(i)&＃xff1a;

由其定义可得其递推公式&＃xff1a;

下为时刻t状态为i的所有单个路径中&＃xff0c;概率最大的路径的第t-1个节点&＃xff0c;简单记为kethe(i)&＃xff1a;

先阐述一下维特比算法的基本流程&＃xff1a;
(1) 计算初始转态概率

通过上述公式&＃xff0c;得到t&＃61;1时刻&＃xff0c;隐藏状态取各个值(BMES)时的概率。
(2) 逐渐递推到t&＃61;2,3,4.....T

通过上述公式&＃xff0c;分别得到各个时刻&＃xff0c;隐藏状态取各个值时的概率最大的路径以及其前一时刻节点状态
(3) 终止

选取T时刻中&＃xff0c;取值最大的那个状态为T时刻的状态。
(4) 回溯最优路径

根据前面计算的结果&＃xff0c;反推得到各个时刻隐藏状态的取值
可能还有同学对这个过程不是很理解&＃xff0c;我们举分词的例子&＃xff0c;详细介绍一下这个过程。

维特比算法是计算一个概率最大的路径&＃xff0c;如图要计算“我爱中国”的分词序列&＃xff1a;
第一个词为“我”&＃xff0c;通过初始概率矩阵和输出观测概率矩阵分别计算delta1("B")&＃61;P(y1&＃61;”S”)P(x1&＃61;”我”|y1&＃61;”S”)&＃xff0c;delta1("M")&＃61;P(y1&＃61;”B”)P(x1&＃61;”我”|y1&＃61;”B”)&＃xff0c;delta1("E")&＃61;P(y1&＃61;”M”)P(x1&＃61;”我”|y1&＃61;”M”)&＃xff0c;delta1("S")&＃61;P(y1&＃61;”E”)P(x1&＃61;”我”|y1&＃61;”E”)&＃xff0c;
并设kethe1("B")&＃61;kethe1("M")&＃61;kethe1("E")&＃61;kethe1("S")&＃61;0&＃xff1b;
同理利用公式分别计算&＃xff1a;
delta2("B")&＃xff0c;delta2("M")&＃xff0c;delta2("E")&＃xff0c;delta2("S")。图中列出了delta2("S")的计算过程&＃xff0c;就是计算&＃xff1a;
P(y2&＃61;”S”|y1&＃61;”B”)P(x2&＃61;”爱”|y2&＃61;”S”)
P(y2&＃61;”S”|y1&＃61;”M”)P(x2&＃61;”爱”|y2&＃61;”S”)
P(y2&＃61;”S”|y1&＃61;”E”)P(x2&＃61;”爱”|y2&＃61;”S”)
P(y2&＃61;”S”|y1&＃61;”S”)P(x2&＃61;”爱”|y2&＃61;”S”)
其中P(y2&＃61;”S”|y1&＃61;”S”)P(x2&＃61;”爱”|y2&＃61;”S”)的值最大&＃xff0c;为0.034&＃xff0c;因此delta2("S")&＃xff0c;kethe2("S")&＃61;"S"&＃xff0c;同理&＃xff0c;可以计算出delta2("B")&＃xff0c;delta2("M")&＃xff0c;delta2("E")及kethe2("B")&＃xff0c;kethe2("M")&＃xff0c;kethe2("E")。
同理可以获得第三个和第四个序列标记的delta和kethe。
到最后一个序列&＃xff0c;delta4("B")&＃xff0c;delta4("M")&＃xff0c;delta4("E")&＃xff0c;delta4("S")中delta4("S")的值最大&＃xff0c;因此&＃xff0c;最后一个状态为”S”。
最后&＃xff0c;回退&＃xff0c;
i3 &＃61; kethe4("S") &＃61;"B"
i2 &＃61;kethe3("B") &＃61; "S"
i1 &＃61; kethe2("S") &＃61;"S"
求得序列标记为&＃xff1a;“SSBE”。

总结

HMM的基本原理和其在分词中的应用就讲到这里了&＃xff0c;从上述分析可以看出&＃xff0c;HMM时非常适合用于序列标注问题的。但是HMM模型引入了马尔科夫假设&＃xff0c;即T时刻的状态仅仅与前一时刻的状态相关。但是&＃xff0c;语言往往是前后文相互照应的&＃xff0c;所以HMM可能会有它的局限和问题&＃xff0c;读者可以思考一下&＃xff0c;如何解决这个问题。

原文转自&＃xff1a;https://zhuanlan.zhihu.com/p/69890528

推荐阅读

https
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
https
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
https
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
https
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
https
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
https
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
https
数模国赛报名参加方法及建议

本文介绍了数模国赛的报名参加方法，包括学校报名和自己报名的途径。同时给出了建模竞赛的建议，重在历练的同时掌握方法以及弥补自己的短板。此外，还分享了论文的结构和模型求解部分的注意事项，包括数学命题的表述规范和计算方法的原理等。 ... [详细]

蜡笔小新 2023-12-13 18:52:24
https
【疑难杂症】allennlp安装报错：Installing build dependencies ... error

背景：配置PURE的算法环境，安装allennlp0.9.0（pipinstallallennlp0.9.0）报错ÿ ... [详细]

蜡笔小新 2023-10-17 16:20:30
https
验证识别之你讲武德了吗？

说说那个试用版的打包软件，既然是试用版肯定要加个试用期限，但是里面的pb模型并没有放识别率最好的那个，而是放了一个识别率中等 ... [详细]

蜡笔小新 2023-10-16 20:25:37
https
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
x86
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
x86
软件测试工程师，需要达到什么水平才能顺利拿到 20k+ 无压力？

前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]

蜡笔小新 2023-10-16 13:18:32
api
Google Contacts API未返回输出 - Google Contacts API not returning output

Itwasworkingcorrectly,butyesterdayitstartedgiving401.IhavetriedwithGooglecontactsAPI ... [详细]

蜡笔小新 2023-10-15 16:40:16
api
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
api
【BERT】BERT的嵌入层是如何实现的？看完你就明白了

作者：__编译：ronghuaiyang导读非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。介绍在本文中，我将解释BERT ... [详细]

蜡笔小新 2023-10-15 11:40:54

葉の鋼琴曲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章