【读】关系抽取—（1）AttentionBasedBidirectionalLongShortTermMemoryNetworksforRelationClassification

作者：无休止的等待Happy_212 | 来源：互联网 | 2023-10-11 19:41

学习本无底，前进莫徬徨。这是一篇RelationClassification相关的paper，出自于中科大自动化所Zhou，Attenti

学习本无底&＃xff0c;前进莫徬徨。

这是一篇Relation Classification相关的paper&＃xff0c;出自于中科大自动化所 Zhou &＃xff0c;Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification。收录于ACL 2016。

Abstract

1 Introduction

2 Related work

3 Model

3.1 Word Embeddings

3.2 Bidirectional Network

3.3 Attention

3.4 Classifying

3.5 Regularization

4 Experiments

4.1 Dataset and Experimental Setup

4.2 Experimental Results

5 Conclusion

LINK

NOTE

待修改

本文主要做了三个方面的工作&＃xff1a;

&＃xff08;1&＃xff09;基于注意力的双向长短期记忆网络&＃xff08;Att-BLSTM&＃xff09;来捕获句子中最重要的语义信息。

&＃xff08;2&＃xff09;使用词向量级别的attention机制的方法.

&＃xff08;3&＃xff09;句子级特征向量最终用于关系分类。

Abstract
关系分类是自然语言处理领域&＃xff08;NLP&＃xff09;的一项重要的语义处理任务。当前水平的系统仍然依赖于词汇资源&＃xff0c;如WordNet或NLP系统&＃xff0c;如依赖解析器和命名实体识别器&＃xff08;NER&＃xff09;来获得高级特性。另一个挑战是&＃xff0c;重要的信息可以出现在句子的任何位置。为了解决这些问题&＃xff0c;我们建议基于注意力的双向长短期记忆网络&＃xff08;Att-BLSTM&＃xff09;来捕获句子中最重要的语义信息。对SemEval-2010关系分类任务的实验结果表明&＃xff0c;我们只用词向量级别的attention机制的方法&＃xff0c;优于大多数现有的方法。
# 这里要写小评论&＃xff0c;可是我不会改字体

1 Introduction
关系分类是在对许多NLP应用程序中寻找语义关系的任务&＃xff0c;如信息提取&＃xff08;Wu and Weld, 2010&＃xff09;&＃xff0c;问题回答&＃xff08;Yao and Van Durme, 2014&＃xff09;。例如&＃xff0c;下面的句子包含了一个关于名词的花和小教堂之间的实体-目的地关系的例子。
花被带入教堂。
&＃xff0c;&＃xff0c;&＃xff0c;是四个位置指示器&＃xff0c;指定了名词的开始和结束&＃xff08;Hendrickx等人&＃xff0c;2009&＃xff09;。
传统的关系分类方法&＃xff0c;从词汇资源中使用人工标注的特征&＃xff0c;通常基于模式匹配&＃xff0c;并取得了很高的性能(Bunescu and Mooney, 2005; Mintz et al., 2009; Rink and Harabagiu, 2010)&＃xff09;。这些方法的一个缺点是&＃xff0c;许多传统的NLP系统被用来提取高级特性&＃xff0c;比如语音标签的一部分、最短的依赖路径和命名实体&＃xff0c;从而导致计算成本的增加和额外的传播错误。另一个缺点是&＃xff0c;人工标注特征是很耗时间的&＃xff0c;而且由于不同的培训数据集的覆盖率很低&＃xff0c;所以在泛化方面表现不佳。
最近&＃xff0c;深度学习方法提供了一种有效的方法来减少人工标注特征的功能 (Socher et al., 2012; Zeng et al., 2014)。然而&＃xff0c;这些方法仍然使用词汇资源&＃xff0c;如WordNet&＃xff08;Miller&＃xff0c;1995&＃xff09;或NLP系统&＃xff0c;如依赖解析器和NER&＃xff0c;以获得高级特性。
本文提出了一种新的神经网络-BLSTM关系分类。我们的模型利用双向长短期记忆网络&＃xff08;BLSTM&＃xff09;的神经注意机制来捕捉句子中最重要的语义信息。该模型不使用来自词汇资源或NLP系统的任何特性。
本文的贡献是利用BLSTM与注意力机制&＃xff0c;它可以自动聚焦于对分类有决定性影响的词语&＃xff0c;在不使用额外知识和NLP系统的情况下&＃xff0c;捕捉句子中最重要的语义信息。我们在SemEval-2010任务8数据集上进行实验&＃xff0c;并获得84.0%的f1-分数&＃xff0c;比现有的文献中大多数方法都要高。
本文的其余部分按如下方式构造。在第2部分中&＃xff0c;我们回顾了有关关系分类的相关工作。第3部分详细介绍了我们的Att-BLSTM模型。在第4部分中&＃xff0c;我们描述了实验评估的设置和实验结果。最后&＃xff0c;我们在第5部分有了结论。
# 这里要写小评论&＃xff0c;可是我不会改字体

3 Model
在这一节中&＃xff0c;我们将详细地介绍该模型。如图1所示&＃xff0c;本文提出的模型包含五个组件&＃xff1a;
&＃xff08;1&＃xff09;输入层&＃xff1a;该模型的输入句;
&＃xff08;2&＃xff09;嵌入层&＃xff1a;将每个单词映射到一个低维向量;
&＃xff08;3&＃xff09;LSTM层&＃xff1a;利用BLSTM从step&＃xff08;2&＃xff09;获得高级特性;
&＃xff08;4&＃xff09;注意层&＃xff1a;产生一个重量矢量&＃xff0c;并将每个时间步骤的单词级别的特征合并到一个句子级的特征向量中&＃xff0c;通过增加权重向量;
&＃xff08;5&＃xff09;输出层&＃xff1a;句子级特征向量最终用于关系分类。
这些组件将在本节中详细介绍。

3.1 Word Embeddings

3.2 Bidirectional Network

LSTM单元首先由Hochreiter和Schmidhuber&＃xff08;1997&＃xff09;提出&＃xff0c;以克服梯度消失问题。其主要思想是引入一种自适应的控制机制&＃xff0c;它决定了LSTM单元保持前一个状态的程度&＃xff0c;并记住当前数据输入的提取特性。然后&＃xff0c;提出了许多LSTM变体。我们采用了Graves等人&＃xff08;2013&＃xff09;所介绍的一种变体&＃xff0c;该变种将从常量错误木马&＃xff08;CEC&＃xff09;到相同内存块的门上添加了加权的窥视孔连接&＃xff08;&＃xff1f;&＃xff1f;翻译成什么词呢&＃xff1f;&＃xff09;。通过直接使用当前的细胞状态来产生门度&＃xff0c;窥视孔连接允许所有的门进入细胞&＃xff08;即当前的细胞状态&＃xff09;&＃xff0c;即使输出门关闭了(Graves, 2013)。

通常&＃xff0c;四个组件组合了基于lstm的递归神经网络&＃xff1a;一个输入门it和相应的权重矩阵Wxi、Whi、Wci、bi&＃xff1b;一个遗忘门ft和相应的权重矩阵Wxf、Whf、Wcf、bf&＃xff1b;一个输出门ot和相应的权重矩阵Wxo、Who、Wco、bo权重矩阵&＃xff0c;所有这些门将生成一些阈&＃xff0c;使用当前输入xi&＃xff0c;上一步生成的状态hi-1,和当前状态的细胞ci-1(窥视孔)&＃xff0c;决定是否要输入&＃xff0c;之前忘记记忆存储和输出后生成的状态。就像下面这些方程所证明的那样&＃xff1a;

因此&＃xff0c;目前的细胞状态ct将通过使用前一个细胞状态和细胞产生的当前信息来计算加权总和 (Graves, 2013)。

对于许多序列建模任务来说&＃xff0c;访问未来和过去的上下文是有益的。然而&＃xff0c;标准的LSTM网络以时间顺序处理序列&＃xff0c;它们忽略了未来的上下文。双向LSTM网络通过引入第二个层来扩展单向的LSTM网络&＃xff0c;在这个层中隐藏的隐藏连接以相反的时间顺序流动。因此&＃xff0c;该模型能够利用过去和未来的信息。

在本文中&＃xff0c;我们使用BLSTM。如图1所示&＃xff0c;该网络包含两个用于左右顺序上下文的子网络&＃xff0c;分别是向前和向后传递。第ith个单词的输出如下所示

在这里&＃xff0c;我们使用元素求和来组合前进和向后传递输出。

3.3 Attention

注意力的神经网络最近在各种各样的任务中取得了成功&＃xff0c;从问答、机器翻译、语音识别到图像字幕&＃xff08;Hermann et al., 2015; Bahdanau et al., 2014; Chorowski et al., 2015; Xu et al., 2015&＃xff09;。在本节中&＃xff0c;我们提出了关系分类任务的注意机制。让H成为一个由LSTM层产生的输出向量[h1,h2,...,hT]&＃xff0c;T是句子长度。句子的表示r是由这些输出向量的加权和构成的&＃xff1a;

H属于R^dw*T&＃xff0c;dw是向量的维数&＃xff0c;w是一个经过训练的参数向量&＃xff0c;而wT是a的转置。w&＃xff0c;α&＃xff0c;r的维数分别是dw&＃xff0c;T&＃xff0c;dw。

我们得到了用于分类的最后的句子对表示&＃xff1a;

3.4 Classifying

在这个设置中&＃xff0c;我们使用一个softmax分类器来预测一个句子s的离散集合Y的标签Y。分类器将隐藏状态h*作为输入&＃xff1a;

损失函数是真正类标签^y的负对数似然函数&＃xff1a;

本文将dropout与L2正则化结合起来&＃xff0c;以缓解过拟合。

3.5 Regularization

由&＃xff08;Hinton等人&＃xff0c;2012年&＃xff09;提出的Dropout现象&＃xff0c;在向前传播过程中&＃xff0c;通过从网络中随机省略特征检测器来防止隐藏单元的协同适应。我们在嵌入层、LSTM层和倒数第二层中使用了Dropout。

另外&＃xff0c;我们还限制了权重矢量的L2正则化&＃xff0c;当w&＃61;s时&＃xff0c;在梯度下降步骤之后&＃xff0c;如方程式15所示。训练详情将在第4.1节进一步介绍。

4 Experiments

4.1 Dataset and Experimental Setup

实验是在SemEval-2010任务8数据集&＃xff08;Hendrickx等人&＃xff0c;2009年&＃xff09;上进行的。这个数据集包含9个关系&＃xff08;有两个方向&＃xff09;和一个无定向的其他类。有10717个带注释的例子&＃xff0c;包括8000个用于培训的句子&＃xff0c;2717个用于测试。我们采用官方的评估指标来评估我们的系统&＃xff0c;它是基于9个实际关系的宏观平均F1-得分&＃xff08;不包括其他关系&＃xff09;&＃xff0c;并考虑了方向。

为了与Zhang和Wang&＃xff08;2015&＃xff09;的工作相比较&＃xff0c;我们使用了由Turian等人&＃xff08;2010&＃xff09;&＃xff08;50维&＃xff09;提出的相同的词向量来初始化嵌入层。此外&＃xff0c;与Zhang等&＃xff08;2015&＃xff09;的工作相比&＃xff0c;我们还使用了由Pennington等人&＃xff08;2014年&＃xff09;预先训练的100维字向量。

由于没有官方的开发数据集&＃xff0c;所以我们随机选择了800个句子进行验证。我们的模型的超参数被调优到每个任务的开发集。我们的模型使用AdaDelta&＃xff08;Zeiler&＃xff0c;2012&＃xff09;进行了训练&＃xff0c;其学习速度为1.0&＃xff0c;而minibatch为10。该模型参数被强度为10^-5个的L2正则规范化。我们评估了dropout层、dropout LSTM层和dropout the penultimate 层的影响&＃xff0c;当dropout分别为0.3、0.3、0.5时模型的性能更好。我们模型中的其他参数是随机初始化的。

4.2 Experimental Results

表1比较了我们的工作原理和其他最先进的关系分类方法。

SVM&＃xff1a;这是在SemEval-2010的最高执行系统。Rink和Harabagiu&＃xff08;2010&＃xff09;利用了各种人工标注特征的功能&＃xff0c;并使用SVM作为分类器。他们的得分为82.2%。

CNN&＃xff1a;Zeng等人&＃xff08;2014&＃xff09;将句子作为连续的数据处理&＃xff0c;并利用卷积神经网络来学习句子层次的特征;他们还使用一个特殊的位置向量来表示每个单词。然后&＃xff0c;句子级和词汇特征被连接到一个单一的向量中&＃xff0c;并被输入到一个用于预测的softmax分类器中。该模型的f1得分为82.7%。

RNN&＃xff1a;Zhang和Wang&＃xff08;2015&＃xff09;采用双向的网络&＃xff0c;有两个不同维度的词向量进行关系分类。他们使用Mikolov等人&＃xff08;2013年&＃xff09;预先训练的300维字矢量&＃xff0c;取得了82.8%的f1分数&＃xff0c;并使用了由Turian等人&＃xff08;2010年&＃xff09;预先训练的50维字矢量的f1得分为80.0%。我们的模型具有相同的50维字向量&＃xff0c;达到了82.5%&＃xff0c;比他们的多了2.5%。

SDP-LSTM:Yan等人&＃xff08;2015&＃xff09;利用四个不同的渠道在SDP中拾取异质&＃xff0c;他们获得了83.7%的f1。与它们的模型相比&＃xff0c;我们对原始文本作为序列的模型更简单。

BLSTM:Zhang等人&＃xff08;2015&＃xff09;使用了来自NLP工具和词汇资源的许多特性&＃xff0c;使用双向的LSTM网络来学习句子级别的特性&＃xff0c;并且在SemEval-2010任务8数据集上获得了最先进的性能。我们使用相同的单词向量的模型得到了一个非常相似的结果&＃xff08;84.0%&＃xff09;&＃xff0c;并且我们的模型更加简单。

我们提出的这个模型产生了84.0%的F1。它优于大多数现有的竞争方法&＃xff0c;而不使用诸如WordNet或NLP系统之类的词汇资源&＃xff0c;如依赖解析器和NER来获得高级特性。

5 Conclusion
本文提出了一种新的神经网络模型&＃xff0c;名为“一种关系分类”。该模型不依赖于NLP工具或词汇资源来获得&＃xff0c;它使用带有位置指示器的原始文本作为输入。通过对 SemEval-2010关系分类任务的模型进行评价&＃xff0c;证明了该方法的有效性。

LINK
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
Neural Relation Extraction with Selective Attention over Instances

NOTE
一改&＃xff1a;译于18.10.15
二改&＃xff1a;注于18.10.22

推荐阅读

process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
join
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
web
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
web
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
web
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
int
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28
int
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
join
MySQL多表数据库操作方法及子查询详解

本文详细介绍了MySQL数据库的多表操作方法，包括增删改和单表查询，同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作，以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说，本文是一个非常实用的参考资料。 ... [详细]

蜡笔小新 2023-12-09 22:17:43
web
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
int
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
web
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
web
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
install
如何用R语言做词云图，以某部网络小说为例

作者：horoR语言中文社区专栏作者知乎ID：https:www.zhihu.compeoplelin-jia-chuan前言一开始，我在 ... [详细]

蜡笔小新 2023-10-13 16:42:04