经典论文复现|基于标注策略的实体和关系联合抽取

作者：原野上的蚂蚁 | 来源：互联网 | 2023-09-15 20:35

过去几年发表于各大AI顶会论文提出的400多种算法中，公开算法代码的仅占6%，其中三分之一的论文作者分享了测试数据，约54%的分享包含“伪

过去几年发表于各大 AI 顶会论文提出的 400 多种算法中&＃xff0c;公开算法代码的仅占 6%&＃xff0c;其中三分之一的论文作者分享了测试数据&＃xff0c;约 54% 的分享包含“伪代码”。这是今年 AAAI 会议上一个严峻的报告。人工智能这个蓬勃发展的领域正面临着实验重现的危机&＃xff0c;就像实验重现问题过去十年来一直困扰着心理学、医学以及其他领域一样。最根本的问题是研究人员通常不共享他们的源代码。

可验证的知识是科学的基础&＃xff0c;它事关理解。随着人工智能领域的发展&＃xff0c;打破不可复现性将是必要的。为此&＃xff0c;PaperWeekly 联手百度 PaddlePaddle 共同发起了本次论文有奖复现&＃xff0c;我们希望和来自学界、工业界的研究者一起接力&＃xff0c;为 AI 行业带来良性循环。

作者丨戴一鸣

学校丨清华海峡研究院

研究方向丨自然语言处理

引言

笔者本次复现的是中科院自动化所发表于 ACL 2017 的经典文章——Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme。

对于实体和关系的联合抽取一直是信息抽取中重要的任务。为了解决这一问题&＃xff0c;论文提出了一个新型的标注方式&＃xff0c;可以解决联合信息抽取中的标注问题。随后&＃xff0c;基于这一标注方法&＃xff0c;论文研究了不同的端到端模型&＃xff0c;在不需要分开识别实体和关系的同时&＃xff0c;直接抽取实体和实体之间的关系。

论文在使用了远程监督制作的公开数据集上进行了实验&＃xff0c;结果说明这一标注策略较现有的管道和联合学习方法。此外&＃xff0c;论文所提出的端到端模型在公开数据集上取得了目前最好的效果。

论文复现代码&＃xff1a;

http://aistudio.baidu.com/aistudio/#/projectdetail/26338

论文方法

论文提出了一个新型的标注方式&＃xff0c;并设计了一个带有偏置&＃xff08;Bias&＃xff09;目标函数的端到端模型&＃xff0c;去联合抽取实体和实体间的关系。

标注方式

图 1 是一个如何将原始标注数据&＃xff08;实体&＃43;实体关系&＃xff09;转换为论文中提到的新型标注方式的示例。在数据中&＃xff0c;每一个词汇会被赋予一个实体标签&＃xff0c;因此通过抽取和实体有关的词语&＃xff0c;构成实体。

▲ 图1. 一个构成实体和关系的数据实例

第一个标签是“O”&＃xff0c;表示这个词属于“Other”标签&＃xff0c;词语不在被抽取结果中。除了标签“O”以外&＃xff0c;其他标签都由三部分组成&＃xff1a;1&＃xff09;词语在实体中的位置&＃xff0c;2&＃xff09;实体关系类型&＃xff0c;3&＃xff09;关系角色。

论文使用“BIES”规则&＃xff08;B&＃xff1a;实体起始&＃xff0c;I&＃xff1a;实体内部&＃xff0c;E&＃xff1a;实体结束&＃xff0c;S&＃xff1a;单一实体&＃xff09;去标注词语在实体中的位置信息。对于实体关系类型&＃xff0c;则通过预先定义的关系集合确定。对于关系角色&＃xff0c;论文使用“1”和“2”确定。一个被抽取的实体关系结果由一个三元组表示&＃xff08;实体 1-关系类型-实体 2&＃xff09;。“1”表示这个词语属于第一个实体&＃xff0c;“2”则表示这个词语属于第二个实体。因此&＃xff0c;标签总数是&＃xff1a;Nt &＃61; 2*4 *|R|&＃43;1。R 是预先定义好的关系类型的数量。

从图 1 可以看出&＃xff0c;输入的句子包含两个三元组&＃xff1a;

{United States, Country-President, Trump}

{Apple Inc, Company-Founder, Steven Paul Jobs}

预先定义的两组关系是&＃xff1a;

Country-President: CP

Company-Founder&＃xff1a;CF

由于“United”&＃xff0c;“States”&＃xff0c;“ Trump”&＃xff0c;“Apple”&＃xff0c;“Inc” &＃xff0c;“Steven”&＃xff0c; “Paul”&＃xff0c; “Jobs”构成了描述实体的词汇&＃xff0c;因此这些词语都被赋予了特定的标记。

例如&＃xff0c;“United”是实体“United States”的第一个词语&＃xff0c;同时也和“Country-President”关联&＃xff0c;因此“United”词语的标注是“B-CP-1”。“B”表示Begin&＃xff0c;“CP”表示Country President&＃xff0c;“1”表示“United”词语所在的实体“United States”是三元组中的第一个对象。

同理&＃xff0c;因为“States”是“United States”实体的结尾词语&＃xff0c;但依然属于“Country President”关系&＃xff0c;同时也是三元组的第一个对象&＃xff0c;因此“States”的标注是“E-CP-1”。

对于另一个词语“Trump”&＃xff0c;它是构成“Trump”这一实体的唯一词语&＃xff0c;因此使用“S”。同时&＃xff0c;Trump 实体属于“Country President”关系&＃xff0c;因此它具有CP标签&＃xff0c;又同时这一实体在三元组中是第二个对象&＃xff0c;因此它被标注“2”。综上&＃xff0c;“Trump”这一词语的标注是&＃xff1a;“S-CP-2”。除了这些和实体有关的词语外&＃xff0c;无关词语被标注“O”。

当然&＃xff0c;对于拥有两个和两个以上实体的句子&＃xff0c;论文将每两个实体构成一个三元组&＃xff0c;并使用最小距离原则&＃xff08;距离最近的两个实体构成一对关系&＃xff09;。在图 1 中&＃xff0c;“United States”和“Trump”因为最小距离构成了一对实体。此外&＃xff0c;论文只探讨一对一关系三元组。

端到端模型

双向长短时编码层&＃xff08;Bi-LSTM Encoder Layer&＃xff09;

在序列标注问题中&＃xff0c;双向长短时编码器体现了对单个词语的语义信息的良好捕捉。这一编码器有一个前向和后向的长短时层&＃xff0c;并在末尾将两层合并。词嵌入层则将词语的独热编码&＃xff08;1-hot representation&＃xff09;转换为词嵌入的向量。

▲ 公式1. 双向长短时编码器

公式 1 中的 i&＃xff0c;f 和 o 分别为 LSTM 模块在 t 时刻的输入门&＃xff0c;遗忘门和输出门。c 为 LSTM 模块的输出&＃xff0c;W 为权重。对于当前时刻&＃xff0c;其隐层向量的结果取决于起义时刻的&＃xff0c;上一时刻的&＃xff0c;以及当前时刻的输入词语。

对于一句话&＃xff0c;表示为。其中是第 d 维度下在第 t 个词汇的词向量&＃xff0c;n 则是句序列的长度。在经过了词嵌入后&＃xff0c;前向和后向的长短时神经网络分布接受数据输入&＃xff0c;前向则句子顺序从前向后&＃xff0c;后向则从后向前。

对于每一个词语向量&＃xff08;经过词嵌入后&＃xff09;&＃xff0c; 前向长短时神经网络层通过考虑语义信息&＃xff0c;将到的信息全部编码&＃xff0c;记为。同样&＃xff0c;后向长短时则为。编码器最后将两个层的输入相接。

长短时解码器

论文同时使用了长短时解码器用于标注给定序列。解码器在当前时刻的输入为来自双向编码器的隐层向量&＃xff0c;前一个预测的标签的嵌入&＃xff0c;前一个时刻的神经元输入&＃xff0c;以及前一时刻的隐层向量。解码器根据双向长短时编码器的输出进行计算。解码器的内部公式类似于公式 1。

▲ 公式2. 长短时解码器

Softmax层

在解码器后加入 softmax 层&＃xff0c;预测该词语的标签。解码器的内部结构类似于编码器。

▲ 公式3. softmax层

为 softmax 矩阵&＃xff0c;为总标签数&＃xff0c;为预测标签的向量。

▲ 图2. 网络整体结构图

偏置目标函数&＃xff08;Bias Objective Function&＃xff09;

▲ 公式4. 训练中激活函数使用RMSprop

|D| 是训练集大小&＃xff0c;是句子的长度&＃xff0c;是词语 t 在的标签&＃xff0c;是归一化的 tag 的概率。I(O) 是一个条件函数&＃xff08;switching function&＃xff09;&＃xff0c;用于区分 tag 为“O”和不为“O”的时候的损失。

▲ 公式5. 条件函数

α 是偏置权重&＃xff0c;该项越大&＃xff0c;则带关系的标签对模型的影响越大。

import paddle.fluid as fluid import paddle.v2 as paddle from paddle.fluid.initializer import NormalInitializer import re import math#coding&＃61;&＃39;utf-8&＃39; import json import numpy as np from paddle.v2.plot import Ploter train_title &＃61; "Train cost" test_title &＃61; "Test cost" plot_cost &＃61; Ploter(train_title, test_title) step &＃61; 0#&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;global parameters and hyperparameters&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61; EMBEDDING &＃61; 300 DROPOUT &＃61; 0.5 LSTM_ENCODE &＃61; 300 LSTM_DECODE &＃61; 600 BIAS_ALPHA &＃61; 10 VALIDATION_SIZE &＃61; 0.1 TRAIN_PATH &＃61; &＃39;/home/aistudio/data/data1272/train.json&＃39; TEST_PATH &＃61; &＃39;/home/aistudio/data/data1272/test.json&＃39; FILE_PATH &＃61; &＃39;/home/aistudio/data/&＃39; X_TRAIN &＃61; &＃39;/home/aistudio/data/data1272/sentence_train.txt&＃39; Y_TRAIN &＃61; &＃39;/home/aistudio/data/data1272/seq_train.txt&＃39; X_TEST &＃61; &＃39;/home/aistudio/data/data1272/sentence_test.txt&＃39; Y_TEST &＃61; &＃39;/home/aistudio/data/data1272/seq_test.txt&＃39; WORD_DICT &＃61; &＃39;/home/aistudio/data/data1272/word_dict.txt&＃39; TAG_DICT &＃61; &＃39;/home/aistudio/data/data1272/tag_dict.txt&＃39; EPOCH_NUM &＃61; 1000 BATCH_SIZE &＃61; 128#&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;get data from the dataset&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61; def get_data(train_path, test_path, train_valid_size):&＃39;&＃39;&＃39;extracting data for json file&＃39;&＃39;&＃39;train_file &＃61; open(train_path).readlines()x_train &＃61; []y_train &＃61; []for i in train_file:data &＃61; json.loads(i)x_data, y_data &＃61; data_decoding(data)&＃39;&＃39;&＃39;appending each single data into the x_train/y_train sets&＃39;&＃39;&＃39;x_train &＃43;&＃61; x_datay_train &＃43;&＃61; y_datatest_file &＃61; open(test_path).readlines()x_test &＃61; []y_test &＃61; []for j in test_file:data &＃61; json.loads(j)x_data, y_data &＃61; data_decoding(data)x_test &＃43;&＃61; x_datay_test &＃43;&＃61; y_datareturn x_train, y_train, x_test, y_testdef data_decoding(data):&＃39;&＃39;&＃39;decode the json filesentText is the sentenceeach sentence may have multiple types of relationsfor every single data, it contains: (sentence-splited, labels)&＃39;&＃39;&＃39;sentence &＃61; data["sentText"]relations &＃61; data["relationMentions"]x_data &＃61; []y_data &＃61; []for i in relations:entity_1 &＃61; i["em1Text"].split(" ")entity_2 &＃61; i["em2Text"].split(" ")relation &＃61; i["label"]relation_label_1 &＃61; entity_label_construction(entity_1)relation_label_2 &＃61; entity_label_construction(entity_2)output_list &＃61; sentence_label_construction(sentence, relation_label_1, relation_label_2, relation)x_data.append(sentence.split(" "))y_data.append(output_list)return x_data, y_datadef entity_label_construction(entity):&＃39;&＃39;&＃39;give each word in an entity the labelfor entity with multiple words, it should follow the BIES rule&＃39;&＃39;&＃39;relation_label &＃61; {}for i in range(len(entity)):if i &＃61;&＃61; 0 and len(entity) >&＃61; 1:relation_label[entity[i]] &＃61; "B"if i !&＃61; 0 and len(entity) >&＃61; 1 and i !&＃61; len(entity) -1:relation_label[entity[i]] &＃61; "I"if i&＃61;&＃61; len(entity) -1 and len(entity) >&＃61; 1:relation_label[entity[i]] &＃61; "E"if i &＃61;&＃61;0 and len(entity) &＃61;&＃61; 1:relation_label[entity[i]] &＃61; "S"return relation_labeldef sentence_label_construction(sentence, relation_label_1, relation_label_2, relation):&＃39;&＃39;&＃39;combine the label for each word in each entity with the relationand then combine the relation-entity label with the position of the entity in the triplet&＃39;&＃39;&＃39;element_list &＃61; sentence.split(" ")dlist_1 &＃61; list(relation_label_1)dlist_2 &＃61; list(relation_label_2)output_list &＃61; []for i in element_list:if i in dlist_1:output_list.append(relation &＃43; &＃39;-&＃39; &＃43; relation_label_1[i] &＃43; &＃39;-1&＃39; )elif i in dlist_2:output_list.append(relation &＃43; &＃39;-&＃39; &＃43; relation_label_2[i] &＃43; &＃39;-2&＃39;)else:output_list.append(&＃39;O&＃39;)return output_listdef format_control(string):str1 &＃61; re.sub(r&＃39;\r&＃39;,&＃39;&＃39;,string)str2 &＃61; re.sub(r&＃39;\n&＃39;,&＃39;&＃39;,str1)str3 &＃61; re.sub(r&＃39;\s*&＃39;,&＃39;&＃39;,str2)return str3def joint_extraction():vocab_size &＃61; len(open(WORD_DICT,&＃39;r&＃39;).readlines())tag_num &＃61; len(open(TAG_DICT,&＃39;r&＃39;).readlines())def bilstm_lstm(word, target, vocab_size, tag_num):x &＃61; fluid.layers.embedding(input &＃61; word,size &＃61; [vocab_size, EMBEDDING],dtype &＃61; "float32",is_sparse &＃61; True)y &＃61; fluid.layers.embedding(input &＃61; target,size &＃61; [tag_num, tag_num],dtype &＃61; "float32",is_sparse &＃61; True)fw, _ &＃61; fluid.layers.dynamic_lstm(input &＃61; fluid.layers.fc(size &＃61; LSTM_ENCODE*4, input&＃61;x),size &＃61; LSTM_ENCODE*4,candidate_activation &＃61; "tanh",gate_activation &＃61; "sigmoid",cell_activation &＃61; "sigmoid",bias_attr&＃61;fluid.ParamAttr(initializer&＃61;NormalInitializer(loc&＃61;0.0, scale&＃61;1.0)),is_reverse &＃61; False)bw, _ &＃61; fluid.layers.dynamic_lstm(input &＃61; fluid.layers.fc(size &＃61; LSTM_ENCODE*4, input&＃61;x),size &＃61; LSTM_ENCODE*4,candidate_activation &＃61; "tanh",gate_activation &＃61; "sigmoid",cell_activation &＃61; "sigmoid",bias_attr&＃61;fluid.ParamAttr(initializer&＃61;NormalInitializer(loc&＃61;0.0, scale&＃61;1.0)),is_reverse &＃61; True)combine &＃61; fluid.layers.concat([fw,bw], axis&＃61;1)decode, _ &＃61; fluid.layers.dynamic_lstm(input &＃61; fluid.layers.fc(size &＃61; LSTM_DECODE*4, input&＃61;combine),size &＃61; LSTM_DECODE*4,candidate_activation &＃61; "tanh",gate_activation &＃61; "sigmoid",cell_activation &＃61; "sigmoid",bias_attr&＃61;fluid.ParamAttr(initializer&＃61;NormalInitializer(loc&＃61;0.0, scale&＃61;1.0)),is_reverse &＃61; False)softmax_connect &＃61; fluid.layers.fc(input&＃61;decode, size&＃61;tag_num)_cost &＃61; fluid.layers.softmax_with_cross_entropy(logits&＃61;softmax_connect,label &＃61; y,soft_label &＃61; True)_loss &＃61; fluid.layers.mean(x&＃61;_cost)return _loss, softmax_connectsource &＃61; fluid.layers.data(name&＃61;"source", shape&＃61;[1], dtype&＃61;"int64", lod_level&＃61;1)target &＃61; fluid.layers.data(name&＃61;"target", shape&＃61;[1], dtype&＃61;"int64", lod_level&＃61;1)loss, softmax_connect &＃61; bilstm_lstm(source, target, vocab_size, tag_num)return lossdef get_index(word_dict, tag_dict, x_data, y_data):x_out &＃61; [word_dict[str(k)] for k in x_data]y_out &＃61; [tag_dict[str(l)] for l in y_data]return [x_out, y_out]def data2index(WORD_DICT, TAG_DICT, x_train, y_train):def _out_dict(word_dict_path, tag_dict_path):word_dict &＃61; {}f &＃61; open(word_dict_path,&＃39;r&＃39;).readlines()for i, j in enumerate(f):word &＃61; re.sub(r&＃39;\n&＃39;,&＃39;&＃39;,str(j)) # word &＃61; re.sub(r&＃39;\r&＃39;,&＃39;&＃39;,str(j)) # word &＃61; re.sub(r&＃39;\s*&＃39;,&＃39;&＃39;,str(j))word_dict[word] &＃61; i &＃43; 1tag_dict &＃61; {}f &＃61; open(tag_dict_path,&＃39;r&＃39;).readlines()for m,n in enumerate(f):tag &＃61; re.sub(r&＃39;\n&＃39;,&＃39;&＃39;,str(n))tag_dict[tag] &＃61; m&＃43;1return word_dict, tag_dictdef _out_data():word_dict, tag_dict &＃61; _out_dict(WORD_DICT, TAG_DICT)for data in list(zip(x_train, y_train)):x_out, y_out &＃61; get_index(word_dict, tag_dict, data[0], data[1]) yield x_out, y_outreturn _out_datadef optimizer_program():return fluid.optimizer.Adam()if __name__ &＃61;&＃61; "__main__":sentence_train, seq_train, sentence_test, seq_test &＃61; get_data(TRAIN_PATH,TEST_PATH,VALIDATION_SIZE)train_reader &＃61; paddle.batch(paddle.reader.shuffle(data2index(WORD_DICT, TAG_DICT, sentence_train, seq_train), buf_size&＃61;500),batch_size&＃61;128)test_reader &＃61; paddle.batch(paddle.reader.shuffle(data2index(WORD_DICT, TAG_DICT, sentence_test, seq_test), buf_size&＃61;500),batch_size&＃61;128)place &＃61; fluid.CPUPlace()feed_order&＃61;[&＃39;source&＃39;, &＃39;target&＃39;]trainer &＃61; fluid.Trainer(train_func&＃61;joint_extraction,place&＃61;place,optimizer_func &＃61; optimizer_program)trainer.train(reader&＃61;train_reader,num_epochs&＃61;100,event_handler&＃61;event_handler_plot,feed_order&＃61;feed_order)

▲ 模型和运行函数train代码展示

实验

实验设置

数据集

使用 NYT 公开数据集。大量数据通过远程监督的方式提取。测试集则使用了人工标注的方式。训练集总共有 353k 的三元组&＃xff0c;测试集有 3880 个。此外&＃xff0c;预定义的关系数量为 24 个。

评价方式

采用标准的精确率&＃xff08;Precision&＃xff09;和召回率&＃xff08;Recall&＃xff09;以及 F1 分数对结果进行评价。当三元组中的实体 1&＃xff0c;实体 2&＃xff0c;以及关系的抽取均正确才可记为 True。10% 的数据用于验证集&＃xff0c;且实验进行了 10 次&＃xff0c;结果取平均值和标准差。

超参数

词嵌入使用 word2vec&＃xff0c;词嵌入向量是 300 维。论文对嵌入层进行了正则化&＃xff0c;其 dropout 概率为 0.5。长短时编码器的长短时神经元数量为 300&＃xff0c;解码器为 600。偏置函数的权重 α 为 10。

论文和其他三元组抽取方法进行了对比&＃xff0c;包括多项管道方法&＃xff0c;联合抽取方法等。

实验结果

表 1 为实体和实体关系抽取的表现结果&＃xff0c;本论文正式方法名称为“LSTM-LSTM-Bias”。表格前三项为管道方法&＃xff0c;中间三项为联合抽取方法。

▲ 表1. 实体和实体关系抽取结果

从实验结果看出&＃xff0c;论文提到的方法普遍优于管道方法和绝大多数联合抽取方法。本论文另一个值得注意的地方是&＃xff0c;论文提出的方法较好地平衡了精确率和召回率的关系&＃xff0c;尽管在精确率指标上略低于 LSTM-CRF。

表 1 也说明深度学习方法对三元组结果的抽取基本上好于传统方法。作者认为&＃xff0c;这是因为深度学习方法在信息抽取中普遍使用双向长短时编码器&＃xff0c;可以较好地编码语义信息。

在不同深度学习的表现对比中&＃xff0c;作者发现&＃xff0c;LSTM-LSTM 方法好于 LSTM-CRF。论文认为&＃xff0c;这可能是因为 LSTM 较 CRF 更好地捕捉了文本中实体的较长依赖关系。

分析和讨论

错误分析

表 2 为深度学习方法对三元组各个元素的抽取效果对比&＃xff0c;E1 表示实体 1 的抽取结果&＃xff0c;E2 表示实体 2 的抽取结果&＃xff0c;&＃xff08;E1&＃xff0c;E2&＃xff09;表示实体的关系的抽取结果。

▲ 表2. 深度学习方法对三元组各元素抽取效果

表 2 说明&＃xff0c;在对三元组实体的抽取中&＃xff0c;对关系的抽取较三元组各个实体的抽取的精确率更好&＃xff0c;但召回率更低。论文认为&＃xff0c;这是由于有大量的实体抽取后未能组成合适的实体关系对。模型仅抽取了第一个实体 1&＃xff0c;但未能找到合适的对应实体 2&＃xff0c;或者仅有实体 2 被正确抽取出来。

此外&＃xff0c;作者发现&＃xff0c;表 2 的关系抽取结果比表 1 的结果提高了约 3%。作者认为&＃xff0c;这是由于 3% 的结果预测错误是因为关系预测错误&＃xff0c;而非实体预测错误导致的。

偏置损失分析

作者同时将论文方法和其他深度学习方法在识别单个实体&＃xff08;实体 1&＃xff0c;实体 2&＃xff09;上的表现进行了对比。作者认为&＃xff0c;虽然论文方法在识别单个实体上的表现低于其他方法&＃xff0c;但能够更好地识别关系。

▲ 表3. 单个实体识别结果

作者对比发现&＃xff0c;当偏置项等于 10 时&＃xff0c;F1 数值最高。因此建议偏置项设为 10。

▲ 表4. 偏置项&＃xff08;α&＃xff09;数值和各项表现指标的关系

结论

本文提出一种新型的标注方式&＃xff0c;将传统的命名实体识别和关系抽取任务联合起来&＃xff0c;使用端到端模型进行直接联合信息抽取。在和传统方法以及深度学习方法的对比中均取得了满意的成果。

考虑到目前论文设计的实体关系抽取仅限于单个的关系&＃xff0c;无法对一句话中重合的多个实体关系进行抽取&＃xff0c;论文作者考虑使用多分类器替换 softmax 层&＃xff0c;以便对词语进行多分类标注。

关于PaddlePaddle

使用 PaddlePaddle 进行工作大体上感觉不错&＃xff0c;优点主要有&＃xff1a;

1. 构建模型的过程较为顺利

PaddlePaddle 的官方文档较为清楚&＃xff0c;大量的函数和 TensorFlow 主流框架对应&＃xff0c;因此在寻找组件的时候可以找到。

2. 运行速度快

据了解&＃xff0c;PaddlePaddle 底层优化较好&＃xff0c;速度比 TensorFlow 快很多。

3. 对 GPU 的支持

主流框架目前都支持了 GPU&＃xff0c;PaddlePaddle 也同样具有这一特性。

4. 动态图架构

在数据更加复杂的情况下&＃xff0c;动态图的构建优势比静态图更为明显。PaddlePaddle 框架下的 fluid 版本甚至比 TensorFlow 的动态图支持更领先。

当然&＃xff0c;考虑到 PaddlePaddle 依然年轻&＃xff0c;仍有不少问题需要进一步优化&＃xff1a;

1. 在笔者使用的时候&＃xff0c;仍然不支持 Python 3.x&＃xff08;2018 年 9 月&＃xff09;。据说在 11 月份会开始支持 Python 3.x&＃xff0c;正在期待中。

2. Debug 仍然困难。可能一方面是因为笔者使用了 AI studio 而非传统的 IDE 进行项目&＃xff0c;另一方面是 PaddlePaddle 内部的优化问题&＃xff0c;代码出错的时候&＃xff0c;很难找到问题原因。这一点和 TensorFlow 有点像——各种各样的报错。

接下来期待 PaddlePaddle 更加支持 TPU 和 NPU&＃xff0c;并更好地增加对小型移动设备和物联网系统的支持&＃xff0c;使模型可以无障碍部署。

推荐阅读

ip
python里33个关键字符是什么意思_Python 关键知识点

1关于字符串相邻的两个或多个字符串字面值(引号引起来的字符)将会自动连接到一起：str_catpython!str_cat输出：python!把很长 ... [详细]

蜡笔小新 2023-10-17 16:31:38
io
使用Spring AOP实现切面编程的步骤和注意事项

本文介绍了使用Spring AOP实现切面编程的步骤和注意事项。首先解释了@EnableAspectJAutoProxy、@Aspect、@Pointcut等注解的作用，并介绍了实现AOP功能的方法。然后详细介绍了创建切面、编写测试代码的过程，并展示了测试结果。接着讲解了关于环绕通知的使用方法，并修改了FirstTangent类以添加环绕通知方法。最后介绍了利用AOP拦截注解的方法，只需修改全局切入点即可实现。使用Spring AOP进行切面编程可以方便地实现对代码的增强和拦截。 ... [详细]

蜡笔小新 2023-12-09 10:25:26
ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
ip
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
io
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
io
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
ip
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
ip
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
io
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
io
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
tree
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
io
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
regex
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
regex
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00

原野上的蚂蚁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章