艾巴生活网

您现在的位置是:主页>科技 >内容

科技

文献检索so表示什么,细解读关系抽取SOTA论文

2024-11-25 14:35:02科技帅气的蚂蚁
本文主要对SOTA论文《两个比一个好:用表序列编码器进行联合实体和关系提取》[1]进行详细解读,并简要介绍关系提取的背景,让完全不懂的童

文献检索so表示什么,细解读关系抽取SOTA论文

本文主要对SOTA论文《两个比一个好:用表序列编码器进行联合实体和关系提取》[1]进行详细解读,并简要介绍关系提取的背景,让完全不懂的童鞋轻松上手。

信息提取

我们所说的信息抽取一般是指从文本数据中抽取特定数据结构信息的一种手段。对于结构化文本、半结构化文本、自由文本等不同结构形式的数据,都有相应的方案,其中最难从自由文本中抽取。总之,我们的目的是从海量文本中快速提取我们所关注的事实。

为了理解信息抽取,我们必须知道关系抽取。

关系抽取

在大多数情况下,我们喜欢使用三元组数据结构来描述提取的信息。

三个一组

三联体的表达能力非常丰富,几乎任何事物都可以自然或强行表达成三联体,如“今天真的很冷”为天气-状态-冷。

三元组非常适合后续的知识图谱工作。比如Secondary等图形数据库以三元组为存储单元,地图的查询、推理等工具使用三元组比普通关系数据库更方便。

三元,一千万,我该怎么抽?

(计划或理论的)纲要

当我们得到一个信息提取任务时,我们需要知道我们在提取什么,“今天真的很冷”,我们要提取的天气的状态是天气-状态-冷,而不是今天-气候-冷(虽然也可以这样提取)。所以我们通常先定义要抽取的数据结构模式shcema,确定谓词和主语并集的类型。

三重模式的示例,其中Subject_type表示主题类型,predict表示谓词,Object_type表示对象类型:

主语_类型:人称谓语:出生地宾语_类型:地点

确定模式后,我们通常如何提取它?

传统环方案

目前,主流关系抽取一般有两种解决方案。

Pipline是一个两步过程:关系抽取被分解为NER任务和分类任务。NER任务标记主语或宾语,分类主要是对限定图式中的限定谓词进行分类。根据具体任务的不同,有些可能是两步或三步,pipline任务的顺序会先分类或标记。

Pipline的优点:每一步都是针对每一个任务进行的,表示是针对任务的,具有相对较高的准确性。

Pipline缺陷:-任务按顺序时会有误差传递问题,即下一个任务在预测时会受到前一个误差的影响,而在训练阶段就没有这样的误差,所以有一个缺口-在训练和预测阶段。-当一个句子中存在多个实体关系时,很难解决实体和关系的对应问题,以及重叠关系。

联合学习:联合学习可以理解为多任务和同时的NER和关系分类任务。在众多的联合学习中,表格填充是最优秀的方法,即任务的输出是一个由文本序列组成的填充表格。除了单词到单词的连接,表格中的位置还用谓词标记(如下所示)。

优点:1。两个任务的表征相互作用,这可能有助于任务的学习;2.不需要训练多个模型,一个模型解决问题,训练和预测没有差距。

缺点:1。两个任务的表征可能冲突,影响任务效果。2.主谓宾对应解决了,重叠问题解决不了。3.filltable的本质仍然是变成序列来填充,未能充分利用表结构信息(下面解释)。

下面重点介绍在表格填充模式下阅读一篇SOTA,解决了联合学习中多任务表征的冲突,利用了表格结构信息。

具有表序列环

最后,我来到了这篇文章的主题。为了解决一般填充表的问题,作者提出了用表序列编码器来分别表征表和序列的方法。这篇文章的最大贡献是

分别对表和序列进行编码,并设计了表引导的注意与表和序列进行交互,使得不同任务的表示不会因为表示的完全共享和表示的相互引导而发生冲突

在表格编码器中使用多维GRU来捕获更多的句子结构信息。

在体系结构上,表编码器和序列编码器在多个层次上相互作用。

让我们仔细看看每一部分,看看它是如何神奇地实现SOTA的。

文本嵌入器

在上面的结构图中,文本嵌入器使用相似的FLAT,把基于lstm的char()和word()以及基于bert的word()作为预训练嵌入,拼接在一起。

在画中;牵涉其中

台式编码器

整个表编码器部分由若干个表编码单元组成,每个编码单元的输入是初始输入、对应于序列结构的输入和前一个表编码单元的输出。表格编码使用MDRNN结构提取输入特征信息。作者在这里选择MDGRU(多维GRU)。tabel结构本身是二维的,前后两层实际上是四维的。但是,层的维度信息是单向流动的,实际上只使用了三个方向()

如图所示,是来自序列的输入。笔者分别测量了所有方向和几个方向的使用,发现上图中A和C的效果差不多。这种多维GRU综合考虑了整个表的结构信息,即一个词的状态与其他所有词的状态相关,并且不同程度地受到其他词的影响,而这种影响程度是由GRU门控机制控制的。

序列编码器

序列编码器也是由多个序列编码组成,序列编码结构直接采用transformer中的编码器。

只是把自我注意力换成了表导注意力,这种注意力的转换非常巧妙,可以更好地捕捉词与词之间的关系。

正常点注意如上图。

桌子引导注意力特别是:

是参数矩阵

采用添加剂

它是表格编码器中表格的隐藏节点,通过多方向的GRU编码得到。不管是哪个方向,它的来源总是由构造的,理论上是可以由拟合的,所以这里直接用代替,也就是这个注意,实际上是计算了表结构中各个位置的权重,是一个全方位的注意。

所有剩下的是正常的图层样式和转换中的剩余结构。

和输出损失。

输出是常规,损耗也是常规。

输出:

损失:

实验和效果

作者在各种数据集上进行了实验,与目前的各种SOTA相比,都有一定的改进,并且时间效果最好。车型参数小于5M,想要什么样的自行车附上开源地址[2]。作者代码与论文关注度计算不一致,但不影响效果。