图视角下的信息抽取技术研究
导读:本次分享题目为《图视角下的信息抽取技术研究》,主要介绍:研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况
分享嘉宾郁博文博士达摩院算法专家
编辑整理王露
出品平台DataFunTalk
01hr研究背景和意义
信息抽取,是从无结构的自然文本中识别出实体、关系、事件等事实描述,以结构化的形式存储和利用的技术。以信工所位于北京市海淀区,隶属于中国科学院为例,可以得到信工所,位于,北京市海淀区和信工所,隶属于,中国科学院两个三元组。
信息抽取的目标是,让机器理解互联网上的海量信息,为机器做正确决策提供大量相关知识。
信息抽取是知识图谱构建与填充、自动机器问答、信息检索、辅助决策等下游任务和应用的重要基础。如AliCoCo电商图谱,为商品推荐和阿里小蜜智能问答提供知识基础。
1。实体识别
实体识别,指的是从文本中识别出实体的边界和类别(来自于预定义好的类别集合)。根据实体是否包含单个连续片段,可以将实体识别任务划分为连续实体识别和不连续实体识别任务。
连续实体识别,指的是每个实体只包含一个片段,但是不同实体之间可能有嵌套。如呼吸中枢受累文本片段中,存在两个实体呼吸中枢和呼吸中枢受累,分别代表部位和症状。
不连续实体中,一个实体包含多个不连续的片段。如明朝嘉靖、万历年间,包含两个实体明朝嘉靖年间和明朝万历年间。明朝嘉靖年间,包含两个片段明朝嘉靖和年间,明朝万历年间包含明朝和万历年间两个片段。对于不连续实体,需要识别出每个片段的边界和片段之间如何组合不连续实体。
2。关系抽取
关系抽取,致力于从文本中识别一对实体以及实体间的语义关系,构成关系三元组。关系类型来自于预先定义的类型集合。根据是否给定目标实体,关系抽取可以分为,关系分类和实体关系联合抽取任务。
关系分类的任务中,输入为原始文本、文本中抽取出的实体,输出关系类型。如下图中的鲍卡斯和蒙大拿州,输出关系类型ComeFrom。
实体关系联合抽取任务中,只输入原始文本,不给定实体,输出文本中包含的所有满足预定义关系集合中的关系三元组。
3。事件抽取
事件抽取的目标是,从文本中抽取出用户感兴趣的事件。如某人在某时某地做了某事。
组成事件的元素包含,事件类型、触发词、论元和论元角色。论元,指的是事件文本中出现的人或物的名称。论元角色,指的是论元在事件中承担的角色。事件抽取,需要识别文本中术语预定义类型的所有事件的类型、触发词、论元和论元角色。
以2004年12月24日,杨振宁与翁帆在广东省汕头市举行婚礼为例,事件类型为结婚,触发词是举行婚礼,论元是杨振宁、翁帆、广东省汕头市和2004年12月24日,对应论元角色分别为参与者、参与者、地点和时间。
4。开放域抽取
前面提到的实体识别、关系抽取和事件抽取都是面向限定类别的知识抽取,难以应对未知域,也就是不在定义好的训练集合类别中的知识抽取,开放域抽取能够解决这个问题。开放抽取直接使用句子原始字词片段作为实体之间的关系短语,而不是从固定的类型集合中选取的短语。根据是否给定头实体,开放抽取可以分为半开放信息抽取和开放信息抽取。
半开放信息抽取,给定一个头实体。下图的话中,以鲍卡斯为中心,抽取出与它有关的尾实体和关系短语,也就是曼斯,蒙大拿州。
开放信息抽取,不给定头实体,希望能够抽取句子中所有的知识。也就是鲍卡斯,来自于,蒙大拿州和曼斯,来自于,蒙大拿州。最关键的是,实体间的关系短语来自于文本中的片段,因此可以应用于任何领域、任何语言,而不需要预定义关系类别集合。
通过上述定义可以发现,信息抽取的不同子任务有不同的输入和输出,因此,在语言学中各子任务被视为单独的研究领域。下图统计了ACL2021年各种任务的论文数量,可以发现,不同子任务多有较多的研究,但很少有文章研究如何用统一的视角看待信息抽取的不同子任务,用统一的思路解决这些子任务,因此本篇文章研究了以统一视角和设计思路指导模型设计。
02hr国内外研究现状
1。序列标注
早年信息抽取任务间统一的方法是序列标注,也就是给文本中句子的每个词项打预定义的类别标签。该方法本质是对文本中每个词项进行分类的问题。
以2017年,鲍卡与曼斯先后担任大使为例,2017年是一个时间类实体,标签为BTI、ITI,鲍卡和曼斯是一个人物类的实体,标签为BPER、IPER,大使是一个工作类的实体,标签为BJOB,IJOB。下图中符号与含义解释如下表:
在更为复杂的实体中,通常会使用三段式标注,也就是BIO表示法。其中B(Begin,简写为B)表示实体的起始位置,I(Inside,简写为I)表示实体中间字,O(Other,简写为O)表示非实体字。1和2分别代表头实体和尾实体。如鲍卡和曼斯为头实体,大使是尾实体,因为希望抽取到的三元组为鲍卡,担任,大使,曼斯,担任,大使,因此,这句话中有两个头实体,对应的序列标注结果为B1J、I1J、B1J、I1J、B2J、I2J。
(备注:上图中最后一列使对应的序列标注应该为I2J)
事件抽取与开放抽取类似实体抽取和实体关系抽取,可以采用同样的方式抽取三元组。
尽管序列标注能够优雅的统一信息抽取的各个子任务,但是对复杂的输入文本,序列标注的表达能力有限,而我们希望能够抽取到所有感兴趣的知识。以鲍卡斯来自蒙大拿州,担任大使为例。两个关系三元组共享同一个头实体鲍卡斯,但关系类型不一样,分别为来自于和担任。序列标注的方法只能识别出一个三元组,因此,序列标注无法识别出共享一个实体且关系类别不一致的知识,为了解决这个问题,当前主流的解决方式有级联式标注和序列分层。
2。级联式标注
级联式标注,不再一次性将所有的头实体、尾实体以及关系都抽取出来,而是对任务进行分解,先抽取头实体,再标记对应的尾实体和关系。
以故宫博物院坐落于中国首都北京为例,先找到句子中的头实体故宫博物院,进行序列标注,第一个序列中标注头实体的开始类型,第二个序列标注头实体的结束词类型,结合两个序列得到头实体。之后针对每个头实体枚举所有关系类型(如Locatedin,Capital和Contains),在关系类型下,标注头实体对应的尾实体,得到头实体与尾实体的三元组。从而,能够抽取到文本中所有的三元组,如故宫博物院,Locatedin,北京,中国,Capital,北京,中国,Contains,北京。
3。序列生成
序列生成,利用编码解码框架,根据输入的文本直接生成三元组。不同的三元组按照预先定义的顺序生成。如故宫博物院,Locatedin,北京,先生成故宫博物院,再生成Locatedin,最后生成北京。通过这种方式可以将复杂的实体联合抽取任务转换为序列生成问题。
4。不连续实体识别之级联标注和序列生成
在前面的举例中提到,实体识别中存在实体嵌套和实体不连续的问题。实体嵌套,指的是两个实体有重叠部分,实体不连续指的是,一个实体包含多个片段。序列标注的方式为每个实体赋予一个标签的方式无法解决这两种问题。如呼吸中枢受累和呼吸中枢都是实体,但是用单个序列标注在呼吸中枢受累有标签时无法区分出呼吸中枢也是一个实体。而在患者腿部、腰部痛这句话中,腿部痛和腰部痛都是实体,但是腿部和痛是不连续的,简单的序列标注方法也无法正确识别出来。因此,有一种解决方案是,移进归约解析器,借鉴到实体识别任务中,利用动作序列识别不连续和重叠的结构。解析器使用栈结构存储已经被处理过的片段,使用缓存区存储未被处理的片段,前后动作是相互依赖的。
序列生成根据输入的文本,先生成第一个实体,腰部痛,之后生成实体类型是症状,再生成第二个实体腿部痛,预测实体类型也是症状。以此类推,生成所有的实体。
5。开放信息抽取之级联标注和序列生成
由于开放信息抽取任务中面向开放信息的特性,在三元组中会不可避免的出现实体重叠、实体不连续等复杂的知识描述。如豫园建造于明朝嘉靖和万历年间这句话中,有两个三元组豫园,建造于,明朝嘉靖年间,豫园,建造于,明朝万历年间,它们共享头实体豫园,实体明朝嘉靖年间和明朝万历年间不连续。
在这个任务中,复杂程度在于同时出现了实体重叠和实体不连续的问题。为了解决这个问题,级联标注会自回归的进行序列标注,每个序列标注会对应一个三元组,前一个三元组的预测标签输入到下一个三元组序列中用于标注后一个三元组,以此类推,直到某一层的三元组中标签全部为O,表示序列中不再存在三元组,则停止标注。
使用序列到序列的生成模型解码得到三元组,输入为原始文本,生成多个三元组,三元组之间使用特殊字符进行分割,得到所有的三元组。
上面介绍了总结实体识别、关系抽取和开放抽取中的相关工作,总结如下:
无论是序列标注还是序列生成,从统一视角看,都是将业务关注的知识构建成树结构。以实体关系联合抽取的任务为例,级联式标注会先抽取头实体作为根节点,再抽取尾实体作为树的子节点,而序列生成将输入文本生成一个链表类的树结构,但由于树结构在表达能力、表达效率和预测方式上存在局限,提出一种新的视角解决现有的树视角下的问题。
03hr研究目标与内容
重新划分任务,不再关注信息抽取任务类型是实体抽取、关系抽取、事件抽取或开放抽取,而是关注想要抽取出的知识,将原来的四大类七小类任务按照目标知识中包含的片段个数划分为一元信息抽取、二元信息抽取和多元信息抽取。
一元信息抽取,指的是,输出知识只包含一个片段。如连续实体识别和关系分类,关系分类中输出为关系类型,连续实体识别输出虽然包含实体和实体类型两部分,但两者可同时识别,因此可视为一元信息抽取。
二元信息抽取,指的是,输出知识包含两个片段。如半开放抽取输出为关系和实体的二元组,实体关系联合抽取输出为头实体、尾实体以及实体之间的关系三元组,但实体关系可以视为头实体和尾实体识别时的副产物,因此可以看做二元信息抽取。
多元信息抽取,指的是,输出知识包含三个或三个以上片段。其中不连续实体识别的片段的目标实体片段数量不固定,事件抽取中角色数量不固定,开放抽取需要同时识别和组合三个或更多的片段。
按照片段划分任务的优点是,能够剥离原有任务定义,从抽取任务最本质的需求,即抽取并组合目标片段并输出知识出发,重新思考任务间的关联性。
1。一元信息抽取
一元信息抽取任务,究其根本就是从文本中识别目标片段,也就是将一个知识片段组合。识别和组合的动作也就是将文本中的词项进行联系,使得原有的一维文本转换为具有特定联系的词项集合。例如,在关系分类任务中,已知两个实体之间的联系就是关系类型,在图视角下,可以将任务转换为,在图中预测头实体和尾实体词项节点之间的连边类型,也就是说,预测图中的边类型。以鲍卡斯与曼斯来自蒙大拿州为例,鲍卡斯是头实体,蒙大拿州是尾实体,在图中可以构建一条鲍和蒙之间的连边,预测连边类型,也就是实体之间的类型。
在连续实体识别任务中会更复杂一些,需要在空白图中目标实体的开始位置和结束位置之间进行连边,如鲍卡斯是一个目标实体,因此,需要在鲍和斯之间建立连边,预测连边类型,也就是实体类型。能够知道实体类型的原因是,在图中如果我们能够确定一个实体在文本中的开始词和结束词,就能够唯一的确定实体。如蒙大拿州是尾实体,类型为Location。因此,在蒙和州之间进行连边,表示以蒙作为开始州作为结束的片段的类型是location类的实体。因此,一元知识可以用图中的连边表示,无论是实体或关系,都可以将类型转换为图的连边类型。
2。二元信息抽取
二元信息抽取的一个经典任务是实体和关系的联合抽取任务,在这个任务中,需要知道实体的开始位置和结束位置,并在之间建立连边,还需要联系具有语义关系的两个实体,可以通过连接两个实体的开始词和结束词的位置建立关系。
如鲍卡斯是一个实体,先连接鲍和斯,蒙大拿州是一个实体,连接蒙和州,之后组合两个实体之间的关系,需要把鲍(头实体的开始词)和州(尾实体的结束词),斯(头实体的结束词)和蒙(尾实体的开始词)进行连接,得到一个环表示二元知识。环代表了头实体,实体关系,尾实体的三元组,实体之间的连边表示关系类型。因此,二元信息可以用图中的环进行表示。
3。多元信息抽取
为了准确的组合同一个知识内部的多个片段,需要用图结构对所有知识的所有片段进行准确组合,而不能仅仅通过一套或固定数量的连边建立,需要通过两两连边组合避免表达的歧义性。当构建出多元组中片段的两两连边后,多元信息抽取可以转换为图的极大团查找问题。图的每个极大团代表一个多元组,因此,多元知识可以用图的极大团表示。
4。研究工作总结
作者在博士期间的主要工作就是,用图视角建立三类七种信息抽取任务的统一建模,建立文本、信息抽取和图分析研究领域的桥梁,接下来论述每个图结构建立的过程,以及如何表达处理任务。
04hr主要成果和创新之处
1。图视角下的一元信息抽取
上面提到一元信息抽取任务可以转换为图中连边类型预测问题。
(1)图视角下关系分类
以关系分类为例。关系分类中,知道图中的头实体和尾实体,需要预测连边的类型。对应的问题,相当于构建一个NN的二维矩阵表达图结构,想要预测的就是头实体和尾实体交叉部分的区域,代表了两个实体连边之间的类型。实现方式为,首先对头实体和尾实体位置的所有词项进行平均池化,将头尾实体的向量拼接,对拼接后的向量进行分类,相当于预测图中关系的连边。
然而,仅仅依赖头尾实体的表示判断实体关系是不充分的,需要联系实体的上下文信息。以鲍卡斯与曼斯菲尔德都来自蒙大拿州,后者担任美国驻日大使这句话为例。包含两个三元组鲍卡斯,来自,蒙大拿州,曼斯菲尔德,来自,蒙大拿州,后者担任美国驻日大使中虽然也包含三元组曼斯菲尔德,担任,大使,但并不是我们关注的关系类型。我们需要关注的是鲍卡斯、曼斯菲尔德和蒙大拿州之间的ComeFrom关系,为了准确的预测关系类型,希望模型能够更多的关注ComeFrom的关系描述,排除担任关系描述,防止噪声误导模型给予JOB很高的权重。因此,为了准确的找到想要的关系描述,一个较好的方法是引入注意力机制。
基于注意力机制的方法为每个词项单独计算与目标实体之间的相关性得分,并进行归一化,再对所有词项加权求和作为实体对的语义关系表示。然而,这种方法可能会导致模型无法识别连续的关系描述(指的是实体间的关系描述往往是连续的片段,而不是一个个离散的词),要解决这个问题,我们希望让注意力机制关注连续的片段,实现的方式是让注意力权重在连续的片段内部变化不明显,此时,计算每个词的重要性时不止要考虑自身的重要性,也要考虑上下文词的重要性。基于此,引入概率图模型,建模前后词之间的相互依赖关系。受到相关工作的启发,提出使用线性链条件随机场建模注意力得分的转移。具体的说,将注意力机制建模为一个选择问题,也就是每个词有两个状态0和1,分别代表不被选中、被选中,在不同的状态下有不同的得分。计算建立前后词项在选中和未选中状态下的转移概率,用两个势函数分别表示每个词项的重要性、词项之间转移的重要性。函数1,单独计算每个词项的重要性,函数2,训练了一个22的矩阵,建模相邻词项的状态转移,之后利用条件随机场中的前向后向算法计算每个词项在全局下进行状态转移得分后的一个全局重要性。通过计算全局重要性,计算每个词项被选中的概率,作为计算上下文表示公式中的权重。通过这种方式,在计算每个词项的时候不仅考虑自身,也考虑到前后词项。
此外,还考虑了两个正则项转移正则项和稀疏正则项,转移正则项,我们希望得到相同状态的得分大于不同状态时的得分,也就是模型能生成类似101010的一个连续片段,而不是离散片段。稀疏正则项,希望被选中的词越少越好,因为关系描述往往是很短的片段。计算上下文表示时,对头尾实体进行了拼接,拼接后再进行分类。这样使得计算实体连边时,不仅考虑到自身的表示也考虑到相关上下文。
在公开数据集进行了实验,证明了图视角和片段注意力机制的优越性,消融实验和可视化分析,注意力机制在引入了条件随机场之后,能够准确地关注到一些连续片段。
(2)图视角下的连续实体识别
连续实体识别,也被建模为图上的连边预测问题,将实体类别视为连边类型。因此,需要构建实体的开始和结束词项之间的连接。例如,下图中的例子中包含了三个实体,其中有两个实体中央和中央办公厅是嵌套的,在传统的序列标注方法中,很难用一个标签序列识别出两个嵌套实体,但是在图视角下,两个实体的开始词相同但结束词不同,在图中就会有两条边,从而能够解决实体嵌套的问题。同理,西城区是一个LOC类的实体,需要给区和西建立一条连边。我们需要做的就是,构建一个图结构,利用图结构从中解码出所有的实体。
命名实体识别与关系分类不一样的地方在于,没有给定抽取目标,需要遍历文本中所有的词项对并判断它们之间是否有连边以及连边的类型。为长度为N的文本构建一个NN的矩阵,代表图的邻接矩阵,判断第i和j个词项的关系,如中央是一个ORG,中和央在矩阵中交叉点的位置代表了它们连边的类型ORG,西和区的交叉位置代表了它们的连边类型(实体类型)为LOC。
如何预测矩阵呢?我们枚举所有的词项对,通过LSTM或BERT等编码器,输出每个词项对的表示,将词项进行拼接预测类型,从而判断连边的类型。连续实体识别任务中,对嵌套实体和非嵌套实体都做了实验,有很好的效果。
2。图视角下的二元信息抽取
二元抽取,相比一元抽取复杂之处在于,不仅仅关注一个片段,而是需要两个片段。以实体抽取为例,我们知道单个实体可以看做图中的一条连边,类似地,希望实体和关系也能在图中通过连边组合产生。
以故宫博物院在中国首都北京为例,有3个三元组故宫博物院,Locatedin,北京,中国,Capital,北京,中国,Contains,北京要构建这个三元组。对于三元组故宫博物院,Locatedin,北京,操作流程为:
构建故和院之间的连边作为头实体;
构建北和京之间的连接作为尾实体;
连接故和北这两个头尾实体的开始词用locatedin的连边表达它们之间的关系类型。
之后发现通过这样三条连边的组合,就可以识别上面提到的三元组。
上文方式构建的结构,如果我们按照原文不能中的语句进行还原,并且删除掉没有参与到连边关系的节点,就可以产生一个有效的无环图。
然而,某些场景中用三条连边构成的无环图无法准确的找到三元组。例如,有两个三元组故宫博物院,Locatedin,北京市西城区,西城区,Belongto,北京市,北京市和北京市西城区是嵌套的,在这种情况下,从故到北的连边代表了故宫博物院和北京市这两个实体的关系,但是由于只有一条连边,无法确定这条连边指向的尾实体是北京市还是北京市西城区,因此,只有头实体开始词连接的边会存在歧义。为了解决这个问题,在图结构中,为每个三元组再添加一条从头尾实体的结束词连接的边,使用两条边双重校验实体的开始位置和结束位置,从而唯一的确定头尾实体。如,在北和市、市和区、西和区、北和西之间都存在一条连边,这四条连边组成的环代表了一个三元组。
考虑到一个环可以表示为一个三元组,在关系抽取任务中,解码时可以从图中抽取所有的环,从而抽取所有的三元组。以故宫博物院,Locatedin,北京为例,从故到京,从京到北,从北到院,从院到故构成一个环,这四条连边表示两个实体构成一个三元组。
基于上述的思想,与一元关系抽取任务类似的思想构建实体关系联合抽取的任务的图结构,使用二维标注来预测图的邻接矩阵。
首先,用一个二维矩阵标注文本中可能的实体,比如故和院,中和国,北和京这样的三条连边对应的图中三个交叉位置,表示两个实体之间的连边类型。故宫博物院是我们关心的实体,因此有故到院的一条连边,分别代表实体的开始和结束。
之后,为每个关系类型都构建一个二维矩阵,如Locatedin关系的二维矩阵。连接这个关系下的头实体和尾实体,这个矩阵里面存在两个标签,头实体开始到头实体结束,尾实体开始到尾实体结束,我们用这两个标签去分别连接Locatedin关系类型下头尾实体开始词项和结束词项,如故宫博物院和北京市,故和北交叉位置的标签就是头实体的开始到尾实体开始,院和京的标签是头实体结束到尾实体结束。由于它们构成了一个三元组,且这两个实体的开始词分别是故和北,结束词分别是院和京,因此,在解码的时候对照下面两个图就能构建出LOCATEDIN这个关系类型下的图结构。同理,也可以构造Capital的图结构。
总结:这种方式实际上为每种关系和实体类型都构建了一个NN的矩阵代表图结构,预测图结构的方式就是,枚举图中的每个词项对表示,对头尾实体进行拼接分类,之后选择最大的概率的输出作为标签。由于会为每个关系类型都构建一个标注矩阵,不同类型的三元组都会单独解码,因此不会存在实体重叠的问题。
在联合抽取任务下也进行了实验并证明了结果的优越性。
3。图视角下的半开放抽取
半开放抽取任务,就是想要知道与某个实体相关的知识,而不是文本中所有的知识或固定类型的知识。
如何实现半开放抽取?与实体联合抽取任务类似,半开放抽取也是从开放域中抽取二元知识,因此,问题可使用环结构表示,用二维矩阵标注。第一个矩阵中标注关系短语和尾实体的边界位置,标注出关系短语开始尾实体结束,尾实体开始尾实体结束,如下图中的粉色和绿色位置。第二个矩阵中标注关系短语开始尾实体开始、关系短语结束尾实体结束,如下图中的绿色和蓝色位置。
由于面向特定的实体去抽取,所以在编码的时需要考虑到我们所关注的头实体信息。为了实现这个功能,设计了目标实体感知编码器,把头实体拼接在输入的前面作为关注的锚点输入到BERT中编码,之后取出头实体的位置表示,添加条件层正则化机制,使得表示更偏向于头实体的语义信息。通过实验发现,在我们构建的数据集上,能够取得很好的效果,F10。803,并且在实际业务中产生了真正经济价值。
4。图视角下的多元信息抽取任务
多元抽取任务,是信息抽取任务中最复杂的。包括了不连续实体识别、开放信息抽取和事件抽取。与一元抽取和二元抽取不同的是,多元抽取任务中,对抽取的知识片段数量没有限制,因此无法像二元抽取任务一样,可以通过四条边连接固定的抽取到目标知识。为了实现多元信息抽取任务,一个很直接的思路就是,对二元抽取的环结构进行扩展适配到多元抽取任务中,但是在一些复杂的例子中会出现表达歧义。
给出一个开放抽取的示例,腾讯控股盛大文学,并收购了该公司剩余的所有股份。这句话中有两个三元组腾讯,控股,盛大文学,腾讯,收购,盛大文学剩余的所有股份,如果采取二元抽取的方式,只连接每个实体的开始词和结束词,每个关系的开始词和结束词,并对片段的开始词和结束词进行连接构成环,可以发现整个图结构中有四个环,其中,腾讯控股盛大文学剩余的所有股份和腾讯收购盛大文学这两个环是错误的。这是因为,盛大文学本身是一个尾实体,同时也是盛大文学生育的所有股份尾实体的一部分,导致了环结构代表的语义出现歧义。
为了解决上述的问题,需要在环结构中构建三元组中所有片段边界位置的连边,从而避免复杂知识表达的歧义性。我们发现两两都连边的图结构,构成一个紧密的团结构。团,是一个无向图的无向子图,团中的每对顶点必须有边连接。
下图中左侧的图结构,可以拆分为右侧的十个团,每个团的不同节点之间都有一条边相连。例如节点0和5是一个团,0,5,4也构成一个团。进一步地说,如果一个团不被其他任何团包含,就称它是图的极大团。下图中,节点0和5是一个团,添加节点4后仍然组成团,对于团0,5,4无法再添加一个节点形成新的团,因此,054成为图的一个极大团。下图中有3个极大团分别为054,014,124节点组成的团。
因此,如果我们文本看做一个图结构,多元信息抽取任务就是转换为图中极大团查找任务,解码时找到图中所有的极大团,再判断团中每一个节点的角色和类型就可以去组合还原出想要的多元知识。
下面给出了基于极大团的开放信息抽取的一个流程:
首先,构建一个图,图中的节点是头实体、关系短语、尾实体;
把属于同一个三元组的所有角色进行连边;
在图中进行极大团查找,每个极大团代表一个目标知识。
在建图过程中,用二维矩阵标注文本中所有三元组中的片段,如豫园、建造于、明朝嘉靖年间,之后构建片段的连边,包含位置和角色两种标签。位置用来表达对应两个词项是属于同一个三元组片段的开始或结束位置,如豫和建分别代表三元组头实体和关系短语的开始位置,因此用标签1表示。豫和建分别代表头实体和关系短语,用标签3表示。通过这两个矩阵就可以构建出想要的图结构。
我们在中文和英文数据集上都进行了实验,并取得非常好的效果,在实体重叠、实体嵌套和不连续的场景中也有出色的表现。
(1)图视角下的不连续实体识别
类似开放信息抽取,不连续信息抽取也可以采用类似方法实现。首先标注文本里所有不连续实体的片段,之后构建片段之间的两两连边,最后构建极大团结构。
在三个数据集上做实验,效果非常好,在仅包含不连续实体的数据集上超越了之前的方法至少六个点,速度也非常快,训练时间减少五倍。
(2)图视角下的事件抽取
事件抽取也采用类似之前的方法,先识别出文本中给定事件定义下所有的角色(每个标签就是一个角色),之后识别事件类型下所有的片段,如敌人、攻击、基地、士兵等,之后在连边下识别出关心的片段,以及片段组合的连边类型。例如敌人和攻击之间的关系就是Attack事件的Trigger,基地表示一个攻击性事件的一个Target。之后判断词项是两个要素的开始或者结束,从而构建出要素之间的连边。从而实现在事件抽取里,不同要素同属于一个事件的所有要素两两之间构建起连边的图结构。
5。本节总结
我的课题提出一个统一的信息抽取的图视角,将图分析领域和信息抽取领域相结合,把七类信息抽取任务建立为3种图结构,从连边到环再到团,并在数据集上取到较好的效果。
今天的分享就到这里,谢谢大家。
分享嘉宾
郁博文博士
阿里巴巴达摩院智能对话团队算法专家
郁博文,阿里巴巴达摩院智能对话团队算法专家,2022年博士毕业于中国科学院大学,研究方向为自然语言处理中的知识发现与利用,累计在ACL、WWW、SIGIR、AAAI、IJCAI、EMNLP等重要国际会议上发表高水平论文三十余篇。担任ACL、EMNLP、AAAI、IJCAI、WSDM等会议的程序委员会委员,以及WWWJ、AI、TALLIP、TKDE等期刊的审稿人。
DataFun新媒体矩阵
关于DataFun
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。
iPhoneSE3新机开始曝光A15仿生5G芯片打孔屏,望春随着手机行业的高速度发展,越来越多手机品牌走向个性化发展,对于每一款机型都有针对性研发,所定位也不同,比如摄影手机、游戏手机等机型,都是面对市场不同的群体。不过,有部分品牌每年……
华为Nova10系列海报曝光熟悉的设计风格,搭载骁龙7系处理华为Nova系列凭借高颜值的设计和拍照体验,吸引了不少年轻用户、潮流人群的关注,上一代的Nova9系列已经是去年9月发布的产品。而不久前,华为官宣了全新的华为nova10系列,……
詹姆斯明天不会出战开拓者,可能缺席更多比赛据TheAthletic记者ShamsCharania报道,勒布朗詹姆斯由于左膝持续疼痛,可能会缺席更多比赛。詹姆斯已经错过了湖人最近三场比赛,据报道,他将继续缺席周四对……
王曼昱国乒封闭训练迎生日,恩师肖战送鲜花祝福23岁经历住考验北京时间2月9日,国乒主力目前在三亚进行封闭训练,提早准备2022年的各种大赛。而这一天正是国乒女选手王曼昱的生日,在训练日迎来了她的23岁,恩师肖战也为她庆祝:23岁经历住考……
健脾养胃的南瓜玉米羹从闺蜜家育儿嫂那里得知,因为南瓜口感甜糯,营养全面,还可以养护小宝宝尚未发育完全的脾胃,所以很多婴幼儿营养师都会把南瓜作为宝宝辅食的第一种蔬菜今天做的这道南瓜玉米羹,在补……
欧冠32强正式出炉,二档球队比一档还猛,死亡之组让人期待北京时间8月25日,新赛季欧冠32强参赛球队以及分档正式出炉,小组赛抽签将在明日0点正式开始,分组形式让人期待,因为二档球队云集了多支豪门球队,所以这一次小组抽签,死亡之组势必……
为什么再性感的服装穿到女星刘亦菲身上都显得端庄?提起女星刘亦菲,那是观众心目中公认的神仙姐姐。但刚才看到一位网友笑言刘亦菲不配性感。仔细一想确实是这样,刘亦菲可能真的与性感无缘。以至于无论如何性感的服装穿到刘亦菲……
交旅融合绘出云南流动的风景线打卡滇西旅游第一站、驰骋卡丁车赛场、体验非遗手作、聆听滇西抗战故事3月8日至10日,第六届中国旅游交通大会在昆明举办,百余位专家、学者,以及全国各省(市)交通主管单位、企业负责……
日记第15篇记录自己的心理路程历史可以翻看,未来可以畅想,那么现在呢?现在最难熬!对于过去的事,我们可以随便翻看、随意点评,可以用一个个如果、一个个假如来扼腕叹息亦或顿足捶胸。可历史不可改变,五……
新上映的电影独行月球值得看吗?不含剧透但是(满腾)独行月球含腾量高吗,对于有这个问题的朋友来说,我的回答就两个字:满腾。这部电影值不值得去电影院看?我个人认为值得,至于原因,容我慢慢给大家分析。(本文不涉及剧透,请放心观看)……
夜读一个人最好的生活状态用有力的臂膀拥抱生活。平时多运动运动与不运动,是截然不同的人生。每一次运动,都是在用自律打败安逸,用坚持打败颓废。运动不仅能健身,还有助于缓解压力,培养乐观的……
人类和地球是如何出现的?一起穿越到数十亿年前先说地球的诞生。不得不说到宇宙大爆炸模型。138亿年前,宇宙起源于一场大爆炸,之后的几分钟时间里,产生了氢元素和氦元素,还有少量的其他元素,这两种元素也成为原始星云的主要……
感冒了家里先是小孩感冒发烧,紧接着是我,我快好时老公又说身体不舒服。早做好了迎接一切的准备,当然是心理准备。小孩每年冬天总会有一两场感冒,今年这次感冒,格外多了焦虑。好在家里备……
丰田普拉多真的有这么好吗,开起来像开船一样?买普拉多,建议提中东版,平行进口的,带你了解一下,普及:什么是平行进口车,不要再被4S店忽悠1、什么是平行进口车?平行进口汽车,是指未经品牌厂商授权,贸易商从……
买包买鞋有选择困难症?找出2023年幸运色脱离包色回圈记者林孝庭台北报导你曾有过站在专柜前却突然有选择困难症的经验吗?买包、买鞋想要搭配衣橱里的所有衣服,恨不得一口气包色!但冲动的念头却被荷包的厚度限制。现在用一个简单的心理……
什么汽车最好?个人选择的是本田雅阁9。5代。推荐日系三巨头,本田雅阁,丰田凯美瑞,日产天籁,很棒的。本人不崇洋媚外,好的就是好的,国产车跟外国车差距大,有差距就是有差距,学习人家……
雪佛兰这个品牌的车各项性能如何,值得购买吗?你好,我来回答这个问题,我是检车家的一名二手车检测技师。工作的原因经常接触各种车型,所以对于这个问题还是相对有所了解的,下面我就从我个人的角度回答一下你的问题。在我们国内……
大话西游2拥有20多万攻击的神兽范式之魂竟是送的,你敢信?大话西游2大家好,今天咱们来聊一聊五常神兽范式之魂。范式之魂是一只敏攻型的神兽,代表着土属性,作为五常神兽,它可是咱们不可或缺的重要战力。当然神兽的获取难度也是可想而知的。……
中国工程院院士孙龙德论中国油气行业上游绿色低碳转型与创新【摘要】预计未来数十年油气仍将保持全球主体能源地位。全球气候治理将大幅提高油气综合成本,这对油气行业未来发展构成了巨大挑战。勘探开发投资增长前景并不乐观,未来全球油气稳定供应的……
老公出去跑美团外卖了,跑美团外卖能养得起家吗?完全就是时间耗出来的!每天在线1415小时,一个月到头不休息!吃喝拉撒全是自己的!这是北京三环四环之间!自己掂量吧!就这工资还是站点排名前三的水平!一个站点八十人!能的,……
冬季又来了,汽车容易出现亏电,怠速充满需要多长时间?刚才查了资料,一般汽车发电机功率在100A200A左右,即使怠速的情况下也能达到30A左右。汽车电瓶的充电电流和电池本身的电量有关系〔汽车发电机稳压输出14。4V〕(压差越大充……
汽车仪表盘黄灯亮代表什么?对于很多新手车主朋友来说,对车上常见的一些仪表指示灯还不是很熟悉,或者是只见过,却不知道有什么作用,它为什么会亮灯?亮灯了又该如何应对处理呢?小编特意给大家梳理了一些车内常见的……
你明明知道,他不喜欢你头条创作挑战赛冬天的时候总是很容易天黑但我却还是找不到一同陪我走夜路的人01hr我们总在开心的时候遇上难过的事人总不能太贪心你可以开心一天但似乎总……
车门能挡子弹嘛?如果不能,为什么影视剧中警察都要躲在车门后?绝大多数非专门改装用以防弹的车辆,都无法用车门抵挡子弹的射击,就连手枪弹都不行。但如果稍微摆点角度,倒是能勉强挡住。22LR这种用来打打小兔子,小狗子的弹,而且。22LR如果打……