基于BERT改进的文化活动事件论元抽取研究

时间:2023-10-17 11:44:03 来源:网友投稿

蔺 志,李 原,王庆林

(北京理工大学 自动化学院,北京 100081)

事件抽取是信息抽取的一大子任务,也是自然语言处理领域的研究热点和难点。其目标是从半结构化或非结构化信息中抽取出特定的事件类型,并将与之相关的时间点或时间段、地点、参与角色等论元抽取出来,以结构化信息的形式呈现。除了用于构建知识图谱外,事件抽取还广泛应用于自动摘要[1-2]、信息检索[3]、多文档摘要[4]、医疗事件抽取[5]等。

目前对于中文事件抽取的研究主要分为两类,基于模式匹配的方法和基于机器学习的方法。基于模式匹配的方法主要使用各种模式匹配算法将句子与手动或自动生成的模板进行匹配,如Lee的基于本体的模糊事件抽取系统[6]等。基于机器学习的方法侧重于分类器的构造和特征的选择,其将事件提取问题视为分类问题,是目前事件抽取研究的主流。Chen在2015 年提出通过动态多池化卷积神经网络对句子中的多个事件进行抽取[7],Nguyen在2016年提出利用BiLSTM抽取事件触发词和论元[8]。

当前的研究大多还很依赖于Automatic Content Extraction (ACE)会议在2005年提供的中文事件语料,该语料存在事件类型有限、缺乏领域事件、数据集较少等问题。针对这个问题,Liu在2016年提出结合FrameNet知识库扩充标注语料[9],Yang在2018年提出一种远程监督方法,利用知识库自动生成标注语料,并将其用于金融领域的事件抽取任务[10]。

国家图书馆的数字图书馆推广工程是一项重要的文化设施建设项目,其中的文化播报子项目需要采集全国各地的文化活动预告及报道并以结构化文本的形式呈现及供人们检索。在这个项目中,主要是针对全国各省市的图书馆官方网站发布的文化活动信息,将活动涉及的时间、地点、主题、参与人和主办单位抽取出来。对于这个任务,要想达到良好的抽取效果,就需要文化领域的标注语料。在早期的研究中,采用了知识库和模板匹配的方法,取得了一定的成果。但是知识库和模板库有很大的局限性,泛化性很差。因此,本文以自动标注的数据为基础,训练了一个基于BERT-BiLSTM-CRF的文化活动事件论元抽取模型。

本文的工作重点在事件论元的识别。事件论元即事件的参与者,在文化活动事件中,事件论元就是活动涉及的时间、地点、主题、参与人和主办单位。本文先通过远程监督的方法自动获取大规模的标注语料,然后将论元抽取看作序列标注问题,使用经典模型BiLSTM+CRF进行训练,在此基础上还引入BERT预训练模型,因为BERT模型能表征字的多义性,有效地保存文本的语义信息。此外,还提出基于字位置信息的词向量扩展方法,利用位置信息进行论元判别。实验结果表明,使用BERT模型训练中文词向量和基于位置信息的词向量扩展方法均能提升BiLSTM-CRF模型对实体的抽取效果。

目前,在自然语言处理领域应用深度学习方法主要是靠Word2Vec[11]工具将文本转化为词向量作为神经网络的输入,Google发布的BERT预训练模型[12]进一步提高了词向量所包含的特征。本节将介绍文化活动领域事件抽取的方法,主要包括语料自动标注和事件论元抽取模型。

本文关注的文化活动事件来自国内的省市级图书馆和一二线城市的区县级图书馆官方发布的活动资讯,包括讲座、展览和公益培训等,这些信息通常是非结构化的,需要从中抽取出活动举办的时间、地点、主题、参与人和主办单位等关键信息,以得到结构化信息,如图1所示。

图1 文化活动事件及论元

文化活动事件的领域性较强,直接使用通用标注语料训练得到的模型在文化活动事件抽取上表现很差,因此,专门的文化活动标注语料是很有必要的。

本文的工作主要包括两个部分:
一是文化活动领域语料的自动标注;
二是事件论元抽取模型的构建与训练。

1.1 语料自动标注

事件抽取语料大多通过人工标注而来,虽然保证了准确性,但是却需要消耗大量的人力,标注的数量往往也很有限。为了减轻人工标注的负担,结合专家系统的思想,本文提出一种基于知识库的半自动语料标注方法,在标注规范的基础上制定了知识库,辅助人工标注,该方法在自动标注极大简化标注复杂度的同时辅以人工修正,以保证标注准确度。通过人工总结和归纳,构建了基于句子模板和字典的知识库来对文本进行自动标注。具体如下:

1.1.1 时间标注知识库

(1)基本知识库: 常用时间表达的正则表达式。

(2)先验知识: 语料获取的时间是2018年和2019年,考虑到有的网站栏目更新频率很低,可能还保留着几年前发布的历史消息。此外,还有一部分信息是预告类信息。经过对语料的整理分析,文化活动事件发生的有效日期为2015-01-01到 2020-01-01,因此只有这个范围内的日期会被标注。

(3)匹配规则: ①使用基本知识库找出所有的时间字符串。②将时间标准化为“YYYY-MM-DD”格式,具体方法为: 省略比天更精确的时间;
对于缺少年或年月的日期,按发布日期的年份和月份进行补全;
对于相对当天的其他时间表达,如“昨天”“上周三”“40年前”,按发布日期计算具体日期。③使用先验知识决定是否保留并标注该时间字符串: 将标准化的日期与左、右时间边界相比较,如果日期在范围由则保留并标注。

1.1.2 地点和主办单位标注知识库

(1)图书馆知识库: 收录了529个图书馆信息,包括图书馆的名称、常用简称、地址和楼层分布(数据来源自各图书馆官方信息,通常在网站入馆指南或图书馆简介中)。

(2)先验知识: 如果图书馆后面紧跟楼层或服务区域(厅、室、廊),则组合为一个地点,如“珠海图书馆一层展览厅”;
如果图书馆楼层和服务区域单独或组合出现,则为地点;
如果图书馆单独出现,且前一个词或后一个词通常与地点组合出现,如“在”“相约”“内”,则为地点;
图书馆单独出现的其他情况为主办单位。

(3)匹配规则: ①根据图书馆知识库找出图书馆和服务区域字符串。②根据先验知识将字符串标注为地点或主办单位。

1.1.3 参与人和活动标题标注知识库

这两项的自动标注通过模板匹配进行,用正则表达式模板匹配得到。参与人和活动标题的标注知识库就是这些先验知识模板库,模板匹配的准确率较高,但是召回率一般很低,很多情况下需要人工进行补充以扩充模板库。

1.1.4 触发词标注知识库

数据知识库即人工总结的按优先级排序的触发词库,直接按字符串匹配的方式进行标注。

并非所有图书馆都建设了线上官方网站,本文从529个图书馆中选出有官方网站且开设了活动发布专题页面的319个易于爬取的图书馆活动发布页面。利用爬虫技术对这些网页进行增量式爬取,共爬取了从2018年1月到2019年9月发布的三万多条信息。

以1 000条数据为一组,先用知识库对其进行标注,然后人工校验,在补全完善标注结果的同时,记录自动标注有误和有疏漏的情况,并据此扩充先验知识库,然后再用更新后的知识库对下一组数据进行标注,直到完成整个数据标注任务。随着迭代的次数增加,自动标注的完成率(正确标注的论元数和所有需要标注的论元数之比)折线图如图2所示,自动标注可以完成60%到70%的工作,人工标注和复核的成本可以减少一半,表明知识库辅助的方法能够有效辅助数据标注工作。此外,人工复核和补充标注保证了数据分布没有偏差。

图2 自动标注迭代次数与完成率

最终标注数据20 000条,每条数据为一个中文文本段落,包含触发词和一个或多个事件论元。

1.2 实体识别模型

传统的中文论元抽取是先对中文文本进行分词,然后将每个词分类到对应的论元角色。但是这个方法需要使用分词工具,只有当分词和分类都正确时才能准确识别出论元。本文将论元抽取转化为序列标注问题,并通过端到端模型进行训练,直接按论元角色进行实体识别,得到带论元角色标签的论元实体抽取结果。

本文采用序列标注任务的经典模型BiLSTM-CRF,整体结构如图3所示,文本(w1,w2,…,wn)经过词嵌入层得到词向量,输入到BiLSTM网络,BiLSTM处理后得到每个字对应每个标签的分数,最后CRF层在BiLSTM输出的基础上,调整输出标签,使得标签结果顺序更为合理,最终输出每个字对应的标签(t1,t2,…,tn)。

图3 论元抽取模型

接下来重点介绍其中的BiLSTM和CRF的结构和原理。

1.2.1 BiLSTM

循环神经网络(Recurrent Neural Network,RNN)具有时间递归结构,可以将历史信息存储在隐藏层的递归节点中[13],在自然语言处理中有着广泛的应用[14]。尽管网络的输出是基于所有先前的计算,但是长期依赖学习仍然是RNN训练中最具挑战性的问题[15]。长短期记忆网络(LSTM)将RNN中隐藏层的简单节点扩展到更复杂的单元[16]。从输入层到隐藏层的权值矩阵为U,从隐藏层到输出层的权值矩阵为V,隐藏层的权值矩阵为W。在隐藏层中,一个单元由几个门组成,可以通过控制这些门来保持或擦除其中储存的信息。LSTM单元结构如图4所示[17]。

图4 LSTM单元结构

单元中的ft,it,ot分别表示遗忘门、输入门和输出门,记忆单元的细胞(cell)状态为Ct。下面出现的W和b分别表示权重矩阵和偏置项。

遗忘门会基于前一个单元的输出ht-1和当前输入xt来确定忘记哪部分信息,遗忘门的输出通过sigmoid函数计算,如式(1)所示。

ft=σ(Wf[ht-1,xt]+bf)

(1)

输入门和输出门同样根据前一个单元的输出ht-1和当前输入xt计算,它们相互之间以及与遗忘门的不同之处在于三者均有各自的权重矩阵和偏置项,计算如式(2)、式(3)所示。

作为信息长距离传输的通道,记忆单元的细胞状态是LSTM的关键,它的更新由遗忘门和输入门共同决定,计算如式(4)所示。

(4)

(5)

最后就能得到LSTM单元的当前输出,计算如式(6)所示。

ht=ot*tanh (Ct)

(6)

1.2.2 CRF

条件随机场(Conditional Random Field,CRF)广泛应用于命名实体识别[19]、词性标注[20]等序列标注任务。作为一种判别模型,CRF根据条件概率进行全局最优预测[17],也就是说,CRF通过考虑上下文条件来分配标签,而不是独立地标记每个单词。

给定包含k种标签的序列x和标注序列y,y的条件概率通过式(7)计算得到。

(7)

其中,tj(yi-1,yi,x,i)为整个观测序列的标记位置i和i-1的转移特征函数。sk(yi,x,i)是位置i的标签和观测序列的状态特征函数。λj和μk为根据训练数据估计的参数。Z为规范化因子,如式(8)所示。

(8)

最后,最优输出序列的计算如式(9)所示。

y*=argmax(p(y|x))

(9)

将CRF和BiLSTM相结合应用于实体识别任务[21],CRF层的输入为BiLSTM层输出的分数,将输出的最优输出序列作为最终结果,能有效提高识别准确率。

最常见和使用最广泛的词嵌入模型为静态的Word2Vec模型,用Word2Vec得到的词向量虽然能够在一定程度上表示词的特征,但是作为一种静态的预训练模型,Word2Vec得到的静态词向量无法解决一词多义的问题,特别是对于单个字的向量。相对而言,BERT预训练模型就能很好地解决这个问题,因此,本文提出在词嵌入层使用BERT模型进行词向量的训练,并在此基础上提出了基于字位置信息的词向量扩展方法,提高论元抽取效果。

2.1 BERT语言模型

词向量是使用深度学习应用于自然语言处理的先决条件,深度学习处理NLP任务就是先将词处理成向量,再将向量作为深度学习模型的输入。当前应用最广泛的词向量工具是Word2Vec,但是Word2Vec计算出来的词向量是静态的,存在一词多义的局限性。2018年,谷歌提出全新的预训练模型BERT,相比于Word2Vec,BERT能更好地利用上下文,训练出来的词向量更加动态,能解决一词多义的问题。此外,BERT学习到的是一个深度的网络,能在不同网络层上得到不同层次的特征,包括语法、语义等复杂特征。

BERT模型的结构如图5所示,该模型采用了双向Transformer[22]作为编码器,其特征表示依赖于所有层的左右两侧上下文。和传统模型相比,它的特征提取能力有了很大的提升。

图5 BERT预训练模型

其中,Transformer是Vaswani等人在2017年提出的一种编码器,其编码单元如图6所示。Transformer不同于RNN的循环式网络,而且完全基于注意力机制对文本建模。

图6 Transformer编码单元

Self-attention是编码单元中最重要的模块,计算如式(10)所示。

(10)

其中,Q,K,V分别表示每个词对应的Query向量、Key向量和Value向量,由嵌入向量和三个不同的权值矩阵相乘得到,dk为输入向量的维度。该公式计算了句子中每个词与句子中所有词之间的关系,使用这些相关性来调整每个单词的权重可以获得每个词的新表示。这样生成的词向量不仅包含词本身的特征,还包含了该词与其他词之间的关系,比简单的词向量更具全局性。

Transformer采用了“Multi-Head”注意力机制,允许模型在不同位置共同关注来自不同表示子空间的信息,计算方法如式(11)、式(12)所示。

此外,每个层还包含一个全连接的前馈网络(Feed-Forward Network, FFN),由两个ReLU激活的线性变换组成,如式(13)所示。

FFN(x)=max(0,xW1+b1)W2+b2

(13)

BERT模型提出了两个无监督预测任务进行预处理,“Masked Language Model”和“Next Sentence Prediction”。

“Masked Language Model”随机遮挡一部分输入文本,然后对被遮挡的部分进行预测,以达到训练深度双向Transformer表示向量的目的,一般认为深层双向模型比从左向右模型或浅层双向模型更强大。在训练过程中,从每个序列随机选取15%的词,将其中80%替换成固定词(遮挡符号“masked token”),10%替换成其他随机词,10%保持不变,然后用交叉熵损失函数来预测原始词。

“Next Sentence Prediction”通过训练二分类模型来理解句子间的关系。具体来说,当为每个预训练示例选择句子A和B时,50%的情况是句子B跟在句子A的下一个句子(标记为IsNext),50%的情况句子B是来自语料库的随机句子(标记为NotNext)。

除了能够表示一词多义之外,完善的词表示还需体现出词的复杂特性,比如语法、语义等,而Word2Vec等词嵌入方法则不具备这种能力。和Word2Vec的简单结构不同,BERT预训练方法学到的是深度的网络,经过预训练之后在不同的网络层就能够得到不同层次的特征[23]: 依赖上下文的、抽象的信息往往在高层特征中体现,语法信息更多地在低层特征中体现,多层特征的建模可以得到更加丰富的特征表示。

作为当前表现最佳的预训练语言模型,BERT模型能获得更好的词向量,对NLP下游任务在一定程度上能产生性能提升。本文采用了Google针对中文语料训练好的模型,有12层Transformer, 768隐藏层维度,自注意力的Head数为12。

2.2 基于字位置信息的词向量扩展方法

模型在对每个字进行角色标签预测时,主要是利用BiLSTM模型根据字符序列本身以及每个字向量获取的上下文特征进行的。其中,引入BERT模型作为词嵌入层,虽然得到的字向量包括不同层次的复杂信息,但却没能体现出触发词或与触发词关系的信息,这些信息在一定程度上与该字的角色标签有联系。本文从与触发词位置关系的信息出发,在BERT获取的字向量的基础上引入字在文本中的位置信息以及与触发词的相对位置信息对字向量进行扩展,再将扩展的字向量作为BiLSTM的输入。

为了引入字在文本中的位置信息以及与触发词的相对位置信息,本文采用与事件识别模型中的触发词信息改进方案一样的方法,在原字向量的基础上增加维度,在此处需要将字向量增加两维。对每个字向量而言,新增数据[Pglobal,Prelative]分别表示每个字的全局位置信息以及与触发词相对位置信息的归一化结果,Pglobal和Prelative的计算方法如式(14)、式(15)所示。

值得一提的是,触发词往往不止一个字,在计算目标字与触发词的距离时总是选择离目标字最近的字。然后,将文本序列向量表达中的每一个字向量与[Pglobal,Prelative]进行拼接,原始字向量为Embedding,则扩展后的字向量extendedEmbedding表达式如式(16)所示。

extendedEmbedding=

[Embedding,Pglobal,Prelative]

(16)

通过扩展字向量,增加字向量的全局位置信息和相对触发词的位置信息,改进的词嵌入层获得的字向量将有助于BiLSTM模型更加有效地提取特征。

3.1 实验数据

本文对20 000条语料进行划分,12 000条作为训练集,6 000条作为测试集,6 000条作为验证集。采用准确率P、召回率R和F1值来评判识别效果,计算如式(17)~式(19)所示。

其中,TP表示正确识别的论元数,FP表示将无关实体识别为论元的数量,FN表示未被正确识别的论元数。

3.2 参数设置

本文使用GPU版本的TensorFlow框架搭建模型。采用Google发布的中文版BERT模型(BERT-Base,Chinese,24-layer,1 024-hidden,16-heads),参数共计110M。论元识别模型最大序列长度为200,batch_size=64,learning_rate=0.01,LSTM隐层维数为300,采用Gradient Clipping和Dropout来防止梯度爆炸和过拟合问题,参数均为0.5,迭代次数为200。

3.3 实验结果

目前关于中文事件抽取的研究比较少,且多为事件识别。为了对比,本文采用了几个不同的模型来进行对比,通过对比在同一数据集上的表现,验证本文方法的有效性,其中BERT+position-BiLSTM-CRF为本文提出的基于BERT和基于字位置信息改进的论元抽取模型。此外,为了验证该模型的可迁移性,本文还进行了该模型在几种公开数据集中的实验。实验结果如表1~表3所示。

表1 各模型在文化活动语料中的效果 (单位:
%)

表2 本模型对不同类型论元的抽取效果 (单位:
%)

表3 本模型在其他数据集中的效果 (单位:
%)

可以看出,基于BiLSTM的论元抽取模型相比于传统机器学习模型CRF有很大的提升,二者结合的模型有着更好的表现。引入位置信息扩展词向量在论元抽取模型上同样有一定的性能提升,表明字的全局位置和与触发词的相对位置对该字的角色标签有着一定的关联,通过在字向量中加入位置信息将其利用,可以实现论元抽取效果的提升。使用BERT词向量的BERT-BiLSTM-CRF模型,相比传统的Word2Vec-BiLSTM-CRF模型在论元抽取任务中效果提升较为显著。

从不同类型论元的抽取效果来看,本文的方法对于时间、地点的抽取效果相比标题和主办单位的抽取效果更显著,一大原因是并非所有数据都完整包含所有论元的事件,时间和地点出现得更为频繁,意味着训练数据相对更多,从而训练效果更好;
而标题一般是一个短语或短句,形式多样,很难从本文构建的语料中训练出很好的效果。

在公共数据集上的实验结果表明,本文提出的改进模型具备良好的迁移能力,在不同数据集上也能达到令人满意的效果。

本文针对文化活动事件提出了一种自动标注方法,只需少量人工参与即可获得中文标注语料,结合专家系统的思想,利用知识库辅助人工标注的方法,对于解决当前事件抽取公开数据集稀少的和人工构建语料成本高昂的现状起到了参考作用。本文采用了BERT预训练模型生成词向量,同时利用字位置信息对词向量进行了扩展,比传统词向量能表示更多的语句特征,结合BiLSTM-CRF模型在中文命名实体识别上取得了很好的效果。

BERT模型获取的基于字的词向量非常适合用于需要对每个字进行标签预测的序列标注任务,比Word2Vec模型能获得多层次的更加丰富的特征,更利于BiLSTM网络训练上下文特征。此外,本文还提出基于字位置信息的词向量扩展方法,利用字的全局位置信息和与触发词的相对位置信息对词向量进行扩展,进一步提升了事件论元抽取的效果。

本文的事件论元抽取模型需要利用触发词获取每个字与触发词的相对位置信息,因此存在一个问题,即训练数据需要对触发词进行标注,而且在对语料进行论元抽取时也需要提前标注其触发词。同时,半自动标注的语料也存在标注的精确度不如人工标注数据的问题,同样会影响模型的效果。因此,如何进一步提高语料精度以及利用模型本身获取触发词信息,简化对语料的要求,从文中直接抽取出结构化的事件信息,还需要进一步研究。

猜你喜欢论元知识库语料基于归一化点向互信息的低资源平行语料过滤方法*通信技术(2021年12期)2022-01-25基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用制造技术与机床(2019年6期)2019-06-25高速公路信息系统维护知识库的建立和应用中国交通信息化(2016年9期)2016-06-06基于Drupal发布学者知识库关联数据的研究图书馆研究(2015年5期)2015-12-07《苗防备览》中的湘西语料民族古籍研究(2014年0期)2014-10-27国内外语用学实证研究比较:语料类型与收集方法外语教学理论与实践(2014年2期)2014-06-21基于依存树距离识别论元的语义角色标注系统中文信息学报(2012年2期)2012-06-29基于统计的中文词法分析应用">异种语料融合方法:
基于统计的中文词法分析应用中文信息学报(2012年2期)2012-06-29位置与方向测试题读写算·高年级(2009年3期)2009-11-16

推荐访问:文化活动 抽取 改进