胡慧婷,李建平,董振荣,白欣宇
(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)
随着信息技术化被广泛应用于教育行业,计算机辅助教学是教育领域的主要方向以及大趋势[1]。在互联网发展的大环境下,信息超限表现为信息迷航、信息爆炸、信息焦虑、信息污染等[2]。尽管网络资源能够辅助学习者学习,但网络中海量的数据使教育技术学专业学习者陷入信息超限,条理不清晰,学习者很难快速找到需要的信息,且不能帮助学生认清自身的薄弱之处。因此对教育技术学文本进行自动化的细致化知识点显得十分重要。使用结合命名实体识别(NER)教育技术学,提取出教育技术学中重要的术语,能有效提高学习者的学习效率。
教育技术学专业术语知识图谱可以从多源平台收集整理海量信息和知识,并能将知识及其关系可视化,为提高学习者学习效率提供了极大的帮助。教育技术学专业术语知识图谱主要包括实体抽取、关系抽取以及属性抽取等,实体抽取又称为命名实体识别(NER),是构建知识图谱的首要工作[3]。
NER是自然语言处理任务中的基本步骤之一,主要是从非结构化文本中识别出句子中的人名、地名、机构名等实体[4]。早期基于规则和词典的模式匹配方法,翟菊叶等人[5]使用CRF与规则相结合的方法对中文电子病历进行命名实体识别,但该方法的缺点是需要领域专家制定大量的规则,领域词典需要定期维护,通用性不高,所以学者们使用机器学习方法来解决这一问题。传统机器学习的命名实体识别方法主要有隐马尔可夫模型、最大熵模型、支持向量机模型和条件随机场模型,王红斌等人[6]将隐马尔可夫模型和条件随机场模型应用于泰语领域,尽管机器学习的方法避免使用手工构造规则模板,但是繁琐的特征工程依然需要大量人工参与。随着深度学习近几年的发展,由于其具有较强的泛化能力,使得命名实体识别领域逐渐使用该方法,取得了很好的效果[7];石春丹等人[8]提出一种基于双向门控循环单元的实体抽取模型,该模型结合门控循环单元结构简单、参数更少的特点,以GRU并发进行多尺度的处理加速,从而更加快捷地完成序列数据的计算;秦娅等人[9]将CNN-BiLSTM-CRF应用于网络安全领域,大大提高了识别精度;Yu等人[10]采用BERT模型,提出了一种融合句子内容和上下文信息的隐式句子模型,对输入进行重构,有效提高了分类模型的性能;黄炜等人[11]提出了一种基于BiLSTM-CRF的涉恐信息,获得了更高的分类准确率,但在文本数据中很多字词会根据文本语境的不同有不同的含义,该模型难以学习到字词的不同特征;李明扬等人[12]在BiLSTM-CRF模型中加入了自注意力机制,在Weibo NER语料库上,能够捕捉上下文信息,提升模型的识别精度;刘鹏等人[13]在提出矿山灾害模型时,提出HIDCNN模型,采用迭代法堆叠DCNN,避免了简单堆叠多个DCNN导致的模型参数量大进而使得模型训练困难的问题,提高了模型训练效率和检测的准确性。
因教育技术学专业术语识别是一种特定领域的命名实体识别,关于其研究相对较少,所以缺乏大量的专业语料库。针对以上问题,该文采用自制数据集,通过人工标注构建实体语料;再利用BERT模型在预训练数据集中获取词向量表示,然后将词向量输入到BiLSTM中提取特征,最后使用CRF进行实体标注修正后输出。以BERT-BiLSTM-CRF的命名实体识别方法,抽取教育技术学专业术语,具有较高的准确性。
由于教育技术学领域没有开放的数据集,该文手动构建了一个语料集用于研究。因《教育技术学研究方法》是教育技术学科必修课程,对学生掌握该专业的技能具有承上启下的作用,该文以教育技术学专业教材《教育技术学研究方法》来构建命名实体识别数据集。
根据教学大纲以及目录,将实体分为3类:“研究概述类”、“研究方法类”与“数据分析类”。
教育技术学语料集共10 350句320 140个字,所用汉字2 150个,具体频率如表1所示。
表1 教育技术学主干课程实体出现频率
教育技术学语料通过BIO实现对序列数据的联合标注,其中,“B-”表示命名实体中的第一个字,“I-”表示命名实体中间字和结尾字,“O”表示非实体字符,教育技术学实体标注示例如图1所示。
图1 实体标注方法及实体数量
BERT-BiLSTM-CRF教育技术学领域术语抽取模型整体结构如图2所示。
图2 BERT-BiLSTM-CRF模型
因为教育技术学主干课程实体的构建中,文字中的内容隐含于在上下文间、体现在字与字中的前后关系上。因此,首先使用2.1节生成的教育技术学命名实体识别数据库,作为训练特征输入到BERT预训练语言模型层中,在本模型层中被标注的字符集语料经过该层将每个字符转化为低维词向量。其次经过BiLSTM模块进行全局特征提取,将上一层输出的词向量序列输入到这一层进行语义编码,自动提取句子特征。最后是CRF层,利用这一层解码输出概率最大的预测标签序列,实现教育技术学研究方法术语的抽取。
2.2.1 BERT
因为教育技术学主干课程的知识点分布跨度大,一个知识点涉及多个知识点的概念,主要知识点层级由多个分级的知识点构成。而BERT是一种自然语言处理预训练语言表征,能够捕捉到文本语料的上下文信息,学习连续文本片段之间的关系并能够计算词语之间的相互关系。以BERT进行教育技术学主干课程知识点特征提取,不仅包含词上下文的语境或语义,而且携带上下文语境信息的静态词向量。
BERT[14]预训练模型主要由双向Transformer编码结构组成,其中Transformer由自注意机制和前馈神经网络组成,其与LSTM相比能捕捉更远距离的序列特征。
首先教育技术学语料库向量经过三个不同的全连接层,在Encoder部分得到Q(语料库中当前词的表示)、K(Encoder中语料库其他词的表示)、V(Encoder中其他词的表述)三个向量;在Decoder部分,得到解码的Q(Decoder中当前词的表达)、K(Encoder结束后所有输入词的表达)、V(Encoder结束后所有输入词)三个向量;然后Q和KT进行矩阵相乘得到单词和其他单词相关程度的向量QKT,最后将标准化的KT放入到Softmax激活函数中,得到词与词之间的关联度向量,再乘以V得到最终向量。如公式所示:
(1)
再通过多头结构拼接向量结果:
MultiHead(Q,K,V)=Concat(head1,…,
headh)W
(2)
(3)
2.2.2 BiLSTM
在教育技术学主干课程实体的构建中,文字中的内容隐含于上下文间、体现在字与字中的前后关系上。而BiLSTM不仅可以保存短期的输入,对双向的语义关系也能够更好地捕捉。因此该模型以BiLSTM模型作为字处理器,提取单个字的信息以及输入语句内字与字之间的关系。
BiLSTM由前向LSTM和后向LSTM组成用以提取全局的上下文特征[15]。LSTM是一种特殊的循环神经网络,相比于传统的RNN,LSTM神经元结构创新地采用了三个门控制单元,分别为输入门、输出门和遗忘门[16]。
遗忘门决定遗忘神经元中的哪些信息:对前一时刻的隐层状态ht-1与当前时刻的输入词Xt,选择要遗忘的信息,计算方式如公式(4)所示:
ft=σ(Wxfxt+Whfht-1+bf)
(4)
其中,σ为激活函数,Wxf为输入项Xt;Whf为输入项ht-1;Wxf和Whf组成遗忘门的权重矩阵Wf,bf为偏置项。
输入门控制当前信息:通过前一时刻的隐层状态ht-1与当前时刻的输入词Xt,选择要记忆的信息,输出记忆门的值it与临时细胞状态Ct,计算公式如公式(5):
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(5)
其中,Wi为权重矩阵,bi为偏置项。当前时刻单元状态ct,由上一次的输出和当前的输入确定,如公式(6):
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(6)
其中,ct-1为前一个的单元状态,ft为遗忘门。
输出门:决定的输出信息,计算如公式(7):
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(7)
输入门和单元状态确定了长短时记忆神经网络的输出,如公式(8):
ht=ottanh(ct)
(8)
其中,ht表示t时刻的隐藏状态,tanh是正切激活函数。通过三个门的控制,使得LSTM具有长序列特征的记忆功能,同时解决了RNN训练过程中出现的梯度消失和梯度爆炸问题。因此BiLSTM构建模型,并根据文本中词的分布式自动提取特征,生成上下文预测的标签。
2.2.3 CRF
因为BiLSTM的分类方式忽略字符对应得分,会导致预测出非合法实体类型情况,而CRF的作用是对识别结果进行进一步的修正,即提取标签之间的依赖关系,使得识别的实体满足标注规则[16]。其主要的实现方法是给定一个输入序列X=(x1,x2,…,xn),其对应的预测序列为Y=(y1,y2,…,yn),通过计算Y的评分函数,得到预测序列Y产生的概率,最后计算当预测序列产生概率的似然函数为最大时的预测标注序列作为输出[17]。其中预测序列Y的评分函数的计算方法如公式(9)所示:
(9)
其中,X表示转移分数矩阵,Xyi-1,yi表示标签yi-1到标签yi的分数,Pi,yi表示第i个词映射到标签yi的非归一化概率。该文以Softmax函数来计算教育技术学语料预测序列概率p(Y|X):
(10)
两头取对数得到预测序列的似然函数:
(11)
(12)
实验模型的运行环境为64位Ubuntu18.04操作系统,具有实验的训练环境如表2所示。
表2 实验环境
实验所用的数据集以教育技术学专业课本为例,对文本进行标注,根据教学大纲以及目录,将实体类别分为3种,分别为研究概论、研究方法以及数据分析。
该文采用准确率P、召回率R和F1值3个指标作为评价标准,计算公式如公式(13)~公式(15):
(13)
(14)
(15)
从表3可以看到,文中方法P为81.72%,这是因为教育技术学领域中命名实体词组合比较灵活,相较于CNN-BiLSTM-CRF神经网络模型自动学习实体特征,采用自适应的特征模板从窗口提取的特征往往更有效。R为75.73%,F1值为78.61%,因为文中方法相较于BiFlaG更注重于字符级表示向量与词嵌入向量连接,同时CRF损失函数中转移概率矩阵可学习到很多约束的规则,使预测结果更加准确。文中方法相较于IDCNN[18],能够学习到字级词级的特征,充分考虑到字词在文本不同语境的不同含义,不存在深度神经网络带来的模型有效信息衰减问题。文中方法相较于HIDCNN模型,解决了长距离依赖的问题,不仅保存了模型前后时刻的状态信息,也保存了label之间的相互关系,因此在R值与F1值上高于HIDCNN模型。
表3 命名实体识别实验结果
所采用的基于BERT-BiLSTM-CRF的教育技术学专业术语抽取模型在P、R和F1值3个方面都优于其他模型。
如表4所示,仅使用BERT模型时分类精度较低,因为只通过迁移学习了通用领域的词语信息,在加入了BiLSTM训练本文的教育技术学命名实体识别数据集后,P、R、F1值均有提高。原因有二,第一是因为文中教育技术学命名实体识别的有效性,第二是BiLSTM-CRF通过获取词语前后的信息融入词语的上下文信息,可以清楚地区分语料库中的多义词。经过CRF再次修正后,通过大规模语料的预训练,可以有效提高教育技术学领域命名实体的识别精度。证明了所采用的基于BERT-BiLSTM-CRF的教育技术学专业术语抽取模型的有效性。
表4 实验结果有效性验证
对教育技术学领域命名实体识别进行了研究,设计了一种基于BERT的教育技术学文本命名实体识别方法。首先根据网络资料以及教育技术学主干课程的教材《教育技术学研究方法》完成了教育技术数据准备工作,提出了基于“研究概述”、“研究方法”以及“数据分析”三个大类的教育技术学命名实体识别数据集。然后,根据数据集,知识点跨度大,字与字之间联系紧密等特点,设计适用于文中的BERT-BiLSTM-CRF模型,完成对文本数据字级别的抽取,充分学习上下文的特征并且能提取出全局最优标注序列,最终得到教育技术学主干课程实体。在实验中进行了验证,为教育技术学主干课程知识图谱的构建提供了技术支撑。