柔 特,才让加
(1. 青海师范大学 计算机学院,青海 西宁 810016;2.青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008)
藏文信息处理从20世纪90年代开始对字、词处理进行了大量的研究,到2000年左右对词频、词性、词类、词义等研究都取得了较好的成果[1-2]。从2010年开始对藏文句子结构[3-6]、句子边界识别[7-8]、句子对齐[9-10]、句子相似度[11-12]等方面进行了卓有成效的研究工作。近年来,藏文信息处理从句法研究提升到了句义研究,而以机器理解为中心的研究趋势日益突出。为了满足藏文句子在语义分析和不同自然语言处理任务中的需求,藏文句子需要进行进一步的细化研究。因此,藏文句子用途分类研究有着极其重要的价值。
在传统语言学中,句类是按语气划分的[13]。在英文和汉文中,根据不同的语调可以将句子分为陈述句、疑问句、祈使句、感叹句。但对藏文而言,句子的各种分类在传统文法和现代藏文信息处理工作中一直是一个薄弱的环节,没有受到足够的重视。
随着语言学的发展,现代藏语也借鉴了英汉句类分析中按语气划分的方法[14],但是语气特征在藏文自然语言处理中的句子分析和文本分析中难以得到充分的应用。英文和汉文在自然语言处理中可以用句号、问号、感叹号等标点符号来表示不同的句类,而这些标点符号有助于机器识别不同的句类。然而,藏文的句尾没有特殊的符号来帮助识别句子类型。因此,藏文句子需要引入一种新的分类依据,使之满足藏语自然语言处理中句法分析和句义研究的需要。到目前为止,藏文句类的用途自动分类及识别问题很少受到关注,因为英汉两种语言可通过简单的标点符号识别句类,而藏文因它独有的语言特性而无法自动识别句类。藏文句类分类与文本分类[15-19]、情感分类[20-24]、问题分类[25-26]等分析方法各异。句子分类以语境所属为核心,而其他则是以语义关联为中心,虽然这两者研究内容有差异,但分类方法上可以相互借鉴。
本文提出了语境和功能特征词相融合的语义信息分类依据,采用循环卷积神经网络模型来分类不同藏文句子的用途,同时对比了多种分类模型。最终发现循环卷积神经网络模型优胜于其他分类方法。实验表明,该模型中藏文句类识别准确率较高,比传统机器学习模型和独立神经网络分类模型识别结果更为突出。这一研究为将来藏文句子的语义解析、复述句生成,以及不同句类之间的内部类型转换等研究做出了较大的贡献。
自然语言处理中表达意思的最小使用单位是句子,句子组成段落,段落组成文章。所以,句法分析和句义研究在信息处理中至关重要。本节主要介绍藏文句子的概念和分类,并进行了特征分析。
(1) 句子的基本概念
(2) 藏文句子分类
从语言学角度分析,句子一般按语气、结构、特征、语义来划分,对应的分别为句类、句型、句式和句义。
句类是语言学家根据句子的语气划分出来的一种类型,有一定的语调表示,由上升、平直、下降、强烈或委婉的语气[27]。本文则以语境和功能特征词为依据对藏文句类或句子用途进行分类。按语气划分的方法很难应用于藏文自然语言处理研究,但类别数量和名称与传统分类一致,分别为陈述句、疑问句、祈使句、感叹句四类。
(1) 疑问句及其功能特征
从藏文信息处理角度分析,疑问句研究等同于问答系统,表达问与答的互动,最基本的用途是通过提问来寻求答案,提出问题的方式不同,所使用的功能虚词也不同,同时所传递的语用信息也不同。 以上功能特征对问答系统中机器如何理解针对人、事物、时间、地点、原因等言语行为可以提供帮助。
(2) 祈使句及其功能特征
从藏文信息处理角度分析,祈使句目前在藏文信息处理中没有发现对应的研究任务。它主要应用于表达命令、请求、劝告、警告、禁止等语境中。
(3) 感叹句及其功能特征
从藏文信息处理角度分析,感叹句倾向于情感分析,情感是人对客观事物是否满足其需要而产生的一种态度或评价。目前藏文情感分析只是在舆论评价任务上有所研究。
(4) 陈述句及其功能特征
从藏文信息处理角度分析,陈述句已成为藏文信息处理中的主要研究对象。目前,句子成分分析、句子结构分析、句子相似度计算、依存句法树,还有机器理解层面的句子压缩、句子融合、句子复述等研究领域都有研究成果。陈述句和疑问句在日常生活中使用频率最高,因此它们是自然语言处理中研究最多的对象。
本文提出相应的解决对策把语境和特征合为一体,选用循环卷积神经网络模型来识别不同的藏文句类任务。该方法是双向长短期记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)和卷积神经网络(Convolutional Neural Networks,CNN)组合而成的一种模型[28-29]。在自然语言处理中,前者具有一定的语境分析能力,而后者的分类能力较强。因此,该模型符合藏文句子用途分类的识别需求。
图1 循环卷积神经网络模型
该模型融合BiLSTM和CNN后实现藏文句类识别任务,模型在一个包括有前向、后向的双向LSTM上增加了每个词的卷积,最后用最大池化层后yi作为句子分类结果输出。
图1中,每个藏文词向量用e(w1,w2,…,wi) 表示,词向量的预训练我们使用了Skip-gram模型。
hr(wi)=f(w(r)hr(wi +1)+ws re(wi +1))
(1)
hl(wi)=f(w(l)hl(wi +1)+ws le(wi +1))
(2)
如式(1)、式(2)所示,f(·)代表一个非线性的激活函数,hl融合了当前单词前面的单词信息,hr融合了当前单词后面的信息,由于每一个xi都是由这种编码方式得来的,可以将尽可能远的上下文信息融合到一起,这样可以进行长距离依赖的预测。如式(3)~(5)所示。
(6)
最后输出的yi是藏文句类分类结果,i含4个不同的句子种类标签。
用RNN进行句子分类,相当于把每个词作为一个时间节点,把词向量作为每个单元的输入特征,一般会组合前向及后向来构成双向特征,计算后每个单元有一个状态特征以及一个输出特征,句子分类一般组合每一个单元的输出特征,求平均后输入全连接层来做分类。CNN原本就用来做分类任务,但是CNN某一层中的卷积核固定,每一个词的context比较局限。这里先用RNN将一个词的周围的所有信息都作为context,期望对这个词有一个更加精确的表达。因此,本研究主要融合了RNN和CNN的优点,又提升了藏文句类准确率。
我们把整个藏文句类识别问题拆分成数据预处理、特征提取和分类三个部分。其中,预处理阶段是一个比较关键的过程,因为输入决定了输出结果;而预处理又分为数据准备、词向量计算、参数设置。后两个任务机器可以自动学习。
(1) 数据准备
首先利用爬虫工具对藏文网站进行数据采集整理、标注数据标签,本实验总共建立了58 552个简单句作为训练数据集。本实验分类任务共有4种标签,分别为陈述句、疑问句、祈使句、感叹句。其中陈述句占46%,疑问句占35%,祈使句占10%,感叹句占9%,平均句长为15个单词。数据中没有去除藏文停用词,因为该任务中频率高的词或功能特征虚词相对语境贡献较大。
(2) 词向量计算
实验中使用的数据集相对较小,所以应用了预训练藏文词向量。为了构建预训练词向量,收集了大量藏文电子文本和网络数据作为词向量来源。其次,CBOW及Skip-gram和FastText三个模型对比后发现,因为数据较小,所以Skip-gram相对优越。下面实验中将Skip-gram预训练得到的词向量作为输入数据。
(3) 参数设置
神经网路模型中根据数据大小、不同语言特性和任务等原因设置的超参也不一样。我们前后多次调试,最后将主要的参数统一设置如下:
词向量维数为200,窗口大小为5。6种不同深层机器学习的分类模型中参数设置为: 隐藏层为2,隐藏层单元的数量为200。 我们尝试了不同的dropout,最优为0.8,学习率为0.005。滤波器设置为(3,4,5),每个滤波器对藏文句子矩阵做卷积运算,得到不同的特征词典,然后对每个特征词典做最大值池化,只记录每个特征词的最大值。
目前藏文句类分析中尚未发现藏文句类识别相关的研究报道,更没有适合的基准(Baselines)来对比本实验结果。因此,藏文句类识别任务中本实验利用浅层机器学习的几种经典模型作为对比基线,同时对比了循环卷积神经网络为主的6种模型,经测试后识别结果如下。
表1中对比两组模型,包括传统模型和近年比较流行的神经网络模型。本文针对藏文简单句型,没有很长的句子,所以LSTM或GRU 结果不突出。汉语的表达依赖于词汇前后顺序关系,藏语中虚词作为实词间的语义粘合剂,对序列的依赖性较小。最终9种模型中RCNN相对优胜于其他模型,后6种模型的参数都一样。其中,RNN 和CNN独立模型与RCNN比较结果提升不多,但最后实验结果表明,RCNN在藏文句类分析数据集上有良好的性能表现。
表1 各种模型对比效果
藏文句子分类是藏文句法分析和句义分析的基础工作。本方法较全面地学习了整句的语境信息和每个句子的特征信息,又结合使用最大池化层来自动判断哪些词在语境中起到关键性作用。表2展示RCNN模型中每个不同句类的准确率(Precision,P),召回率(Recall,R),F值(F-Measure)等效果,最后结果平均值为85.61%、86.54%、85.59%。
表2 RCNN模型句类识别结果
(1) 藏文句类识别能力分析
(2) 语义消歧能力分析
藏文句子用途分类或识别时,类与类之间的语义可以相同,但语境不同,所以句类任务与文本分类、问题分类和情感分析等是不同的研究内容。另外,句类和句型是两个不同的概念,同一个句型可以有不同的句类,同一个句类也可以有不同的句型。换言之,根据传统文法分析,按语气划分得到的类型称为句类;而从结构上对句子划分得到的类型则称为句型。句类和句型是从不同角度对句子进行划分的结果,一个句子可兼属这两种不同的性质。
句类是传统文法中使用语气来划分句子分类的一种方式,此方法主要依据语调进行句子分类,因此这种分类方法在藏文自然语言处理中难以应用。本研究主要通过语境和功能特征划分藏文句类, 且此划分方法有助于藏文自然语言处理。本实验在藏文句类识别任务中通过比较多种分类模型,其中RCNN在藏文句类识别任务上获得了很好的效果,因为这种分类方法既符合传统语言学又适用于自然语言理解研究,同时又有利于句法和句义的深度分析。此研究成果为以后的句法分析、句义分析、复述句生成及机器理解研究打下了基础,为藏文自然语言理解和自然语言生成提供了帮助。