徐琳宏 丁堃 林原 杨阳
摘 要:[目的/意义]引文情感分析揭示施引文献对被引文献的褒义、贬义和中性的情感倾向性,解析文献之间深层语义关系,能够帮助更加准确地评价被引文献和作者。[方法/过程]以自然语言处理领域文献的引文情感为数据集,利用引文中情感表达的引文标识位置指引和情感词汇等特征,采用支持向量机(SVM)构建引文情感的自动识别系统,探索生成更大规模数据的方法。[结果/结论]实践应用证明,该系统特征的区分度较强,准确率达到93.4%,识别效果较好。引文情感的自动识别系统实用价值较强,拓宽了引文网络分析的研究方法和内容,能够完善论文评价体系。
关键词:机器学习;引文情感分析;自动识别系统;支持向量机;自然语言处理;情感分析
DOI:10.3969/j.issn.1008-0821.2020.01.004
〔中图分类号〕TP312 〔文献标识码〕A 〔文章编号〕1008-0821(2020)01-0035-06
Citation Sentiment Identification Based on Machine Learning
——Natural Language Processing as an Example
Xu Linhong1,2 Ding Kun1 Lin Yuan1 Yang Yang1
(1.Institute of Science and Management of Science and Technology and WISE Laboratory,
Dalian University of Technology,Dalian 116024,China;
2.Research Center for Language Intelligence,Dalian University of Foreign Languages,Dalian 116044,China)
Abstract:[Purpose/Significance]Citation affective analysis reveals the positive,negative and neutral emotional tendencies of citation documents,which includes the deep semantic relationship between them and helps evaluate the cited documents and authors more accurately.[Method/Process]This paper took the citation sentiment of the literature in the field of natural language processing as the dataset and analysed the characteristics of citation mark location guidance and emotional vocabulary of emotional expression in citation and constructd an automatic recognition model of citation emotion by using support vector machine(SVM)to explore the method of generating larger-scale data.[Result/Conclusion]The practical application proved that the classification features were highly differentiated,F1 value was 5% higher than the original model,and the recognition effect was better.The characteristics of citation sentiment enriched citation network analysis and can improve the paper evaluation system.Automatic recognition model can improve the recognition effect of citation sentiment classification and has high practical value.
Key words:machine learning;citation sentiment analysis;automatic recognition system;support vector machine;natural language processing;sentiment analysis
學术论文作为科学研究活动的主要产出形式,是我们度量科学贡献的最有效的载体。因此,如何评价论文的影响力一直受到了科技界和社会各界的广泛关注。在依据引用频次衡量论文质量的评价体系中,通常认为被引文献对施引文献的影响程度相同,没有考虑一篇论文中的引用次数、引用的倾向性和引用位置。这样的计量方式比较简单,掩盖了论文之间的差异,缺乏对引用极性和强度的分析。因此,简单的被引频次不能准确地衡量学术影响力的高低,需要更加全面地分析引文的内容。引文情感分析是指分析论文中施引文献对被引文献褒义、贬义和中性的情感倾向性,它能通过抽取引文中包含的显示和隐式的情感信息,解析文献之间深层语义关系,分析作者对被引文献的态度,从而更客观地评价被引文献的影响力。
虽然引文的情感能细致地区分引文的性质,与单纯依靠频次相比能更加准确地评估论文的质量,但是随着出版物数量的不断增加,人工区分每条引文情感需要耗费巨大的人力资源,困难重重。为了解决人工标注耗时费力的问题,本文采用人工智能辅助的方式,选取合适的特征,依靠机器学习算法自动实现引文的情感分类,这样只需少量的引文情感样本,就能建立起相对高效的自动识别系统。接下来的内容安排如下:第二节介绍了国内外引文情感分析的研究进展,第三节构建引文情感的自动识别模型,第四节报告了应用的案例及效果,第五节给出了研究的结论和未来的改进方向。
1 研究进展
引文情感分析能够在全文语义分析和理解的基础上解决引用的同一化问题,矫正单纯引用频次分析带来的偏差,是引文内容分析的重要组成部分。相关的研究工作主要分为两部分:一方面是引文情感分析在学科评价中的应用;另一方面通过机器学习模型自动识别引文中的情感,两者互为补充。因此,下面分别从引文情感分析的应用及自动识别两个方面介绍相关的研究工作。
引文情感分析是引文内容分析的热门研究领域,早在1982年,Small H[1]就将引文内容定义为“Citation Context”,指的是文献正文中在参考文献标签周围的文本内容。2006年,Teufel S等通过设置文本窗口的方式调整引用内容的大小[2]。Abujbara A等进一步将引文分为显式和隐式两类,认为包含特定引文标记的句子称为引文句或显式引文上下文,其他形式为隐式引文上下文[3]。徐健等研究表明有96%的被引片段少于3句[4]。近几年引文情感分析在很多方面都有广泛的应用,2011年,Small H利用共被引的引用内容进行了情感分析[5]。2014年,Sula C A分析情感倾向的表述规律,认为引文功能的分类可以与情感倾向对应[6]。2015年,Christian C等关注负向引用的作用,发现了负向引用与高质量文献之间的关系[7]。2017年,尹莉引入“极性”概念,将引用内容分为正、负和零3类,并分析引用发生的语境,指出引用的位置与论文的一般结构有关[8]。Yousif A等综述了最近几年英文引文情感分析方面的工作[9]。2018年,迟玉琢等尝试创建一套引用内容分析框架,并选择32篇英文文献样本进行了实证分析[10]。刘盛博等提出引文评价的3个指标,其中引文情感分为正面引用、负面引用和中立引用[11]。
除了上述分析引文情感特点的文献,近几年也出现一些引文情感自动识别的研究。2006年,Teufel S等[2]对引用内容进行情感分类,构建引用功能的自动识别系统。2011年,Awais A等选择Ngram、否定窗口和依赖关系等特征利用SVM和朴素贝叶斯等机器学习算法实现引文情感自动识别[12-13]。2013年,Bei Yu分析了人工引文情感分析与自动引文情感识别的不同[14]。2014年,Wan X等分析引文的重要性,模型在SVM分类器中融入引用次数、引用位置、引文与被引文时间差、引用句平均长度、引用句平均密度、是否为自我引用等特征[15]。Jochim C等采用领域自适应的方法,在产品评论数据集上训练,将模型迁移到引文极性分类[16]。2016年,Ma Z等选择极性分布、作者单位、作者名和P-index 4个特征,利用SVM进行引文极性分类,扩展H指数和作者声誉度研究[17]。Munkhdalai T等人采用包含多层Attention的双向LSTM的方法分别对引文的功能和情感分类[18]。Hernández-Alvarez M等在自建的25篇论文中自动分析引文的重要性[19]。中文方面,2012年,许德山[20]利用引文上下文信息进行引用的观点倾向性识别。2018年,迟玉琢等提出了引用内容分析的框架包括引用功能、引用数据类型和引用强度等属性[10]。廖君华等从PubMed中获取全文,利用TF-IDF算法筛选出引用情感特征词,展示引用情感的整体分布情况[21]。国外引文情感分析的研究开展的较早,而国内相关研究开展的较晚,尤其是自动识别方面,还处于起步阶段。
2 引文情感自动识别系统的设计与实现
引文情感自动识别功能就是将少量的引文情感通过人工标注,作为系统的原始语料,利用机器学习的算法,自动产生更大规模的数据,为引文情感分析提供语料支撑。这种方法解决人工标注耗时费力的问题,只需少量的引文情感样本,就能建立起相对有效的模型,为引文情感分析向更多领域推广提供了有利的技术支持。
2.1 数据准备
无论是引文情感的分析还是自动识别,都是以带标注的数据集为基础的。标注质量越好,规模越大,数据分析的准确性越高。但引文的情感信息与引文网络的数据不同,前者不能通过网络直接下载得到,需要先制定规范的标注准则,经过多轮的人工标注才能完成,耗时费力。目前国内外引文情感标注的数据较少,本文选择Awais的数据集作为引文情感分析的研究对象。Awais数据集中的引文来源于ACL Anthology NetWork(AAN)[22]。AAN论文集收录了计算语言学领域历年的多个国际顶级会议的论文,包括ACL、EMNLP和COLING等。该数据手工标注了每个引用句的情感、重要性和引文上下文,共8 736条引文信息。
2.2 实体及特征抽取
引文情感包含对谁发出情感和情感类型两部分,实体抽取就是識别引文情感的受体,即被引文献。而特征抽取是选取有效的特性帮助系统甄别情感的类型,褒义、贬义还是中性。两部分的信息抽取互相依赖,互为补充。
2.2.1 实体抽取
实体抽取就是找出一段引文中的被引文献,在一段引文中被引文献通常具有一定的习惯写法和特点,称为引文标识。引文标识有多种表现形式,有的使用作者名,有的使用作者名和发表年份,还有的使用参考文献列表中的数字等。在ANN的数据集中,一般采用作者名和发表年份的方式,例如“McKeown(2000)”或者“(Jing and McKeown,2000)”等。本文的引用标识采用以上多种形式的复合,即任意一种存在都被识别为引用标识,识别出的引文标识统一用“〈CIT〉”标签替换和表示。确定引文标识的位置,对后续系统的情感识别作用较大,可以使学习算法特别关注引文标识前后的单词,增加这些单词的权重。
2.2.2 特征抽取
1)引文Ngram值和引文依赖关系
引文的Ngram值是指将整个引文段落中的词汇按Ngram进行划分,切分出多个单词片段,计算每个片段在语料中Ngram值。引文依赖关系是利用斯坦福依存分析器[23],分析引文语句中的依存关系,最后采用关系—词对的方式标识,再计算各关系—词对在语料中出现的Tf*idf值。这两个特征都是沿用Awais文本情感分类模型[13]中提供的方法。
2)引文标识位置指示
引文标识位置指示的特征就是加大引文标识(用“〈CIT〉”表示)周围词汇的权重,因为引文一般是一句或者几句话组成的段落,与引文标识越近的词汇则和被引文献越相关,也就越可能是施引文献表达对被引文献情感的词汇。需要指出的是引文标识周围的词汇并不是指在原始引文中“〈CIT〉”前后的单词,而是选择在依存分析树中与引文标识直接相邻的节点。
3)引文情感词汇
情感词汇通常是表达情感的重要方式,是机器识别情感类型的重要依据。引文的情感倾向性虽然有科技论文本身独有的特点,但很多也是通过情感词汇体现的。引文情感词汇特征就是提取原始引文中包含的情感词汇,在依存分析树中找到该情感词汇修饰的目标词,最后将包含情感词汇的关系—词对作为特征值。
抽取引文中的情感词汇需要用到专业的情感词典。英文方面的情感詞典比较多,主要的情感词典有普林斯顿大学的SentiWordNet情感词典[24]、GI(The General Inquirer)词典[25]、LIWC(Linguistic Inquiry and Word Count)词典[26]、MPQA词典[27]和伊利诺伊大学的Bing Liu提供的情感词典[28]。这些词典基本都给出了每个词条的词性和褒贬含义等,只是数量上有所差别。本文使用的情感词汇表是Srijan Kumar[29]从引文数据中抽取的,贬义词汇4924个,褒义词汇2 789个,标注的词汇情感倾向性比较适合科技论文的引文情感分析。
2.3 自动识别模型
将提取出的实体和特征与机器学习算法融合,通过人工标注的少量引文情感信息,使用机器学习的方法,训练模型,从而完成大规模引文情感倾向性的自动识别系统。为了能够完成引文情感的自动标注,本文构建了如图1所示的整体功能框架图。
第一步将原始的引文信息经过分词、去噪等处理后,采用正则表达式匹配的方式标识出引文中被引文献的位置。第二步提取分类特征,将一部分数据作为训练集融入SVM和卷积神经网络等机器学习算法中,开始模型训练。第三步将测试集中的数据装填到模型中,进行自动识别,最后评估算法及特征的有效性。训练出的模型是否有效,主要依赖于选取的特征和机器学习算法,本文采用的分类模型是支持向量机(Support Vector Machine,SVM)[30],它是机器学习领域一个有监督的学习算法,通常在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。
支持向量机是一种基于统计的学习方法,它是由Vapnik V[31]于1995年首次提出的。该方法是进行二元分类的广义线性分类器,它的主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的间隔边缘被最大化,其理论基础是统计学习理论。对于二维数据来说,支持向量就是分布在两条分割线上的点。当有少数样本点存在于最大间隔之间,则成为噪音数据,需引入惩罚参数。
对于线性可分的分类问题,求最优分类超平面的问题即求:
其中,{x1,x2,…,xn}∈X为数据集,yi∈Y∈{-1,1}为xi的类标记。对于线性不可分的问题,SVM通过核函数映射的方法解决,将二维数据映射到高维空间,常用的核函数包括多项式核(Polynomial Kernel)、高斯径向基函数核(RBF Kernel)、线性核(Linear Kernel)和Sigmoid核(Sigmoid Kernel)。通过核函数,可以将非线性可分的数据转换为线性可分数据,它的选择一般和具体的应用相关,在不同的领域应用核函数可能也不相同,一般来说高斯径向基函数核应用的范围更广。
SVM不仅可以用于二分类,也可以用于多分类问题,如本文的引文极性分类,就是一个典型的三分类问题。它用于多分类是主要有两种实现方法:一是直接修改目标函数,一次性实现多分类。这种方法计算复杂度比较高,只适合小样本的数据集。二是组合多个二分类器来实现多分类器的构造,采用这种方法的比较多。SVM方法具有完善的理论基础,在少量样本时能够获得较好的分类效果,分类速度较快,且没有分类重叠和不可分类现象。本文的引文情感分类是一个典型的三分类问题,从类别上看,中性类别数据较多,褒义和贬义数据较少,有明显的不平衡特性。同时,引文情感数据需要人工标注获得,一般数据规模较少,综合以上实际问题,SVM模型更适合该类型的分类工作。
3 案例及效果分析
目前,本文将引文情感自动识别系统应用于自然语言处理领域,选择该领域是因为它既与目前的大数据等许多研究热点密切相关,同时也是人工智能方向一个重要的分支,具有较高的应用价值和广泛的应用前景。
3.1 数据预处理
本文选择Awais的数据集作为引文情感分析的研究对象,该数据手工标注了计算语言学方向194篇顶级会议论文的被引信息,包括每个引用句的情感和引文上下文等,共8 736条引文信息。原始数据如图2所示。
由图2可见,数据集中给出了施引文献、被引文献、情感极性和引文原文,在此基础上想完成引文情感的自动分类还需要进一步做数据的预处理。本文主要的数据预处理工作有解析论文信息、识别引文标识、获取引文中词汇的依赖关系、词性标注和识别情感词汇及极性。Awais的数据集只给出了被引文献的ID,如果想在引文中解析出被引文献的位置,需要提取被引文献的作者和年份等信息。因此,我们首先从网上下载了包含被引文献信息的XML文件,使用XML解析器解析出文献的编号、所有作者和年份。然后通过正则表示的方式分级匹配被引文献标识,优先查找是否有作者名和年份都匹配的标识,如果不存在则继续查找存在仅作者名匹配的标识。需要说明的是作者名的使用包括3种情况,先用第一作者和第二作者名匹配,然后再用第一作者名单独匹配,最后再用其他作者名顺序匹配,这样可以最大限度地找到所有的被引文献标识。词法和句法分析方面,本文采用斯坦福的语法分析器[23]完成引文中的依赖关系和词性标注,并将依赖关系树中距离引文标识结点较近的依赖关系权重。取引文中词性标注后的形容词、名词、动词和副词与情感词汇表中的词汇匹配,获取情感极性信息。
3.2 参数设置及结果分析
我们使用WEKA软件包中的LibSvm分类,参数Cost设置为1 000,采取10倍交叉验证的方式,即将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。最后,评估方法选择分类中准确率和召回率的综合指标F1值,评估褒义、贬义和中性的分类质量。
特征是一个分类模型重要的知识来源,特征的好坏直接影响系统的分类效果。在引文情感分类的系统中,本文分别选取了引文Ngram值(Ngram),引文依赖关系(Dependency),引文标识位置指示(Identification),引文情感词汇(SentimentWords)4个特征。为了全面客观地衡量识别结果,我们采用综合准确率和召回率的F1值作为评估指标。融合4个特征的系统情感分类的F1值达到81%,比Awais系统的F1值提高了5%,其中中性引用的识别准确度高达97%。
同时,为了验证这4个特性各自的作用,我们还采用依次逐步添加的方法,添加引文标识位置指示后,总体的F1值增加了5%,尤其是褒义的F1值提高了13%,提升幅度较大。说明与引文标识临近的词汇比距离较远的词汇更可能体现引文的情感,应加大关注的权重。從总的实验结果来看,这套自动识别引文情感的系统,其区分度较强,分类性能较好,能够满足特定领域引文情感自动分析的功能,基本可以达到实际使用的标准。
4 结 语
引文情感分析在诸多研究领域有广泛的应用,尤其在对科技论文的评价和检索方面,具有较高的应用价值和广阔的前景。为了探索大规模引用情感数据的生成方法,本文在分析引文情感特征的基础上,尝试构建一个引文情感自动识别的模型,为更准确地揭示引文情感的特点和作用提供数据支撑。采用SVM等机器学习方法,在自动鉴别引文的情感倾向性中取得了较好的效果,F1值达到81%,准确率达到93.4%,能够满足引文情感分析的基本需求。
引文情感分析从引文内容分析的角度,尝试解决引文的同一化问题,是对传统引文分析和现有的科技论文评价方法的扩展。从目前文献的规模和增长速度看,单靠人工完成难以处理,因此本文设计了自动识别引文情感的系统。但系统还需要尝试应用在更多研究领域,进一步提高系统的准确率和鲁棒性。下一步计划利用更多的自然语言处理的技术手段和机器学习算法,通过深入交叉研究更好地处理文献数据,提高引文情感分析的效果,为情感分析的指标用于学术论文评价打下坚实的基础,最终将引文情感分析实际应用于特定领域的科技管理和科技评价工作中。
参考文献
[1]Small H.Citation Context Analysis[J].Progress in Conununication Sciences,1982,(3):287-310.
[2]Teufel S,Siddharthan A,Athar D.Automatic Classification of Citation Function[C]//Proceedings of the 2006 Conference on EmPirical Methods in Natural Language Processing.Sydney:Association for Computational Linguistics,2006:103-110.
[3]Abujbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2013:596-606.
[4]徐健,李纲,毛进,等.文献被引片段特征分析与识别研究[J].数据分析与知识发现,2017,1(11):37-4.
[5]Small H.Interpreting Maps of Science Using Citation Context Sentiments:A Preliminary Investigation[J].Scientometrics,2011,87 (2):373-388.
[6]Sula C A,Miller M.Citations,Contexts,and Humanistic Discourse:Toward Automatic Extraction and Classification[J].Literary and Linguistic Computing,2014,29(3):452-464.
[7]Christian C,Nicola Lacetera,Alexander Oettl.The Incidence and Role of Negative Citations in Science[J].PNAS,2015,112(45):13823-13826.
[8]尹莉.“极性”概念在引文分析中应用的一个实证研究[J].情报杂志,2017,36 (8):124-143.
[9]Yousif A,Niu Z,Tarus J K,et al.A Survey on Sentiment Analysis of Scientific Citations[J].Artificial Intelligence Review,2017:1-34.
[10]迟玉琢,王延飞.面向科学数据管理的科学数据引用内容分析框架[J].情报学报,2018,(1):43-51.