基于Python的应用语言学学术论文英文摘要情感分析

2022-05-30 09:32张天赐秦学锋
大学·教学与教育 2022年8期
关键词:应用语言学情感分析学术论文

张天赐 秦学锋

摘  要:近年来摘要已成为学术论文写作的研究热点,但对摘要的情感分析研究甚少。本文利用Python情感分析工具包,对中外应用语言学学术期刊中的60篇英文摘要进行情感分析。研究结果显示,中外作者撰写的英文摘要情感特征总体都呈现积极特征,且都带有一定的主观色彩,积极语篇数量均占主导;情感特征范围国外大于国内;在情感特征上没有显著性差异。研究结果对于研究者了解英文摘要情感特征,撰写规范的英文摘要有一定的启示和帮助。

关键词:Python;应用语言学;学术论文;英文摘要;情感分析

中图分类号:H315    文献标识码:A    文章编号:1673-7164(2022)23-0124-04

学术论文写作近年来成为关注和研究的热点[1],尤其是摘要的分析越来越受到应用语言学家的关注[2]。摘要是学术论文的缩影[3-4]。它关系到论文能否得到发表及检索;也是大多数读者能够阅读到的部分[4-5]。英文摘要是国际之间学术交流与合作的桥梁和媒介,其质量直接影响到读者对论文的进一步阅读以及国际学术的交流[6-7]。为与国际接轨,国内大多数学术期刊要求论文附英文摘要[4,6]。但张春芳指出国内学术期刊中的英文摘要绝大多数质量粗糙,与国际水平差距甚远[4]。彭桃英和许宇鹏也指出我国核心期刊的英文摘要质量更是堪忧[1]。因此,为促进英文摘要写作规范化,许多学者对英文摘要进行了大量研究,并获得了丰硕的成果。然而,对近几年英文摘要研究成果进行梳理后,发现对英文摘要情感分析的相关研究很少[8-9]。基于此,本文利用Python对中外应用语言学学术期刊英文摘要进行情感分析,以期为研究者了解英文摘要的情感特征,撰写规范的英文摘要提供帮助。

一、文献回顾

为促进英文摘要写作的规范化,一些学者对我国期刊论文的英文摘要进行了质量评估调查研究,寻找影响质量的原因。张春芳、何晓琦等研究发现,我国期刊论文中的英文摘要主要存在写作规范、体裁结构要素不全和语步混乱以及语言运用等方面的问题[4,10]。

针对这些影响我国期刊论文英文摘要质量的错误因素,学者们对其进行了深入的分析研究。如体裁结构问题,赵永青和刘兆浩认为这是国内体裁分析研究数量较少,作者们对学术语篇体裁的认识不够导致的[2]。因此,为使人们对摘要的体裁结构有一个宏观的把握,鞠玉梅比较分析了应用语言学领域中英汉学术论文摘要的宏观语篇结构[3]。为进一步弥补学科间摘要体裁分析的不足,葛冬梅和杨瑞英对电气与电子工程、金融学和外科医学三个学科的学术论文英文摘要进行了体裁分析。研究结果显示,无论是不同语言之间还是不同学科之间,作者撰写的英文摘要基本与Swales提出的学术语篇摘要IMRD语步结构相一致,即引言(Introduction)、方法(Method)、结果(Result)、讨论(Discussion)[5]。而在写作规范、语言运用等问题上,学者们主要从文体学和语用学等视角来探讨英文摘要的文体特征及语用特点[4]。文体学角度的研究中,沈育英指出:“用词准确精练、句法结构规范、篇章结构紧凑完整、语体正式是科技论文英文摘要的文体特征。”[11]语用学角度的研究中,秦永丽和于强福研究发现,国内作者的期刊英文摘要中模糊限制语的使用频率低于国外作者,且种类比较单一,缺少变化[12-13]。

对这些英文摘要研究成果进行梳理可以发现,研究主要基于ESP学派体裁理论,以语料库为研究工具,体裁教学法为研究热点[9]。研究内容主要以促进英文摘要写作规范化为目的,从文体、语篇和语用视角探讨英文摘要,并提供了建议。然而,通过对国内外相关文献的检索,发现对英文摘要情感分析的相关研究很少[8]。情感分析,又称意见挖掘,是自然语言处理领域中一项最常见的应用[14]。其主要运用各种情感分析工具包或情感词表等,从文本数据中获取相关的情感统计值和特征值[15],并对带有情感色彩的主观性文本进行分析、处理、归纳和推理[14-16],进而对带有情感色彩的文本进行分析判断,以确定该文本的情感倾向。目前,情感分析主要依靠机器学习技术手段来实现[14]。机器学习方法主要应用机器学习模型,可分为无监督和有监督的学习方法[8,14]。经过张璐、赵妍妍等对国内外学者在情感分析领域里的研究总结[14,16],可以确定有监督的机器学习准确率高于无监督的机器学习,且有监督的机器学习是目前国际上使用较多的情感分析技术手段。

情感分析已成为各个领域的研究热点,但在应用语言学领域还处于萌芽阶段[8]。学术论文写作作为应用语言学的一个研究分支,是情感分析的新兴领域,目前为止,仅有Cao、Lei和Wen对生物医学和政治学的英文摘要和全文进行了词汇的情感分析[8,17]。他们研究发现,在摘要和全文中积极词汇的使用都比消极词汇更频繁。同时指出英文摘要使用积极词汇的语言手段可以提高研究者论文发表的成功率。由此可见,情感分析为摘要研究开拓了新的研究视角。

二、研究设计

(一)研究问题

国内作者撰写的英文摘要的情感特征是什么?国外作者撰写的英文摘要的情感特征是什么?中外作者撰写的英文摘要的情感特征是否有差异?

(二)语料收集

根据Nwogu提出的语料的代表性、可靠性、可获性原则,本研究选取了国内外两种应用语言学领域内知名度较高的期刊,共选取60篇英文摘要构建两个语料库。两个语料库均由两本期刊从2017年到2021年5年间发表的论文中,每年各随机选取6篇构成。从《中国应用语言学》期刊中随机选取由中国学者撰写的30篇论文英文摘要,构建中国期刊英文摘要语料库(Chinese Journal English Abstracts, 缩写为CJEA)。从International Journal of Applied Linguistics《国际应用语言学杂志》中随机选取国外学者撰写的30篇论文英文摘要,构建国外学者英文摘要語料库(International Journal English Abstracts,缩写为IJEA)。

(三)研究工具

本研究使用的Python版本为3.10,情感分析工具为TextBlob,版本为0.17.1。TextBlob是专门用于英语情感分析的模块,属于有监督的机器学习情感分析工具,是已经训练成型、比较科学完善且准确率较高的情感分析工具包[14-15]。使用TextBlob工具包对摘要进行情感分析后会得到两个情感特征值。其中情感极性(Polarity)越趋向1,表示积极情感越显著,越趋向-1表示消极情感越显著,等于0时为中性;主观性程度(Subjectivity),越趋向1表示主观性越强[15]。

(四)研究过程

研究分为三个步骤:1. 文本预处理,将60篇英文摘要文字内容逐篇提取,并对其进行编号,如CJEA1为CJEA语料库中第1篇英文摘要,IJEA30为IJEA语料库中第30篇英文摘要,每篇都保存为单独的txt文件并以各自摘要编号命名文件;2. 使用Python的TextBlob情感分析工具包对两个语料库的英文摘要进行逐篇分析;3. 数据处理。为保证研究数据及结果的精确性,分析得到的情感特征值保留4位小数。使用SPSS对国内外英文摘要的情感特征值进行独立样本T检验,比较两者在情感特征上是否有差异。

三、研究结果

(一)中外英文摘要情感特征

中外学术期刊60篇英文摘要的情感特征情况如表1所示,国内作者撰写的英文摘要情感极性平均值为0.0766,标准差为0.6341,分布范围在-0.0396~ 0.2000之间,极差为0.2396;主观性程度平均值为0.3230,标准差为0.1082,分布范围在0.1118~0.5292之间,极差为0.4174。国外作者撰写的英文摘要情感极性平均值为0.0947,标准差为0.1021,分布范围在-0.0407~0.3829之间,极差为0.4326;主观性程度平均值为0.3762,标准差为0.1375,分布范围在0.1250~0.7848之间,极差为0.6598。可见,国内外作者撰写的英文摘要情感特征总体均为积极特征,且都带有一定的主观色彩;情感极性和主观性程度分布范围国外都大于国内。

根据表1所示的每篇英文摘要情感极性值的结果,把其分为积极语篇、消极语篇、中性语篇。结果显示,在60篇英文摘要样本中,国内学者撰写的英文摘要积极语篇28篇,多于国外学者的23篇。消极语篇国外5篇,国内1篇;中性语篇国外2篇,国内1篇。消极语篇和中性语篇国外略多于国内,但总体上两个语料库的积极语篇数量均占主导。

(二)中外英文摘要情感特征对比

独立样本T检验结果表明中外作者撰写的英文摘要在情感极性上(n=60, m=0.0857,sd=0.0848)没有统计学意义上的显著性差异[t=-0.821,df=48.464, p=0.416,95%CI=(-0.0621,0.0261)];在主观性程度上(n=60,m=0.3496,sd=0.1256)也没有统计学意义上的显著性差异[t=-1.667,df=58,p=0.101,95%CI=(-0.1172,0.0107)]。由此可见,中外作者撰写的英文摘要在情感特征上没有差异。

四、讨论

(一)研究结果讨论分析

研究发现中外学者撰写的英文摘要情感特征总体都呈现积极特征,积极语篇数量均占主导。这与Cao等人对生物医学和政治学论文英文摘要和全文情感分析的结果相一致[17]。他们认为这种结果现象可归因于以下两点:一是研究人员会选择使用积极词汇等语言技巧让文章更加积极正向;二是积极特征显著的文章更有可能发表。本研究也发现,国内外学者撰写的英文摘要都带有一定的主观色彩。这可能与英文摘要的语步结构有关。应用语言学的论文英文摘要基本遵循IMRD语步结构[3]。在英文摘要的最后一个语步,即讨论语步(Discussion),是研究者对研究进行总结评价等的语步。因此,研究者们在该语步使用情态动词的频率要大于其他语步,并且讨论语步在应用语言学英文摘要中的出现率高达80%。这些原因都会导致英文摘要不同程度的带有作者的主观色彩[3,5,15]

该研究还发现国外作者撰写的英文摘要情感极性和主观性程度范围都大于国内。这可能与国内外作者在撰写英文摘要时使用的语态和人称不同有关。国外的摘要多用主动语态,国内多以被动语态为主导;国外的摘要中第一人称代词的使用比例高于国内,且国内建议把摘要规定为“用无人称句的写法”[18]。使用被动语态和无人称句撰写英文摘要可使其更客观正式[3,5,11]。以上原因可能导致了国内作者撰写英文摘要的情感极性和主观性程度范围小于国外。除此之外,该研究还检验出中外作者撰寫的英文摘要在情感特征上没有显著性差异。研究结果与彭桃英和张春芳、许宇鹏对国内学者撰写的英文摘要“质量堪忧,与国际水平相差甚远”的评价较为不符[4,7]。该结果可能与我国近几年国际地位不断提升,国际学术交流以及合作不断加强,国家对学术国际交流越来越重视,实施了很多战略政策等原因有关[2]。

(二)建议与展望

根据本研究结果,研究者在期刊论文撰写完后,可尝试着将撰写的英文摘要进行情感分析,将数据结果与国外期刊英文摘要情感特征平均值进行比较。并参考Cao[17]提出的积极词汇使用的语言技巧来掌控摘要的积极特征。可以从学习使用模糊限制语[12-13]、摘要的语步,特别是讨论语步中,语态、人称代词的使用[5,11]等方面来掌控英文摘要的主观性程度。通过这些方法可使撰写的英文摘要在情感特征上接近国际期刊水平要求。本研究也有一定的局限性。首先只对中外两个应用语言学期刊论文的60篇英文摘要进行了情感分析,语料来源和语料库规模单一,不够丰富。今后学者可扩大期刊选取范围、学科领域、语言种类和语料库规模来扩展此研究。其次,由于篇幅所限,作者只对情感特征、情感特征语篇分布、情感特征范围和情感特征差异性进行了研究分析。将来研究人员可进一步拓展研究范围,使研究成果更加丰富。

参考文献:

[1] 王丽萍,吴红云,张军. 国际学术英语写作研究(1990 —2015):基于CiteSpace的可視化分析[J]. 外语教学理论与实践,2017(04):57-63.

[2] 赵永青,刘兆浩. 1990—2020国内外体裁分析研究的发展及现状[J]. 外语教学,2021,42(05):7-12+50.

[3] 鞠玉梅. 体裁分析与英汉学术论文摘要语篇[J]. 外语教学,2004(02):32-36.

[4] 张春芳. 功能翻译理论视阈下的学术论文摘要英译研究[D]. 上海:上海外国语大学,2012.

[5] 葛冬梅,杨瑞英. 学术论文摘要的体裁分析[J]. 现代外语,2005(02):138-146+219.

[6] 陆建平. 从学术论文英文摘要语言与编校质量现状看我国“核心期刊”遴选[J]. 浙江大学学报(人文社会科学版),2009,39(04):192-199.

[7] 彭桃英,许宇鹏. 期刊学术论文英文摘要质量控制探讨[J]. 农业图书情报学刊,2011,23(02):178-181.

[8] Lei,L., Liu,D.L.. Conducting Sentiment Analysis[M]. Cambridge:Cambridge University Press,2021.

[9] 徐山燕,姜凌. 体裁理论下国内学术期刊摘要热点研究[J]. 现代交际,2021(19):218-220.

[10] 何晓琦,李文军,肖文科. 学术论文英文摘要常见问题分析[J]. 北京林业大学学报(社会科学版),2004(01):69-71.

[11] 沈育英. 科技论文英文摘要的特点及写作[J]. 中国科技翻译,2001(02):20-22.

[12] 秦永丽. 科技论文英文摘要中的模糊限制语——中美作者使用情况的对比分析[J]. 江苏科技大学学报(社会科学版),2010, 10(02):85-88.

[13] 于强福. 中外材料类期刊论文英文摘要中模糊限制语的对比分析[J]. 华北理工大学学报(社会科学版),2021,21(06):129-135.

[14] 张璐. 从Python情感分析看海外读者对中国译介文学的接受和评价:以《三体》英译本为例[J]. 外语研究,2019,36(04):80-86.

[15] 管新潮. Python语言数据分析[M]. 上海:上海交通大学出版社,2021.

[16] 赵妍妍,秦兵,刘挺. 文本情感分析:10.3724/SP.J.1001.2010.03832[P]. 2010.

[17] Cao,X., Lei,L., Wen,J.. Promoting Science with Linguistic Devices:A Large-scale Study of Positive and Negative Words in Academic Writing[J]. Learned Publishing,2020.

[18] 乔闻钟,陈德刚. 学术论文“摘要”人称之分析[J]. 编辑之友,2008(02):88-89.

(责任编辑:淳洁)

猜你喜欢
应用语言学情感分析学术论文
学术论文征集启示
学术论文征集启事
《发表学术论文“五不准”》通知
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
语料库下的应用语言学学术语篇发展趋势分析
《红楼梦》“宝黛钗”之间称呼语研究综述
应用语言学视角下大学英语教学探究
文本观点挖掘和情感分析的研究