当代语言技术研究前沿与发展趋势*

2015-11-12 01:10张延成
关键词:交叉图谱群体

张延成, 孙 婉

(武汉大学 文学院,湖北 武汉430072)

一、引 言

本文不同于传统的学术研究综述。在传统的学术研究观念中,研究综述的撰写是各研究领域极其重要,且很有难度的工作——一般情况下只有对本领域研究现状非常熟悉,且已在该领域做出开创性成果的学者可以胜任。此外,传统的研究综述撰写受到作者知识结构和主观性的影响,存在对研究领域全貌概括不完整、对学科交叉领域特性描述不确切、对学科研究热点把握不准确等诸多问题。在当今资讯高度流动、学术数据量剧增的情况下,这种影响可能更为严重。然而,随着文献计量学理论和技术的发展,处理学术大数据的可视化方法的逐渐成熟,适时将其理论和方法引入学科研究综述的撰写中,对迅速把握专门领域重要文献、研究组织和地域、研究团队和重要学者、研究热点和趋势、学科交叉与创新等情况等大有裨益。这种做法可以较好地避免传统研究综述机械地按照时间、国内外研究这类低维度写法带来的诸多问题。目前这种文献计量式的综述或研究方式已有相当数量的研究成果,但在语言学研究领域则比较匮乏。本文就是一次尝试。

我们选择“语言技术”为主题。语言技术(Language Technology)按中国科学技术信息研究所的定义:“即自然语言处理技术(Natural language processing,NLP),又称人类语言技术(Human language technology),包括书面语言文本处理(Text processing)和语音、口语处理(Speech processing)两大技术范围。”①参看中国科学技术信息研究所网站:http://www.istic.ac.cn/?TabId=332这个定义的语言技术是狭义的,它广泛运用于教育教学、通信工程、信息管理、科学研究等领域,是当代技术发展的热点之一。广义的语言技术还包含与人类语言和言语研究及应用密切关联的一切技术领域。本文以“language”和(and)“technology”为主题词在SCI、SSCI、A&HCI网络数据库“Web of Science”中检索,所得结果基本涵盖以上狭义和广义的“语言技术”研究的文献。我们试图以这种宽泛的主题词检索方式,通过文献计量方法考察“语言”和“技术”关联或交叉的研究前沿、热点与趋势,以作为语言学研究及相关领域科技情报综合利用的参考。

二、研究方法的说明

本文基于可视化理论基础,拟借助信息可视化软件,使用可视化建模分析方法,包括共引分析、共词分析、信息可视化等方法,绘制语言技术研究领域的文献共引网络图谱、关键词演进图谱等,直观地展示并分析语言技术研究核心文献、领域交叉性、研究群体以及研究前沿及发展趋势。

Citespace是一款优秀的可视化软件,可将引文分析、聚类分析、网络分析等在知识单元分析的基础上结合并集成起来,并融入数据挖掘、计算机图形学、图像技术、智能技术及相关先进算法等手段与方法,进行跨学科的综合创新,从而形成适于多元、分时、动态网络分析的新一代可视化技术,可以作为基于知识单元分析的知识计量学普遍应用的新工具。本文数据均用2013年6月更新的CitespaceⅢ3.6.R2 (64-bit)版本统计。①吕一博,康宇航.基于共现分析的科技监测地图绘制及实证研究[J].科学学研究,2010,(10).

数据源是“Web of Science”中SCI、SSCI、A&HCI数据库,年代区间为2003年到2013年,共得到4952篇文献。为了保证研究的准确性,将每一年作为一个单位时间切片,将知识图谱节点分别设置为“作者(Author)”、“关键词(Keyword)”、“领域(Category)”、“国家(Country)”、“机构”(Institution)等,使用含有文献标题、作者、发表期刊、资助基金、摘要、关键词等信息的文件进行知识图谱分析。

为了能够凸显重要文献和重要作者对学科演进的特点,我们在知识图谱绘制之前对文献被引频次(c)、两篇文献共引频次(cc)、文献共引系数(ccv)的值进行了相应的限制,这些参数表明知识图谱节点之间关系的密切程度(MALL H,1973)②MALL H.1973Co-citation in Scientific Literature:A New Measure Of The Relationship Between Publications,Journal of the America Society of Information Science,24(4):265~269.。为了保证知识图谱的辨识度,在图谱绘制的过程中运用“路径搜索(pathfinder)”算法(Chen C,Morris S,2003)③Chen,C.,Morris,S.Visualizing Evolving Networks:Minimum Spanning Trees Versus Pathfinder Networks[J].Proceedings of IEEE Symposium on Information Visualization,IEEE Computer Society Press,2003:67~74.对知识图谱的网络进行了简化。

笔者将检索所得的Web of Science数据库文献记录以纯文本格式保存到电脑,再分步骤导入CitespaceⅢ进行运算和知识图谱生成与绘制。

三、研究进展的分析

下面从高频被引文献研究领域分析语言技术研究学科群、学科交叉、研究方向和关键词演进等。

(一)学科群体与领域交叉性分析

通过提取2003至2013年每一年文献信息中被引用频率最多的前10%的文献信息进行研究领域(category)分析,得到语言技术研究主要学科领域研究聚集形成的学科群体知识图谱,如图1所示。

图1 语言技术研究涉及的主要学科群与交叉领域知识图谱

中多层分色同心圆(黑白图表现深浅差异)表示年度区间总引文量,深浅层次不同圆环(彩打情况下显示不同颜色)对应文献在不同年份被引,图上方彩条标明色彩(黑白图表现为深浅差异)与年份的对应关系。同心圆中心出现深色的圆,则代表突显领域,即新兴研究领域。例如,计算机科学(Computer Science)、教育与教育研究(Education &Educational Research)同心圆即如此,表明它们为迅速发展的新兴领域。多边形表示形成聚类的研究领域,即学科群体。例如,康复研究(Rehabilitation)、教育(Education)、计算机科学康复研究(Rehabilitation Computer Science)构成了聚类标签为“#3hearing”的学科群体。

为了能够清楚地展示交叉学科群体的关系,图片做了凸显和简化处理。图中生成的编号标出了语言技术涉及的11个主要交叉学科群体,学科群体的命名来源于4952篇文献使用频率最高的索引词。学科群体标签颜色的深浅表明学科轮廓值(Silhouette)的大小,轮廓值越大,标签颜色越深。11个主要交叉学科群体及其下属的学科领域见表1所列。

表1 语言技术研究学科群及其下属交叉领域

#4网络特色服务的使用using web feature service信息科学与计算机科学图书馆学Information Science &Library Science Computer Science地理学Geography信息科学与图书馆学Information Science &Library Science 3 0.836 2004#3听觉与听力hearing康复研究Rehabilitation教育Education计算机科学康复研究Rehabilitation Computer Science 3 0.64 2005#1互联网带宽internet bandwidth通信Communication声学Acoustics听力学与言语病理学Audiology & Speech-Language Pathology 3 0.449 2006#6电脑运算computing自动化及控制系统Automation & Control Systems工程学Engineering计算机科学Computer Science 3 0.095 2004#7用户user仪器及仪表学Instruments &Instrumentation物理学Physics 2 0.87 2003#5凸性convexity运筹学与管理科学Operations Research &Management Science运筹学与计算机科学管理科学Operations Research & Management Science Computer Science 2 0.79 2005#10美国标准技术协会天然气水合物研究数据库NIST gas hydrate research database电信学Telecommunications计算机科学电信学Telecommutications Computer Science 2 1 2004

以上内容是按照学科群体的规模大小进行排列的。轮廓值(Silhouette)标明学科群体的确定程度,确定程度越高形成的多边形形状越清晰,数值越接近1,数值为1的集群表示一个相对于其他学科领域独立的学科集群。平均(mean)指数表示某学科群体形成年份,年份的早晚表示该学科群体的出现与发展的先后。

结合图表信息可以看出语言技术研究的学科交叉极为普遍,各学科间交叉关系较为复杂,通过表中的参数可以概括出以下几点:

1.学科群体大小的值与确定性值不一定成正比。学科群体“#9图书馆(library)”是最大的学科群体,包括众多领域,但能够作为独立学科群体的确定性不高,如表1所示,轮廓值(Silhouette)只有0.25,故在图1中“#9图书馆(library)”的标签颜色就浅。这与图书馆的不区分学科的收藏性质有关。该群体中,语言技术与诸多学科领域都有交集,例如,教育与教育学研究(Education & Educational Research)、健康保健科学与服务(Health Care Sciences & Services)、材料科学(Materials Science)、商学(Business)、商业管理学与经济学(Management Business & Economic)、信息科学与图书馆学(Information Science & Library Science)等。

2.利用规模值(Size)和轮廓值(Silhouette)确定富有潜力的新兴学科群体。规模值(Size)显示的学科确定性与学科性质有关,一般来说理工类学科领域组成的学科群体确定性较强。例如,学科群体“#10美国标准技术协会天然气水合物研究数据库(NIST gas hydrate research database)”形成了相对独立的学科,轮廓值(Silhouette)最高,主要是因为该学科专业性极强,有独立的研究理论、标准,并进行了广泛的实践。但正因为专业太强,其规模值(Size)反而最小,仅含两个领域。那些轮廓值和规模值都较高的学科群体才可能是成熟,或富有前景的。例如,“#0种子算法与基因组(seed genome)”因数学算法、编程语言和生物学的深入结合,显示较高的确定性(轮廓值为0.958,加之规模值为5)较高,学科群体的成熟度也较高。“#2计算机辅助语言教学(CALL)”是与语言技术相关的非常显著的大学科群,其确定性(轮廓值为0.754)远高于“#9图书馆(library)”,其规模值(为7)也很高,总体上看,是与语言技术相关的成熟度最高的学科群体。此外,“#8决策支持系统decision support system”、“#4网络特色服务的使用using web feature service”、“#3听觉与听力 hearing”、“#1互联网带宽internet bandwidth”都是值得关注的与语言技术关联的新兴学科群体。

3.2003年至2013年间平均值(mean)显示,主要学科群体在2004到2006年间形成。“#7用户(user)”等形成较早但不成规模,上述规模值(Size)和轮廓值(Silhouette)较高的学科群体都在2004到2006年间形成,并持续发展到2013年。

综上,语言技术研究领域的交叉性极为复杂。既有学科群体内部研究领域的交叉,也有学科群体之间的研究领域交叉。这种复杂的交叉过程蕴含着新兴学科产生的可能。

(二)主要研究领域分析

在图1包含的43个热点研究领域中,按照文献频数、凸显性和中心性(一种文献重要等级算法(参见陈超美2001))综合指标排序如下:

表2 语言技术研究涉及的中心性最高的14个领域

这些领域按共现词加权分析主要集中在计算机与通信科学、教育学、语言学、心理学等几个核心领域。

计算机与通信科学领域涵盖信息系统、理论方法、人工智能、软件工程、硬件建设等,主要的研究成果集中于自然语言处理技术,其中包括机器翻译、文本分析、自动言语识别与合成等。例如,对机器翻译系统“对齐模板”的翻译方法的研究(Franz Josef Och & Hermann Ney,2004)①Franz Josef Och,Hermann Ney.The Alignment Template Approach to Statistical Machine Translation[J].Computational Linguistics,2004,(30):417~449.,这种机器翻译方法具有较好的实用性和商业前景。自动语音识别领域对如何克服语音变异影响的研究一直是热点,如地域特征、社会语言学特征、外国口音、说话风格、语速等(M Benzeghiba,2007)①M.Benzeghiba,R.De Mori,O.Deroo,S.Dupont,T.Erbes,D.Jouvet,L.Fissore,P.Laface,A.Mertins,C.Ris,R.Rose,V.Tyagi,C.Wellekens.Automatic speech recognition and speech variability:A review[J].Speech Communication,2007,(49):763~786.。随着计算机数据挖掘技术的进步,意见挖掘和情感分析颇受重视,用自然语言处理工具对临床数据库中的不良事件进行监测越来越普遍(David W Bates,2003)②David W Bates,R Scott Evans,Harvey Murff,et al.Detecting Adverse Events Using Information Technology[J].Journal of the American Medical Informatics Association,2003,(10):115~128.。此外,从临床电子病历和医学研究文献中挖掘相关性、模式和知识是重要的研究趋势(Guergana K Savova,2010)③Guergana K Savova,James J Masanz,Philip V Ogren,Jiaping Zheng,Sunghwan Sohn,Karin C Kipper-Schuler,Christopher G Chute.Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES):architecture,component evaluation and applications[J].J Am Med Inform Assoc,2010,(17):507~513.。

语言学领域与上述计算机科学的自然语言处理多有交叉,与教育领域的语言教学也有交叉,偏重于语言学研究的主要有语言起源与演化、语言与思维和神经机制关系的探究等。例如,学者们使用非洲和欧洲最近发现的第一手考古学和古生物学材料讨论语言的起源、符号论和音乐之间的关系(Francesco d’Errico & Christopher Henshilwood,2003)④Francesco d'Errico,Christopher Henshilwood,Graeme Lawson,Marian Vanhaeren,Anne-Marie Tillier,Marie Soressi,Fred erique Bresson,Bruno Maureille,April Nowell,Joseba Lakarra,Lucinda Backwell,Michele Julien.Archaeological Evidence for the Emergence of Language,Symbolism,and Music-An Alternative Multidisciplinary Perspective[J].Journal of World Prehistory,2003,(17):1~70.;使用词汇数据和贝叶斯系统方法讨论史前人口扩张在塑造生物与文化多样性中发挥的作用(R.D.Gray & A.J.Drummond,2009)⑤R.D.Gray,A.J.Drummond,S.J.Greenhil.Language Phylogenies Reveal Expansion Pulses and Pauses in Pacific Settlement[J].Science,2009,(323):479~483.;通过数值认知匹配任务重复测试发现,连数字“一”都没有的亚马孙河流域Pirahã语言使用者都能够将数值和大数量物体完全精确配对,研究认为语言中所谓精确数字是一种文化发明,不是一个语言的普遍性,并且数字词并不改变我们底层数量表征,而是一种在时间、空间和情态变化中用来追踪大型集合基数的认知“技术”(Michael C.Franka & Daniel L.Everett,2008)⑥Michael C.Franka,Daniel L.Everett,Evelina Fedorenko,Edward Gibson.Number as a cognitive technology:Evidence from Pirahãlanguage and cognition[J].Cognition,2008,(108):819~824.;通过核磁共振成像研究大脑句法处理机制发现句法是神经隔离的,分布在不同脑区,突破了原来认为只有左半球布罗卡氏和韦尼克区才是句法中枢的观点(Yosef Grodzinsky & Angela D Friederici,2006)⑦Yosef Grodzinsky,Angela D Friederici.Neuroimaging of syntax and syntactic processing[J].Current Opinion in Neurobiology,2006,(16):240~246.;脑成像技术还发现韦尼克区对称区域、左右前运动区、左右脑岛和布罗卡区是处理创新隐喻的回路(N.Mashal & M.Faust,2005)⑧N.Mashal,M.Faust,T.Hendler.The role of the right hemisphere in processing nonsalient metaphorical meanings:Application of Principal Components Analysis to fMRI data[J].Neuropsychologia,2005,(43):2084~2100.。

在教育领域,近年来主要研究热点有教育教学技术、网络教育、语言学习、特殊人群语言康复的技术等。具体而言,移动学习、合作学习与无缝学习等关联研究,基于嵌入技术的学习资源研发、网页设计等网络技术与教育,微博、社交网络与学习,二语习得与学习,电子白板等教室科技与课堂教学,语料库、在线工具与语言学习、语言能力测试与评估,阅读、听说等语言障碍(表中领域高频共现词Rehabilitation表明康复研究的重要价值),都是近年来的热点。例如,研究表明对幼儿进行人工耳蜗植入术对促进其表达能力的提高有显著效果,并建议有经验的儿科移植中心给12岁以下的儿童植入人工耳蜗(Shani J.Dettman &Darren Pinder,2007)⑨Shani J.Dettman,Darren Pinder,Robert J.S.Briggs,Richard C.Dowell,Jaime R Leigh.Communication Development in Children Who Receive the Cochlear Implant Younger than 12Months:Risks versus Benefits[J].Ear &Hearing,2007,(4):11S~18S.;脑成像研究表明失写症等障碍是人的语言整个系统内的混乱,而不是系统中某个项目(如语音加工等)导致的(Sally E,2005)①Sally E.Shaywitz,Bennett A.Shaywitz.Dyslexia(Specific Reading Disability)[J].Biol Psychiatry,2005,(57):1301~1309.;对聋生如何使用在视觉资源方面支持其阅读理解的多媒体资源软件包的调查表明“视觉素养”的技能教育很重要(Nikolaraizi M & Vekiri I,2013)②Nikolaraizi M,Vekiri I,Easterbrooks S.Investigating Deaf Students'Use of Visual Multimedia Resources in Reading Comprehension[J].American Annals of the Deaf,2013,(157):458~473.;有的研究旨在向从事早期儿童特殊教育专业的人员提供一个标准的、综合的语言评估工具(Chu-Sui Lin & Shu-Hui Chang,2013)③Chu-Sui Lin,Shu-Hui Chang,Wen-Ying Liou,Yu-Show Tsai.The Development of A Multimedia Online Language Assessment Tool for Young Children with Autism[J].Research in Developmental Disabilities,2013,(34):3553~3565.;等等。

心理学领域与教育、语言学、计算机科学也多有交叉,出现不少新兴的研究方向,例如网络和计算机辅助交际行为、web2.0社会文本中的心理学资源挖掘与研究、语言学习的认知策略等。一些有特色的方向,如探讨社交网络中“自我”与新型社区关系(Whittaker L & Gillespie Alex,2013)④Whittaker L,Gillespie Alex.Social Networking Sites:Mediating the Self and its Communities[J].Journal of Community & Applied Social Psychology,2013,(23):492~504.,通过文本自动分析探讨语篇常用词(如代词、冠词、介词、连词、助词等功能词)对人类社会和心理世界的揭示(James W.Pennebaker & Matthias R,2003)⑤James W.Pennebaker,Matthias R.Mehl,Kate G.Niederhoffer.Psychological Aspects of Natural Language Use:Our Words,Our Selves[J].Annual Reviews Psychology,2003,(54):547~577.;根据博客中进食失调(如神经性食欲缺乏、易饿症等)数据探究在线社会行为的心理学意义(Wolf Markus & Theis Florian,2013)⑥Wolf Markus,Theis Florian,Kordy Hans.Language Use in Eating Disorder Blogs:Psychological Implications of Social Online Activity[J].Journal of Language and Social Psychology,2013,(32):212~26.;自闭症的交际与学习心理等。

(三)关键词演进分析

通过提取2003至2013年每一年文献信息中使用频率最高的前5个关键词(keywords)可以得到语言研究关键词演进的知识图谱,如图2所示。

图2 语言技术研究关键词演进图谱

图中显示了2003年至2013年,剔除重复后每年使用频率最高的5个关键词,共33个。如图上端的彩色条状(由于排版对彩图的限制,本段关于色彩表述在黑白图中表现为深浅浓淡的差异。)图例所示,图中关键词左方呈现嵌套形式的彩色圆环对应不同年份该关键词在文献中出现,例如:大红色、橙色、黄色圆环分别代表2013、2012、2011年的文献,关键词“语言(language)”所在分色多层同心圆显示它在2003至2013年间每年均有出现。最外环为粉色的关键词是凸显的热点关键词。关键词之间彩色的连线标明不同年份的共现情况。从图中可以看出,“技术(technology)”与“科学(science)”两个关键词之间有一条绿色连线,可知这两个关键词在2006年的文献中同时出现过。关键词圆环对应图中下方的年份数字,表示该关键词首次成为年度使用频率最高的5个关键词之一的时间,例如,“影响(impact)”这一关键词在2011年因为大数据讨论的升温首次成为年度使用频率前5的关键词。

图2中“语言(language)”和“技术(technology)”作为搜索所用关键词,出现频率高,半径大,但并不是我们分析的重点,而中等半径的圆形则提示与语言技术研究高度相关的关键词,可以揭示相关研究热点或通用术语。例如设计(design)、系统(system)、管理(management)、通讯(communication)、互联网(internet)、本体(ontology)、教育(education)等,显示“语言技术”应用的广泛性。

根据横坐标时间轴,语言技术研究关键词在10年时间段的头3年开始密集出现一些热点领域并能持续延伸,包括互联网(internet)、计算机与算法(computer&algorithm)、系统与模式(system&models)(计算学科领域通用术语)、儿童(children)(既含教育因素,又涉及语言技术应用于儿童健康和发展)、知识(knowledge)(主要涉及知识挖掘处理与管理)、信息与信息技术、通讯与管理、建筑与设计、网络服务、言语科技等,2006以后出现仿真(simulation)、语义网(semantic web)(含语义框架)、数据库(database)、教育(education)(关联“学生”,表明以学生的中心的教育教学理念更加普遍)、科学(science)(表明理论研究的深入)、影响(impact)(主要指大数据的综合影响)等,清晰展示研究前沿的演进。关键词之间的密集连线显示语言研究领域关联与拓展。

四、结 语

通过可视化分析可以从宏观上看出2003年以来语言技术研究发展若干特点:首先是极强的跨学科、跨领域综合性,体现了现代学科的发展特征。从语言技术学科群体和研究领域的交叉状况来看,语言技术学科群体内部的研究领域存在交叉关系,学科群体之间的研究领域存在交叉关系。这种叠加错综的交叉关系是新兴学科形成的温床。其次,语言技术研究热点多、形成时间早、持续时间长,深刻变革表现为语义化、智能化以及科学性加强。总的看来,语言技术研究关注现实实践,在通信、网络、教育、康复、管理等方面得到运用广泛。随着技术的革新和进步,语言技术在实际应用领域的研究还将进一步深入。

猜你喜欢
交叉图谱群体
绘一张成长图谱
通过自然感染获得群体免疫有多可怕
“六法”巧解分式方程
“群体失语”需要警惕——“为官不言”也是腐败
补肾强身片UPLC指纹图谱
连数
连一连
主动对接你思维的知识图谱
双线性时频分布交叉项提取及损伤识别应用
杂草图谱