基于GloVe词向量的“技术

2019-04-20 08:09吉久明施陈炜李楠
现代情报 2019年4期

吉久 明施 陈炜 李楠

摘要:[目的/意义]本文探讨挖掘技术和应用间的关联关系,便于把握技术的目标应用场景和了解应用需求的可选技术方案,为技术转化提供基础。[方法/过程]首先,建立基于改进GloVe词向量的“技术——应用”发现模型,提出改进词向量的算法;然后,以机器学习技术为例,获取该领域学术论文文摘数据,预处理后建立训练文本集合,再使用改进GloVe模型训练获得词向量;最后,对词向量聚类获得“技术”和“应用”类词汇集,通过共现获得两者之间的关联并分析。[结果/结论]实验结果表明,本文改进GloVe模型后训练的词向量性能获得提升,聚类效果好,最终实现“技术——应用”的关联分析。

关键词:词向量;GloVe模型;文本聚类;共现分析

DOI:10.3969/j.issn.1008-0821.2019.04.002

〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0013-10

Research on“Application-Technology”Discovery Based on

GloVe Word Representation

Ji JiumingShi ChenweiLi NanKang Jian

(Institute of Science and Technology Information,East China University of Science and Technology,

Shanghai 200237,China)

Abstract:[Purpose/significance]The purpose of this paper was to mine the relationship between applications and technologies,and to know applications of technologies and optional technologies of applications,and provide the base for technology transformation.[Method/Process]Firstly,established an“application-technology”discovery model based on improved GloVe word vector and improved the word vector training algorithm.Then,collected academic literature abstracts in the field of machine learning,built the training text set after preprocessing,and used the improved GloVe model to obtain the word vector;finally,clustered the word vector to obtain the“application”and“technology”vocabulary sets,and acquired the relationship between them to analyze the cooccurence.[Result/Conclusion]The experimental results showed that the performance of the word vector obtained by the improved GloVe model was better,the clustering effect was good,and the correlation analysis of“application-technology”was finally realized.

Key words:word vector;GloVe model;text clustering;co-occurrence analysis

在人類历史发展的长河中,“技术”从来都是为“应用”服务的,没有应用需求,就没有技术。但由于“技术”开发往往存在一定的门槛,很难一蹴而就,因此存在技术迭代现象,针对同一“应用”会开发多项“技术”(本文对于同一“技术”的各种升级改造视为不同的技术,如,同一种人脸识别算法的不同优化或各种不同的人脸识别算法)。因此,“技术”与“应用”不仅只有一一对应的关系。某项“技术”可以同时满足多项“应用”需求,如深度学习;还有一些“技术”最初只是为了满足少数的“应用”需求而开发,后来衍生出更多的应用,如互联网起初仅用于军事,逐渐成为改变世界的技术。

对于专业技术人员而言,如果某项较复杂的“应用”仅有少量“技术”与之对应,则表明该项“应用”的技术机会较多。而对于技术投资方而言,一对一或多对一的“技术——应用”关系分别表明某项“应用”市场的成熟度不够或者基本成熟;为满足少数人的“需求”而开发的“技术”往往预示着该应用当前为高端市场;处于初期且能同时满足多项“应用”需求的某项“技术”的投资价值必然很高。对于应用需求方而言,如果存在多项技术可供选择,则能降低技术选择成本,最大程度避免因技术缺陷导致的损失。因此挖掘各类文献(主要包括学术论文和专利文献)中的“技术”与“应用”对应关系,可以为技术研究和投资提供相应的情报。挖掘此类关联关系的难点主要在于:“技术”和“应用”的文本距离有时候并非很近,且自然语言表达随意,存在名称不规范的情况,很难采用常规的“规则”匹配法。

因此,本文拟采取以下方案挖掘学术文献文本中的“技术”与“应用”关联:先将文献文本向量化,再聚类找出其中的“技术”和“应用”词汇,最后使用共现分析法发现它们的关联关系。本文以机器学习领域为例,验证改进算法的有效性,并做了“技术——引用”发现的实证。

1文献综述

尽管“技术——应用”关联分析的研究价值巨大,但目前已有的“技术——应用”关联研究较少,最相关的是“技术——功效”的关联分析研究。陆佳伟等[1]引入技术——功效导向的领域本体规范辅助完成技术功效图,其中,功效词与技术词由人工整理获得。翟东升等[2]使用TF-IDF和模式匹配的方法实现技术和功效词的抽取,然后通过数据仓库技术实现技术功效图的挖掘和对具体专利进行识别。许海云等[3]通过专家指导的方式获得技术主题和功效主题,进而通过2模网络分析识别相似的核心专利或核心簇。Cheng T Y[4]使用国际专利分类号划分技术特征词,进而构建技术功效矩阵。Kuotsan[5]以UPC专利分类中的名称作为技术名,待解决的技术问题作为功效词,提出一种基于大数据和云平台的技术功效矩阵构建框架。这些研究以技术及技术的功效作为研究对象,通过构建技术功效共现矩阵实现关联分析。

本文的“技术——应用”关联分析与“技术——功效”分析类似,也可以使用共现矩阵实现关联,但两者也存在不同。从定义上看,“应用”相比“功效”更宏观、更抽象。从词的表述上看,应用词一般为独立词的组合,如“语音识别”、“机器翻译”,而功效词的表述更多为短句,如“提高稳定性”、“安装操作方便”等,这也使得應用词的提取与功效词不同,前者的抽取更自动灵活,后者需要更多的人工参与。从关注重点来看,“技术——功效”的分析重在评估技术在功效上的差异,而本文研究的“技术——应用”重在发现技术与应用之间的关联。综上所述,“技术——功效”需要保证共现词的有效性和准确性,人工参与度高,构建的共现矩阵维度较小;而“技术——应用”的目的是尽可能发现更多共现词间的关联,需要构建更大的共现矩阵,对自动化的要求高。因此,对于本文的研究,自动化处理相关的词向量技术和聚类方法是较好的选择。

本文研究的对象形式是文本。文本是一类特殊的符号数据,使用独立字符的自然语言表示。自然语言是经过人类抽象处理的数据,含有丰富的语义信息。最初使用基于逻辑、规则及本体等符号化的方式处理,但由于歧义性和可变性等特点,逐渐被基于统计的机器学习方法替代。早期的机器学习处理算法有感知机[6]、线性支持向量机[7]、逻辑回归[8]等,但都在稀疏特征向量上训练,容易陷入维数灾难[9]。从20世纪90年代开始,随着计算能力的发展,统计语言模型出现并受到关注,并逐渐衍生出词向量模型,如C&W[10],CBOW[11],Skip-gram[11],GloVe[12]等。

聚类是一种非监督式的机器学习方法[14],是将对象集合分成由类似对象组合成多个类的过程。其依据的假设是同类之间的对象相似度高,不同类之间的对象相似度低。文本聚类,是一种将文本集合自动归类的过程[15]。由于没有训练过程,也无须对数据预先标注,操作过程简单且高效,因此受到广泛使用。文本聚类通过相似度的差异对文本分类,将相似的文本归并到一起。常用的聚类算法有基于划分的方法(如K-means[16]),基于密度的方法(如DBSCAN[17]),基于层次的方法(如Birch[18])等。文本聚类主要针对非结构化文本,需要考虑文本间的语义关联等隐含信息的影响,首要任务是将无结构的自然语言转化为可计算的特征文本,即向量化表示。由于词向量的训练简单,效果好,目前已成为文本聚类常用的向量化方法。

词向量与文本聚类的结合使用在国内外已有较多的案例。夏天[19]通过Word2vec将维基百科中文数据转化为词向量并聚类,将其词向量的聚类结果应用到TextRank的关键词抽取中,改善了抽取效果。林江豪等[20]将新闻和微博文本通过Word2vec得到词向量的模型,并用K-means聚类实现新闻评论话题的抽取,获得了较好的实时话题分析研究结果。章程志等[21]将在线用户评论转化为词向量表示,并对候选属性词集聚类,最后得到细粒度的产品属性集。Nikfarjam等[22]将社交媒体中的非正式文本转化成词向量,再通过文本聚类的方式提取药物的不良反应以测试公共卫生的监测水平。Mac Kim等[23]将Twitter中的个人资料文本集向量化后聚类,并提出一种机器学习的方法检测探查用户的社会角色。

这些方法都是以Word2vec的CBOW或Skip-gram模型对文本进行训练,获得词向量后进行文本聚类,为下一步研究做准备或直接分析聚类结果获得结论。这两个模型使用了上下文窗口内的文本,精简了神经网络的隐藏层,有较高的运行效率,可以在更大规模的语料上训练词向量,但本身对语义捕获的能力也有所降低[24]。相比之下,GloVe融入了全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重,更加灵活[25]。

综上所述,本文以学术论文为研究文本,使用词向量和文本聚类相结合的方式获取“技术”和“应用”词汇,再通过共现分析法挖掘“技术——应用”关联关系。本文以可操控性强、灵活度高的GloVe词向量模型为基础,提出一种针对本研究改进的算法。该算法通过优化词向量表示,获得更好的“技术”和“应用”词聚类抽取,达到改进“技术——应用”的发现效果。

2研究方法

本文建立了基于改进GloVe词向量的“技术——应用”发现模型,其研究流程如图1所示,分为4个阶段。在预处理阶段,使用学术论文文摘作为数据来源,分离获得标题、摘要、关键词文本,并结合关键词提取的专业词表进行预处理(分词,停用词清洗,词典规范化),获得标题和摘要文本集;在WS-GloVe模型构建阶段,使用新算法改进GloVe模型优化训练的词向量,然后进行相似度评价;在K-means聚类阶段,使用轮廓系数法获得最佳分类数K,并进行聚类性能评价和结果分析,再提取出“技术”和“应用”类词汇;在“技术——应用”发现阶段,以预处理后的摘要集为文本对两类词共现表示,并使用Gephi进行网络关联可视化分析。

212文本位置结构差异

目前,词向量模型在应用时习惯于“一视同仁”,即仅考虑文本表达的信息,忽视文本的一些附属信息,如文本所处的位置。显而易见,词语(指有意义的实词)出现在标题和正文中的重要性不同。文章不同位置结构的用词是作者思考态度的体现,往往表现为重要的词会被安排在更突出的位置。对于正式的规范文本,如法律、专利、标准、论文文献,这种位置结构的权重差异现象更为突出。

本文以学术论文为研究文本。词向量模型训练要求是连续的长文本,论文中涉及研究内容的长文本结构一般有标题、摘要和正文,位置结构权重逐级递减。正文的篇幅大,但核心内容少、噪音多,且获取有难度,故本文研究不使用正文。摘要规范性强、篇幅小,是论文的核心内容集合。而对于标题,通过阅读发现,将应用场景和重要技术的词汇写在标题中是普遍现象,如“基于模糊支持向量机的软件缺陷预测技术[26]”,“基于LDA模型的交互式文本主题挖掘研究——以客服聊天记录为例[27]”等。标题文本中出现的“技术”和“应用”词汇比摘要中出现的相应词汇更加重要,若将这种隐含的重要性信息添加到词向量模型中,就能获得优化的词向量。

213改进算法

本文在GloVe模型的基礎上,提出一种基于文本位置结构差异的改进算法,获得加权改进后的新模型WS-GloVe(Weighted-Structure GloVe)。在本实验中使用了标题和摘要两种结构差异性文本。根据GloVe模型的原理,需先构建词共现矩阵和计算全局词频。因此,可通过改变词频统计方式来调整权重,从而达到加权改进的目的。具体过程如下:

中心词i语境下窗口内所有词的共现次数,在摘要文本中如式(6)所示,在标题文本中如式(7)所示,N为词表中词的数量。在本研究中,以核心文本数据摘要集的词作为词表源,忽略在标题集中出现而摘要集中没有的词。

22K-means聚类

K-means[16]算法是典型的基于距离的聚类算法,以数据点到质心距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的规则。该算法基于k个初始质心或均值的初始条件来确定类的数量,采用误差平方和(式(13))作为聚类准则函数。

SSE=∑ki=1∑xj∈Si(xj-ui)2(13)

其算法过程如下:

1)从N个数据点中随机选取k个作为质心。

2)对剩余的数据点测量其到每个质心的距离,并分配至距离最近的簇。

3)设置簇内所分配的数据点的均值为新质心。

4)迭代2~3步骤直到新的质心不再变化或小于阈值,结束迭代。

3实验及评价

31实验环境

本文的实验平台为Ubuntu 1604 TLS(64位),8G内存,128G SSD硬盘,主频32GHz。

编程语言为Python35,分词处理使用了哈工大LTP工具包[28],WS-GloVe模型实现是在作者提供的GloVe工具包[29]的基础上修改而成,相似度评价和聚类实现使用了Gensim和Scikit-learn包,共现网络可视化使用了Gephi软件。

32实验数据及预处理

本文选择CNKI的期刊数据库为数据来源,限定主题词“机器学习”进行主题检索,从2000年至检索时间2018年9月30日为止,检索得到的相关发文量总数为5 389篇。通过人工识别和技术辅助,剔除不符合实验要求的文摘数据后,共获4 957篇。

根据CNKI文摘数据的标识符:标题(T1),摘要(AB),关键词(K1),通过编程自动提取各自对应的文本至标题集、摘要集和关键词集。利用关键词集筛选后获得专业词典,调用哈工大LTP软件包结合专业词典对标题集和摘要集分词,去除停用词等预处理后作为标题文本语料与摘要文本语料待用。

33相似度评价

算法是机器学习技术中的核心部分,算法名称是技术交流中的信息量较多、出现频率较高的词汇。因此,本文在测试中选取20个常用的算法名称词汇进行相似词的相似度计算,如表2所示。本文使用CBOW,GloVe,WS-GloVe词向量模型分别进行词向量训练,并使用余弦相似度进行度量,从侧面评价词向量表示的效果。

通过表3可以发现,CBOW的余弦值均值均大幅高于其余两者,但方差较大,范围较小,准确率较低。通过对CBOW的其他词向量余弦值测试比较,发现所有相关或不相关的词汇的相似度都有很接近的余弦相似度,且相似词的范围极小,区分度差。本文分析,由于CBOW模型依赖于上下文窗口内的词汇建立,需要大量的文本确定相似程度,而本文的数据量较小,导致词汇间的模式不清晰,对CBOW模型影响较大。GloVe及其改进模型是结合上下文和全局词频统计建立的,在较少的文本数据下,相比能获得更好的效果。实验结果表明,WS-GloVe模型与GloVe模型相比,各个指标都获得了提升,相似词之间的相似性更高,区分度更好,在整体的性能上有所提升。

34K-means聚类

341选择最佳K值

K-means聚类算法需预先确定分类数K,因此选择恰当的K值能带来较好的聚类效果。本文使用轮廓系数法辅助选择K值。轮廓系数的数值越大,分类效果越好。理论上需要选择轮廓系数最大时的K值,从图2看出,当k=3时有较大的轮廓系数,但是此时的SSE也较大(SSE越小,分类效果越好),结合两者来看,当k=5时,SSE较小且下降趋缓,轮廓系数与k=4时相差不大,且k=6时降幅明显。综合比较分析,本文选择k=5作为类簇数。

342聚类性能评价

本文选择外部指标对聚类效果进行评价[30]。根据聚类的外部指标的要求,需先构建参考模型分类,再根据参考分类与聚类结果进行比较获得4个变量值,最后获得指标的结果。如果参考模型有m个词汇,需构建样本对数量为C2m。根据语料领域和特点,结合专家意见,给定参考模型的词及分类

图2SSE和轮廓系数

为性能评价。从图中簇1、3、4的集中度以及对于聚类的性能指标综合来看,对这3类词汇的推测合理。图3中上方框选的点集为类簇3,下方的为类簇1,对这两类簇词提取,分别筛选得到所需的“技术”和“应用”类词汇。

35“技术——应用”发现

通过聚类提取获得了“技术”类和“应用”类的词汇,经过筛选规范后整理成技术词表和应用词表。然后使用经过预处理的摘要文本集作为共现文本,编写共现程序构建“技术——应用”共现词矩阵,最后使用Gephi进行可视化。由于词节点众多,这里筛选去除共现频次在2以下的词节点,并经过调整后获得结果,如图4所示。蓝色节点为技术方法,黄色节点为应用场景,两者之间的节点通过红色的边相连,频次越大边越宽。出于谨慎和技术的综合考虑,未将同一技术的中英文进行合并,需在最后整理分析阶段进行处理。

从图4可知,通过Gephi的可視化,可以直观地看到“技术”和“应用”之间的关联。中心部分的边频次权重大,节点应用比较宽泛,如“人工智能”,“数据分析”等;边缘的边频次小,节点应用比较具体,如“图像识别”、“异常检测”、“垃圾邮件”等。从图中提取几个应用场景为中心的子网,得到这些应用场景中所使用的技术方法,如表7所示;提取以技术方法为中心的子网,得到这些技术的应用场景,如表8所示。

4结束语

本文使用机器学习技术学术论文文摘作为研究文本,以GloVe词向量模型为基础,提出一种基于文本位置结构差异的加权改进算法,并用改进后的WS-GloVe模型获得词向量后,聚类提取“技术”和“应用”类词汇,最后使用共现方法对“技术——应用”发现进行关联分析及可视化。经过实验表明,在使用改进方法后,词向量的相似度测评效果更佳,聚类效果好,可以较好地分离出“技术”和“应用”词,最后实现“技术——应用”的共现网络与关联分析。

目前,本文在较小文本数据量的情况下进行实验,下一步工作需要增加文本量,提升词向量效果。而且,为控制词汇数量,本文使用简单规则筛除了较多的词汇,下一步需细化规则保留更多的词汇,发现更多的“技术——应用”关联,为技术转化提供应用场景的建议。在“技术——应用”的发现部分,本文仅进行了简单的挖掘分析,下一步可以借助图论网络相关算法进一步进行分析,发现更多的潜在关联关系。

参考文献

[1]陆佳伟,慎金花,张更平,等.基于领域本体的专利技术-功效文本挖掘方法——以MOCVD技术为例[J].价值工程,2018,37(2):245-248.

[2]翟东升,蔡力伟,张杰,等.基于专利数据仓库的技术功效图挖掘方法研究——以3D打印技术为例[J].现代图书情报技术,2015,(Z1):131-138.

[3]许海云,方曙.基于专利功效矩阵的技术主题关联分析及核心专利挖掘[J].情报学报,2014,33(2):158-166.

[4]Cheng T Y.A New Method of Creating Technology/Function Matrix for Systematic Innovation Without Expert[J].Journal of Technology Management & Innovation,2012,7(1):18-27.

[5]Kuotsan.A Quick Approach to Get a Technology-function Matrix for an Interested Technical topic of Patents[J].International Journal of Arts and Commerce,2013,2(6):85-96

[6]孟秀萍,苏工兵,吴奇明,等.基于Halcon多层感知机的织物色差检测研究[J].棉纺织技术,2018,46(5):60-65.

[7]易校石.线性可分支持向量机的算法及应用[D].重庆:重庆师范大学,2018.

[8]Wagner H,Duller C.Bayesian Model Selection for Logistic Regression Models with Random Intercept[J].Computational Statistics & Data Analysis,2012,56(5):1256-1274.

[9]Rumelhart D E,Hinton G E,Williams R J.Learning Representations By Back-propagating Errors[J].Nature,1986,323(6088):399-421.

[10]Collobert R,Weston J.A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning[C]//International Conference on Machine Learning.ACM,2008:160-167.

[11]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].arXiv:1301.3781,2013.

[12]Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing,2014:1532-1543.

[13]Kevin Lund,Curt Burgess,and Ruth Ann Atchley.Semantic and Associative Priming in High-dimensional Semantic Space[J].In Proceedings of the 17th Annual Conference of the Cognitive Science Society,1995,17:660-665.

[14]李秀霞,邵作运.“密度——距离”快速搜索聚类算法及其在共词聚类中的应用[J].情报学报,2016,35(4):380-388.

[15]Sebastiani F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.

[16]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.

[17]Ester M.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[J].In Kdd,1996,96(34):226-231.

[18]Feng X J,Pan Q.The Algorithm of Deviation Measure for Cluster Models Based on the FOCUS Framework and BIRCH[C]//International Symposium on Intelligent Information Technology Application.IEEE Xplore,2008:44-49.

[19]夏天.詞向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34.

[20]林江豪,周咏梅,阳爱民,等.结合词向量和聚类算法的新闻评论话题演进分析[J].计算机工程与科学,2016,38(11):2368-2374.

[21]周清清,章成志.在线用户评论细粒度属性抽取[J].情报学报,2017,36(5):484-493.

[22]Nikfarjam,Azadeh,et al.Pharmacovigilance from Social Media:Mining Adverse Drug Reaction Mentions Using Sequence Labeling with Word Embedding Cluster Features[J].Journal of the American Medical Informatics Association,2015,22(3):671-681.

[23]Mac Kim,Sunghwan,Stephen Wan,and Cécile Paris.Detecting Social Roles in Twitter.Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media,2016:34-40.

[24]来斯惟.基于神经网络的词和文档语义向量表示方法研究[D].北京:中国科学院大学,2016.

[25]佚名.理解GloVe模型[EB].blog.csdn.net/u014665013/article/details/79642083,2018-03-21.

[26]程元启,姚淑珍,谭火彬,等.基于模糊支持向量机的软件缺陷预测技术[J].计算机工程与设计,2018,39(9):2753-2757.

[27]李莉,林雨蓝,姚瑞波.基于LDA模型的交互式文本主题挖掘研究——以客服聊天记录为例[J].情报科学,2018,36(10):64-70.

[28]刘挺.语言云(语言技术平台云)[EB].http://www.ltp-cloud.com,2018-08-09.

[29]Jeffrey Pennington,Richard Socher,Christopher D.Manning.GloVe:Global Vectors for Word Representation[EB].https://nlp.stanford.edu/projects/glove/,2018-09-05.

[30]周志华.机器学习[M].北京:清华大学出版社,2016:198-199.

[31]Kaufman L,Rousseeuw P J,Massart D L,et al.Least Median of Squares:A Robust Method for Outlier and Model Error Detection in Regression and Calibration[J].Analytica Chimica Acta,1986,187(00):171-179.

(责任编辑:陈媛)