基于Matlab挖掘分析NIPS会议论文

2017-11-21 11:23尧涛谢冬青
关键词:有向图主题词论文

尧涛,谢冬青

(1.广州大学 数学与信息科学学院,广东 广州 510006;2.广州大学 计算机科学与教育软件学院,广东 广州 510006)

基于Matlab挖掘分析NIPS会议论文

尧涛1,谢冬青2

(1.广州大学 数学与信息科学学院,广东 广州 510006;2.广州大学 计算机科学与教育软件学院,广东 广州 510006)

为更高效地通过会议论文了解相关研究领域的最新研究动态,本文以2015年NIPS会议论文为样本,采用Matlab工具来对其中403篇论文进行文本挖掘,主要从论文作者附属机构、论文合作者、论文主题等角度来进行数据分析. 分析得到,前20附属机构主要构成了合作者网络关系,论文发表量较多的附属机构对多类分类问题,以及图像方面和高斯过程更感兴趣. 图像处理研究是会议中研究最多的主题,其中语义分析、文本挖掘、神经网络、深度学习等也是当前的发展趋势热点. 通过主成分分析方法(PCA)对主题分类后看到,不同附属机构研究范围不同,Google倾向于涵盖多个领域,而IBM和Microsoft则更专注于某一方面的研究.结果表明,利用Matlab对论文的各类信息进行挖掘与分析,可以了解该领域的研究方向以及各个附属机构合作关系、发文量和研究热点. 本文方法为研究者快速了解会议论文提供了参考,也为研究其他会议论文提供了一定的思路与方向.

文本挖掘;Matlab;主题分析

专业会议论文是体现该领域最新研究进展的重要方面,如大量机器学习领域的研究论文发表于各大国际会议,如何快速高效地通过这些会议论文来反映其研究领域的相关信息,对研究者具有重要意义. NIPS(Neural Information Processing Systems)会议[1]作为国际上机器学习领域最好的会议之一,对该会议上的论文进行相关文本挖掘,可以很大程度反映机器学习领域研究热点和发展趋势.通常来说,文本挖掘与一般数据挖掘[2]不同,其所研究的文本数据库是由来自各种数据源的大量文档组成,这些文档可能由标题、作者、出版日期等结构化数据组成,也可能包含摘要和内容等非结构化的文本成分,而这些文档的内容是人类自然语言,计算机很难处理其语义. 本文以2015年NIPS收录的403篇论文为样本,通过一系列的数据处理方法来构造出相关的实验数据. 实验以Matlab工具进行文本挖掘,主要从论文作者附属机构、论文合作者、论文主题来研究分析机器学习领域相关论文[3-4].

1 文本挖掘及PCA简介

文本挖掘[5-6]是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程. 文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息.

PCA(Principal Component Analysis)即主成分分析[7],是一种多元统计分析数据的方法,其原理就是通过一个特殊向量矩阵U,将一个高维向量X映射到一个低维的向量空间,表示为一个低维向量Y. 实质上主成分分析是将高维数据降维成低维数据,可以更直观地观察数据,经常用于模式识别数据的特征提取及降维等.

PCA的算法步骤:

1)初始化:原始数据m条n维矩阵按列重新组成n行m列矩阵,即

2)将Xn×m的每一行(代表一个属性)进行均值化处理,即减去这一行的均值;

4)将特征向量按照对应的特征值大小降序排列成矩阵,取前k行组成矩阵U;

本文利用文本挖掘的相关知识提取了2015年NIPS会议论文网站的论文信息(包括标题、作者、摘要、正文)作为实验数据,建立相关文档词频矩阵. 利用PCA主成分分析方法进行降维处理,便于主题分类等.

2 数据准备

首先,本文根据Github官网上Ben Hamner的源代码①源代码网址:https∶//github.com/benhamner/nips-2015-papers,利用Python对2015年NIPS会议论文进行爬取,得到相关数据表:Authors(作者信息表)、PaperAuthors(论文对应作者关系表)和Papers(论文信息表). 为了具体分析作者及附属机构的关系,根据NIPS论文收录官网的网页源代码,利用Matlab进行文本挖掘分析,提取出相关作者附属机构等信息得到AcceptPapers(收录论文信息表). 最后,将Authors、PaperAuthors、Papers、AcceptPapers 4个数据表利用Matlab打包成2015nips.mat,详细可见个人网站②个人网站网址:https∶//github.com/Yiutto/2015nips.mat. 为了方便了解各个信息表的相关属性及其含义,下面给出4个数据表的属性介绍:

表1 Authors相关属性

表2 PaperAuthors相关属性

表3 Papers相关属性

表4 AcceptedPapers相关属性

3 实验及分析

3.1 实验环境

Matlab是目前国际上流行的科学计算软件,它具有强大的矩阵计算和数据可视化能力,可实现数值计算、图形处理、自动控制、信息处理等多种功能. 本文所讨论的文本挖掘实验过程,就是通过Matlab编程实现的. 本文所用版本是Matlab R2015b(低版本Matlab可能不支持后面的实验).

3.2 实验步骤

3.2.1 建立论文与作者附属机构的关系有向图

该文通过Matlab中的digraph()函数使用图形来可视化nips论文作者的附属机构. 根据AcceptedPapers表中的两个属性Name和Org来创建论文与作者附属机构的节点有向图G,删除G中连接组件bins小于10的所有节点. 就本次实验得到的论文与作者附属机构节点有向图而言,G中节点的度数降序处理后,规定排前20名的附属机构节点用高亮橘黄色表示,其他附属机构节点则用橘黄色表示,蓝色节点表示论文本身. 主要代码如下:

图1 2015NIPS论文与作者附属机构有向图

图1是2015年NIPS会议论文与附属机构的有向图,其中高亮橘黄色的节点有20个,代表的各个附属机构及相应论文数如表5所示,分别为'Google'、'MIT'、'Stanford'、'Microsoft'、'U Texas'、'Princeton'、'CMU'、'Duke'、'U Washington'、'UC Berkeley'、'Harvard'、'UCL'、'INRIA'、'Georgia Tech'、'U Toronto'、'UMich'、'U Wisconsin'、'EPFL'、'Tsinghua University'、'U Montreal';橘黄色节点有17个,代表的各个附属机构及相应论文数如表6所示,分别为'IBM'、'Cornell'、'ETH'、'ENS'、'Cambridge'、'U Edinburgh'、'NYU'、'Technion'、'U Freiburg'、'WUSTL'、'MPI'、'UIUC'、'IDSIA'、'TU Dresden'、'U Amsterdam'、'Polytechnique Montreal'、'U Birmingham'.

表5 前20附属机构及论文数

表6 其他附属机构及论文数

3.2.2 建立论文共同作者的附属机构关系有向图

一篇论文的作者可能来自不同的附属机构,通过下面实验可看到这些附属机构之间的关系. 根据AcceptedPapers表中的两个属性Org和Title来创建论文共同作者附属机构的节点有向图G,删除G中连接组件bins小于5的所有节点,提取G中最大组件,将其中的论文定义为topDoc. 主要代码如下:

图2是2015NIPS论文共同作者的附属机构有向图,可以发现Top20和Others两大类群. 论文共同作者附属机构的节点有向图G中的最大组件其实就是由上一个实验中提到的Top20(Google、MIT、Stanford等)构成的,这些附属机构节点(图2中高亮的橘黄色节点)属于同一个合作网络. “Others”类群是从对应发表论文总篇数排名后20的附属机构中选取的.

图2 2015NIPS论文合作者附属机构有向图

3.2.3 论文主题分析

为了找出2015年NIPS论文的主题,本文在实验前通过论文标题提取了35个相关单词(见注②nips2015_topics.xlsx). 2015nips.mat数据集中有个Papers表,其中包含有摘要,标题,PaperText列. 为了方便,本次实验选取论文的摘要做词频分析. 依据3.2.2,将G中最大连接组件的论文定义为“Docs in the Largest Cluster”,其他组件的论文定义为“Other Docs”,主要代码如下:

从图3中可以看出,在2015年nips会议上发表的论文当中,不管是Top20附属机构(最大连接组件)还是Others附属机构(其他连接组件)发表的论文,研究最多的是有关图像处理问题(Image).除了Adaptive、Autoencoders、Bandit、Brain、CNN、Image、LASSO、Neuro、PCA、Regret、Semantic、Text这12个主题词外,Top20附属机构在其他主题词的研究范围比Others附属机构要广.

图3 文档分组下相关词频统计

3.2.4 通过PCA进行主题分类

通过Matlab中的PCA[7](Principal Component Analysis)函数,使用主成分分析来可视化各个主题之间的关系. 根据上一个实验建立的文档词频矩阵,进行相关的实验操作,主要代码如下:

图4-a中黄色主题词是依据图3中黑色比例远大于白色比例定义的关键词,共有12个,分别是Bayesian、Game、Gaussian Process、Graph、Market、MAP、Monte Carlo、Multi-class、Risk、SGD、Stochastic Gradient、Tensor. 图4-a中主要分了3个类群,似乎这12个主题词跨越了所有3个集群.紫色类群(图4-a中上方位置)有7个主题词,其中有4个黄色主题词,分别是Bayesian、Stochasitc Gradient、Monte Cario、SGD,这说明该4个领域Top20附属机构要比Ohters附属机构研究内容更深.蓝色类群(图4中左方位置)中有6个主题词,其中黄色主题词也占3个,分别是Game、Market、Risk,这表明Top20附属机构对该3个领域研究甚广. 绿色类群(图4-a中右方位置)中的关键词也是3个类群中最多的,共有13个,研究的主题主要是深度学习方面,从图中可以看出所有附属机构对此领域都有研究,原因是NIPS会议就是以神经网络为主的会议.

为了更细化地分析研究NIPS会议中的Deep Learning,将图4-a中绿色类群单独放大到图4-b.从图4-b可以看出深度学习是这个类群的主题,CNN(卷积神经网络)是一种经常用于图像分类的深度学习算法,RNN(多层反馈神经网络)倾向于在自然语言处理中用来分析“文本”,Autoencoders和 LSTM(Long Short-Term Memory)也是深度学习算法. 其中还涉及了Image、Text,这表明深度学习的研究不仅仅只停留在理论上,已经用于解决图像处理和文本分类问题. MAP(Maximum A Posteriori)是这个类群中唯一的黄色主题词,当大多数论文研究的是深度学习的相关主题时,Top20和Others附属机构在这些主题词上并没有太多显著频率差异,所以大多数主题词的颜色并非黄色.

图4 论文主题的主成分分析

在观察图4-a的时候,中心轴附近有许多离群点(不属于3个类群),将其放大到图4-c. 从图4-c可以发现,共有9个主题词,黄色主题词有4个,分别为Graph、Gaussian Process、Multi-class、Tensor,这说明Top20附属机构的论文似乎对多类分类问题,以及图像方面和高斯过程更感兴趣. 中心轴附近的主题大多数是机器学习算法,如支持向量机(SVM),主成分分析(PCA),隐马尔可夫模型(HMM)或最小绝对收缩与选择算子(LASSO).

为了体现NIPS会议对商业价值的研究,Top20附属机构包括一些商业实体,如Google、IBM和Microsoft,它们研究论文的主题可能反映了机器学习领域所带的商业利益. 如图5所示,三家公司倾向于涵盖不同的主题,而它们都参与了一些深入学习相关研究. 从图中可发现,Google倾向于涵盖多个领域,而IBM和Microsft似乎更局限于某一方面的研究.

图5 三大附属机构论文主题的主成分分析

4 结束语

本文在Matlab实验环境下,对2015 NIPS会议论文进行文本挖掘,相关数据和实验代码附在个人网站上. 首先从论文作者附属机构进行分析,给出前20名附属机构及论文数;随后在对论文合作者关系分析中发现,前20附属机构主要构成了合作者网络;通过论文主题文本分析发现,2015 NIPS会议研究最多的就是图像处理问题;最后使用PCA主成分分析法对主题进行分类,可以看到,不同附属机构研究范围不同,Google倾向于涵盖多个领域,而IBM和Microsft似乎更局限于某一方面的研究;分析结果从不同角度反映了2015年NIPS会议的前沿理论和研究热点,能帮助研究者快速地了解会议论文的相关主题、论文相似度、作者研究领域等,后期研究将进一步建立论文合作者关系网络与引用关系网络等.

[1] CORTES C, LAWRENCE N D, LEE DD, et al. Advances in neural information processing systems 28 [EB/OL].[2017-01-06]. https∶//papers.nips.cc/book/advances-in-neural-information-processing-systems-28-2015

[2] RAJARAMAN A, ULLMAN J D, TAN Pangnin, et al. 范明,范宏建,译. 数据挖掘导论(完整版)[M]. 北京:人民邮电出版社,2011∶ 39-51.

[3] JI Pengsheng, JIN Jiashun. Coauthorship and citation networks for statisticians [J]. The Annals of Applied Statistics, 2017, 10(4)∶ 1779-1812.

[4] 路荣,项亮,刘明荣,等. 基于隐主题分析和文本聚类的微博客新闻话题发现研究[C]//第六届全国信息检索学术会议论文集. 北京:中国中文信息学会,2010.

[5] 薛为民,陆玉昌. 文本挖掘技术研究[J]. 北京联合大学学报(自然科学版),2005, 19(4)∶ 59-63.

[6] BANCHS R E, 李亚宁. 用MATLAB做文本挖掘[J]. 国外科技新书评介,2014(6)∶ 16.

[7] WOLD S, ESBENSEN K, GELADI P. Principal component analysis [J]. Chemometrics and intelligent laboratory systems, 1987, 2(1-3)∶ 37-52.

[责任编辑:韦 韬]

Mining and Analysis of NIPS Conference Papers Using the Matlab

YAO Tao1, XIE Dong-qing2
(1. Guangzhou University Mathematics and Information Science College, Guangzhou 510006, China;2. Guangzhou University School of Computer Science and Educational Software,Guangzhou 510006, China)

In order to more efficiently understand the latest research developments in the relevant research areas through conference papers, this paper takes the NIPS conference papers of the year 2015 as a sample, and uses Matlab tools to conduct text mining of 403 papers, mainly from the angle of author affiliation, co-authors, and themes. An analysis reveals that the top 20 bodies the authors are affiliated to form a network of collaborators, and those with plenty of published papers are more interested in many categories of problems, as well as images and Gaussian processes. Image processing is the most studied topic at the conferences, and semantic analysis, text mining, neural network, and deep learning form the current development trend and hotspots. A PCA principal component analysis of topic classification reveals that different institutions which the authors are affiliated to cover different areas of research: Google tends to cover multiple areas, while IBM and Microsoft are more concerned with a certain aspect of the study. The results show that the use of Matlab on the various types of information mining and analysis can reveal the direction of a research field and the relationship between various bodies, the amount of documents and research hot spots.This method provides a quick reference for researchers to learn about conference papers and a line of thinking and direction for researching other types of conference papers.

text mining; matlab; topic analysis

TP391

A

1006-7302(2017)04-0057-09

2017-03-20

广东省自然科学基金面上项目(2016A030313540);广州市移动互联网安全与容灾重点实验室建设项目(2014SY000022);广州市属高校科研资助项目(1201430560)

尧涛(1992—),男,江西抚州人,在读硕士生,主要研究方向为数据挖掘与网络信息安全.

猜你喜欢
有向图主题词论文
极大限制弧连通有向图的度条件
有向图的Roman k-控制
《老年医学与保健》2017年第23卷主题词索引
本原有向图的scrambling指数和m-competition指数
一类含三个圈的本原有向图的m-competition指数
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词