唐燕++韩爱庆++张宝瑛++张未未
摘要:该文以CNKI为数据源,对2009年-2016年高校大数据相关文献进行计量分析。通过文献数量、文献机构来源、文献发表期刊、关键词词频分析,以及关键词共词矩阵、知识图谱的分析,分析出高校大数据相关研究情况和研究热点,为今后科研人员开展研究提供参考。
关键词:高校;大数据;文献计量学;知识图谱
中图分类号: G250.2 文献标识码: A 文章编号:1009-3044(2016)26-0010-04
Bibliometric Analysis of Big Data in Colleges and Universities in China in 2009-2016
TANG Yan, HAN Ai-qing, ZHANG Bao-ying,ZHANG Wei-wei
(Information Center, Beijing University of Chinese Medicine, Beijing 100029,China)
Abstract:This article introduce the bibliometrics analysis of big data related literature in colleges and universities in 2009-2016. Through the bibliometrics analysis of the literature and literature sources, literature journal, CO word matrix of keyword analysis, keyword, knowledge mapping analysis, draw the data related researches and the research hot spot, which can provide the reference for future researchers.
Keyword: University; big data; bibliometrics method; knowledge mapping
1研究背景
随着云计算、互联网的发展,人类社会已经进入大数据时代。大数据包括各个系统中数据库中的结构化数据,也包括由社交媒体、邮件、视频、音频、文档信息和网页所产生的非结构化数据。
大数据已经成功应用于政治、经济、文化、社会等各领域,已成为一个事关国家发展的产业。2012 年3 月29 日,美国政府宣布了“大数据研究和发展倡议(Big Data Research and Development Initiative)”,以推进从大量的、复杂的数据集合中获取知识和洞见的能力,并承诺政府将为此投资超2 亿美元,许多重要国家机构都将参与其中。2012 年7 月10 日,联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》,指出各国政府应当使用极大丰富的数据资源,更好地响应社会和经济指标。日本总务省于2012 年7 月新发布“活跃ICT日本”新综合战略,提出正针对大数据推广的现状、发展动向、面临问题等进行探讨,以期对解决社会公共问题做出贡献。
同时,大数据正在给零售行业带来深刻的变革,比如美国的亚马逊,中国的阿里巴巴、腾讯等企业。电商利用大数据预测人们的购买行为,预知消费趋势,并对人们未来的选择做出一些推荐。大数据也影响着每个人的工作、生活和学习。生活中,人们基于大数据的移动应用随时叫到出租车;甚至有数据分析家分析Facebook上的信息,来判断恋人们是否会分手。
大数据技术的目标就是从这些数据中挖掘信息、判断趋势、提高效益。“大数据”是继物联网、云计算之后IT 产业又一次颠覆性的技术变革。如何在教育信息化领域充分理解并迎接大数据技术带来的机遇和挑战,利用海量数据来挖掘信息、判断趋势、提高效率?这是高校信息化部门未来建设数字化校园过程中的必由之路。
高校信息系统也是数据生产大户。麦肯锡全球研究中心的最新数据显示,仅2009 年,美国国家教育部的某信息系统的数据库就膨胀至269 P 字节(1 个P 字节等于10 亿个M 字节)。在中国的高校里,学生的学籍、选课、成绩、借书、BB平台、科研系统、实习情况、就业情况、上网、论坛、微博、一卡通、门禁等都会产生大量数据;教师的OA系统、基本信息、科研情况、讲座、上课课件、视频、远程教育课程等也会产生大量数据;实验设备、机房、实验室、图书等信息,也会产生大量数据。所以高校信息系统通常庞大、复杂,经过多年运营,已经积累了很多数据,这就是高校信息系统中的大数据。
高校中的大数据有很高的教学与科研价值,通过大数据分析,为学校管理部门提供科学的决策支持,帮助教学管理部门优化教学资源配置,优化招生、就业指导等工作。在这个信息非常宝贵的时代,高校的师生们都将从大数据技术中受益。本文采用文献计量学方法,对我国2009年至2016年大数据在高校的相关文献进行统计分析,旨在了解该领域的研究现状、研究热点和发展趋势,为科研人员和技术人员提供参考。
2 数据来源与处理方法
2.1数据来源
本文选择CNKI中国知网数据库作为检索数据来源,检索策略为:(主题=大数据 或big data) 并且 (摘要=高校 或 大学)。检索时间范围为:2009年至2016年的数据,共检索出1340条记录,检索时间截止2016年3月9日。
本研究分析的文献均来自于国内学术期刊、会议论文和学位论文,剔除新闻、短讯、消息、会议通知等文献,并经过人工筛选剔除不属于大数据和高校主题相关的研究文献以及资料不全、数据缺失的文献。经过筛选共有1258篇文献与本文研究领域相关,作为文献研究数据。其中,期刊论文1143,学位论文89篇,会议论文26篇。
2.2分析方法
本文应用计量分析法分析文献发表年度分布、文献发表地区分布、文献机构来源分布、文献发表期刊等情况;并进一步研究文献的高频关键词,分析关键词共词矩阵,绘制高频关键词知识图谱,探讨高校大数据的研究热点和研究前沿。
在研究过程中利用Excel、Access软件对检索到的文献数据进行数据分析前期的数据清洗、数据管理;使用SATI3.2软件进行信息的抽取,使用Ucinet软件生成数据文件,并通过NetDraw进行知识图谱的可视化展示。
3 文献计量分析
3.1文献年度发表数量分布
对研究文献按年度统计文献数量,结果显示:2009年文献5篇,2010年4篇,2011年7篇,2012年9篇,2013年86篇,2014年336篇,2015年739篇,2016年截至3月9日发表文章58篇,另有15篇年代不详。统计结果如表1所示。通过文献数量可以看出,2012年以前,国内大数据技术在高校中的应用比较少,尚处于萌芽状态;2013年开始增长,2014之后迅猛发展,2015年文章数占2009-2016.3月文献总数的一半多。
表1 2009-2015年高校大数据相关文献数量
3.2 文献来源机构分布
分析文献的来源机构,可以为该领域各科研机构的科研成果、学术水平提供科学依据。本文提取文献中作者的所在机构,并将同一学校不同部门、更名机构合并为同一机构,分析机构来源情况。分析得出,文献来源于619个科研机构,并按发文量由高到低排列,位于前12位的机构及发文量如表2所示:
表2 高校大数据发文量前12名的机构分布
通过表2可以看出发文量较高的大学主要位于上海、北京、南京、广州等这些经济比较发达的地区,大部分是重点大学,这些高校在大数据方面的研究开展较早,投入较多,研究基础较好。
使用Access软件,对不同机构之间的合作发文情况进行统计,机构间合作发文95篇,占总文献数的7.1%。单个机构发文数量远远高于合作发文,目前不同机构在高校大数据方面的合作还比较少。
3.3文献发表期刊分析
选择1143篇期刊文献,经过统计,共发表在518种不同的期刊上,发文量排名靠前的期刊分别为《中国教育网络》26篇,《农业读书情报学刊》22篇,《中国教育信息化》17篇,《兰台世界》17篇。统计发表文献数量排在前十的期刊,如表3所示,这些期刊占518种期刊的1.93%,但是发文量共162篇,占全部期刊文献的14.11%。说明这些期刊中发表高校大数据方面的文章较多,是高校大数据研究的重要阵地。
表3 国内高校大数据相关文献排名前10的期刊分布
3.4 文献关键词分析
文献的关键词一般有3-5个词或词组组成,能体现出文章的核心思想。对关键词进行分析,找出高频关键词,发现研究领域的热点问题。本文共提取1258篇论文中的关键词4853个,整理、合并部分意思相同的关键词,频率最高的29个关键词如表4所示:
表4 高校大数据相关高频关键词
从表4中可以看出,“大数据”词频最高, “高校图书馆”、“高校”、“思想政治教育”、“MOOC”、“数据挖掘”“互联网、互联网+”等关键词出现的频率也较高,可以看出这些都是大数据在高校的研究热点。
但是,单个关键词的词频不能够说明关键词之间的关系,还需要进一步进行关键词共词分析的研究。
3.5 关键词共词分析
关键词共词分析是对关键词两两统计其在同一片篇文献中出现的次数,构建共词矩阵,进行聚类分析,从而找出关键词之间的联系,进一步解释该领域研究热点之间的联系和结构关系[4]。
本文使用Excel中的“数据透视表”功能,创建所有关键词共词矩阵,选择矩阵中关键词词频较高的部分数据,显示在表5中。
上面的共词矩阵中,对角线显示单个关键词在文献中出现的次数(注:此处关键词没有进行人工整理、合并),其他单元格显示行和列对应的两个关键词同时出现在文献中的次数。该矩阵以对角线为对称轴对称,沿对角线方向,矩阵上下部分数据完全一致。
为了研究高频关键词之间的关系,将表5所示的共词矩阵导入到Ucinet软件中,生成*.h的数据文件,并通过NetDraw可视化软件绘制关键词之间的知识图谱,生成如图1所示的高校大数据关键词知识图谱。
在图1中,不同的节点代表不同的关键词,节点的大小说明了关键词的中介中间性。处于整个图中心位置的“大数据”关键词,节点最大,说明位置最为重要。节点之间线条的粗细程度代表了节点表示的关键词共现的次数的多少。线条越粗,说明两个关键词共现的次数较多,关系较为密切。
图1中,关键词“大数据”位于核心位置,是这两年研究的重点。“高校图书馆”、“高校”、“思想政治教育”、“MOOC”、“数据挖掘”“互联网、互联网+”等关键词,也是大数据在高校领域的研究热点。
4 结论
综上所述,通过对2009年-2016年CNKI上高校大数据相关文献进行计量分析法、内容分析法和可视化分析法,得出以下结论:
文献数量上,2012年以前,研究较少,处于萌芽状态;2013年开始增长,2014之后迅猛发展。文献的数量与大数据在我国的发展相吻合。媒体将2013年称为中国的“大数据元年”。这一年,大数据开始走向各行各业,阿里、百度等企业与政府签署了战略合作框架协议,推动大数据在政府统计中的应用。教育、医疗等行业也认识到大数据对于解决面临的种种问题具有重要战略价值,大数据技术在各行业的研究应用逐步增多。从数据可以看出,从2013年开始,大数据技术与高校相关的文献迅速增多,大数据在高校的研究与应用越来越多。
从文献发表期刊可以看出,近年来虽然文献数量快速增长,但是,发文期刊主要集中在教育信息化、教育教学、图书情报方面。高校大数据研究集中在教育、情报图书馆、计算机科学领域,具有学科交叉性,但是目前对大数据的研究还处在初期的理论、概念、设计方面的研究,大数据技术的深入研究、行业的实际应用方面还比较薄弱。
通过关键词词频分析、共词矩阵、知识图谱的分析,可以看出在高校围绕大数据开展的热点研究主要集中在三个方面:
1) 大数据在高校图书馆、信息服务、知识服务、数据分析、数据挖掘方面的研究;
2) 大数据在人才培养、高等教育方面引起的变革,以及MOOC教学模式的引入也是研究的热点内容;
3) 大数据、云计算、物联网技术在高校管理的信息化、数字化,以及建设数据中心,建设智慧校园中必不可少的。也是高校大数据的研究热点。
总之,高校大数据的相关研究已经取得了一些成果,今后科研人员还需要注重研究的深度,注重大数据关键技术在高校中的应用的研究,将理论成果向实践应用转化,为高校、乃至整个教育行业带来深远的影响。
参考文献:
[1] Spiroski,Mirko.Relative Citation Ratio of Top Twenty Macedonian Biomedical Scientists in PubMed:A New Metric that Uses Citation Rates to Measure Influence at the Article Level[J].Open access Macedonian journal of medical sciences,2016,4(2):187-93.
[2] Huang,Ying,Schuehle,Jannik,Porter,Alan L.A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data[J].SCIENTOMETRICS,2015,105(3).
[3] Bragge,Johanna,Korhonen,Pekka,Wallenius,Hannele.Scholarly communities of research in multiple criteria decision making:a bibliometric research profiling study[J].international journal of information technology & decision making,2012,11(2):401-426.
[4] 杨瑞仙.大数据研究的文献计量分析[J].情报科学,2015,33(8):152-156.
[5] 桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报(综合版),2013,13(2):84-87. (下转第16页)
(上接第13页)
[6] 姜开达,章思宇,孙强.基于Hadoop 的校园网站日志系统设计与实现[C].中国高等教育学会教育信息化分会第十二次学术年会论文集,2014(11).
[7] 崔雷,郑华川.关于从MEDLINE数据库中进行知识抽取和挖掘的研究进展[J].情报学报,2003(4):425-433.
[8] 杨绎.基于文献计量的“大数据”研究[J].图书馆杂志,2012,33(9):29-32.
[9]李贺,袁翠敏,李亚峰.基于文献计量的大数据研究综述[J].情报科学,2014,32(6):148-155.
[10] 侯元元,黄裕荣,张红,等.基于文献计量的我国大数据研究进展分析[J].图书情报工作,2014,58(12):204-208.