金露
(安徽财经大学统计与应用数学学院,安徽 蚌埠 233041)
数据挖掘 (Data Mining),又称数据库中的知识发现 (KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个具有很高应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术[2]。本文从涉及数据挖掘的关键词角度出发,采用共词分析法对高频关键词进行研究。通过分析,了解目前以及未来数据挖掘研究的热点领域,了解我国数据挖掘的发展现状,以期更好地推动我国数据挖掘的发展。
(一)数据的收集与整理
本文选择“中国学术期刊全文数据库”为数据来源,期刊来源类别为“核心期刊”,题名中包括“数据挖掘”,时间范围是2005-2009年,共检索到相关文献1289篇。这些论文发表在366种学术期刊上,期刊发文数的分布呈现幂指数分布(y=132.11X-0.8689)。
从发文期刊的情况看,《现代商场化》的发文数为80,在众多期刊中位列第一,其次为《计算机工程与应用》,发文数为74,第三是《计算机工程与设计》,发文数为55。位列前十的还有:《计算机工程》、 《微计算机信息》、 《计算机应用研究》、《计算机科学》、《情报杂志》、《计算机应用》、《统计与决策》。从发文期刊的分布情况来看,数据挖掘技术的研究应用主要集中在商业与计算机领域。
关键词是为了文献标引工作而从学术论文中选择出来用以表示全文主题内容信息款目的单词和术语。某一学术研究领域较长时域内的大量学术研究成果的关键词的集合,可以揭示研究成果的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向等[3]。笔者检索得到的1289篇期刊论文中共有关键词4692个,篇均3.64个。
由于关键词是未规范的自然词语,笔者利用手工方式对关键词进行清洗,主要有以下两种方式:
1、合并。这种方式是把表达内容一致的词用一个常用的词来代替。如Apriori模型、Apriori算法等用Apriori替代,CRM用客户关系管理替代。
2、舍弃。这种方式主要针对系统自动生成的关键词,这类关键词无法准确表达文章的主要内容,舍弃这类关键词。另外还有如“应用”、“算法”等名词,不适合做为关键词,也将其舍弃。通过上面两种方式,最后得到2061个关键词,从中选取频次大于等于10的关键词作为高频关键词 (见表1),共提取出36个高频词,占关键词总数的1.75%,出现频次共为1934次,占总体的41.2%。
表1 高频关键词
(二)数据处理及分析。
在期刊论文、学位论文、会议论文等文献当中,存在着一些关键词经常同时出现在同一篇文献中的现象,这种现象称为关键词共现现象[4]。根据关键词共现矩阵,构建社会网络图,反映研究领域的亲疏关系。通过各节点的中心性指标,分析目前以及未来的研究热点。
1、社会网络分析。社会网络分析主要指网络中心势分析,网络中心势是反映关键词网络中各个节点的差异性程度,包括点度中心势、中间中心势以及接近中心势[4]。
图1 高频关键词社会网络图
通过Excle软件,计算出36个高频关键词的共现矩阵,利用Ucinet软件,把关键词共现矩阵数据转换成社会网络图 (见图1),得到网络整体的点度中心势指标值是29.92%。,中间中心势指标值是15.17%。由于该网络中存在孤立点GIS,因此无法计算接近中心势。从结果看,网络的集中趋势并不非常明显。
2、节点中心性分析。
节点的中心性是指每个关键词在网络中所处的地位,分为点度中心度、中间中心度以及接近中心度。通过Ucinet得到了36个关键词的三个中心性指标的数据 (见表2),进行归一化处理 (将表2中A、B、C各列的数值除以该列数据的最大值)得到归一化数据 (见图2)。
从图2可以看出以下几点:
(1)随着点度中心度指标递减,接近中心度呈现上升趋势,但是差异不大。根据接近中心度很难判定哪些方面处于研究的核心地位。
(2)关联规则的点度中心度和中间中心度都最高,接近中心度最小,由此可知,关联规则在网络中处于核心地位,是当前研究的热门话题。同时,关键词网络也反应了此现象。
(3)关联规则、聚类分析、决策树、遗传算法这4个关键词的点度中心度和中间中心度都比较高,这反应出目前的研究重点为数据挖掘的算法技术领域。近几年,数据挖掘技术的日益成熟,已在保险、零售、金融等行业广泛流传。
(4)此外,Web数据挖掘的点度中心度虽然不高,但中间中心度较高,表明目前Web数据挖掘的地位不高,但是正逐步成为研究热点。其影响也越来越高,Web数据挖掘影响其他关键词的能力也越来越强。
表2 关键词的中心性数据
图2 三个中心性指标的归一化数据
本文通过高频关键词的网络中心势分析以及节点中心性分析,对国内数据挖掘领域的研究有了较深入把握,得出以下结论:
(一)数据挖掘的研究内容方面
通过高频关键词的节点中心性分析,看出关联规则是目前研究的热门话题,以关联规则为首,聚类分析,决策树、遗传算法等数据挖掘技术是当前的研究重点,Web数据挖掘是未来的研究趋势。
(二)数据挖掘研究存在的主要问题
1、数据挖掘的理论研究与应用研究脱节。当前,数据挖掘的研究主要集中在理论层次,如数据挖掘的技术、方法、任务等方面,对其应用研究相对不足。笔者认为,目前理论研究已经达到一定的高度,应用研究的发展没有跟上理论研究的步伐,应充分利用理论研究的成果,为应用研究服务,扩大其研究范围的深度和广度。
2、数据挖掘的研究领域冷热不均。根据数据挖掘各文献的发文期刊统计结果可以看出,数据挖掘的研究领域主要涉及商业及计算机方面,反应了研究领域存在冷热不均现象。有效解决“冷门”问题,要求研究人员有创新意识,从不同角度,不同层次利用数据挖掘,更好地发挥数据挖掘的科学决策作用。
3、对复杂数据挖掘的关注度不够。目前数据挖掘的研究主要以简单数据挖掘为基础,对复杂数据挖掘的研究并不理想。例如WEB挖掘,这种能快速、有效地从网络上获取理想资源的技术还未得到普及[5]。笔者认为,随着信息化时代脚步的加快,多媒体信息在日常生产生活中充当着越来越重要的角色,如何有效攫取隐藏在多媒体数据中的信息,复杂数据挖掘技术必不可少。
4、对数据的保护意识欠缺。在所有高频关键词中,唯一与数据保护相关的关键词为“网络安全”,出现频次为12,仅占总频次的0.6%。这深刻反映了目前我国研究人员的数据安全性和保护性意识严重缺乏。如何防止私有信息的侵犯以及保护敏感信息泄露尤为重要,应该引起足够重视。
[1]冯建彪.浅谈数据挖掘技术与应用[J].科技促进发展,2009(6):88.
[2]员巧云,程刚.近几年我国数据挖掘研究综述[J].情报学报,2005,24(2):250-256.
[3]魏瑞斌.基于关键词的情报学研究主题的分析研究[J].情报科学,2006,24(9):1400-1404,1434.
[4]魏瑞斌.社会网络分析在关键词网络分析中的实证研究[J].情报杂志,2009,28(9):46-49.
[5]石志国,薛为民,王志良.隐马尔可夫模型实现复杂数据挖掘[J].电脑开发与应用,2003,16(4):4-6.