聂 迪
(黑龙江省科学院大庆分院,黑龙江 大庆 163319)
数据挖掘是指从一定的原始数据中利用一定的方法挖掘其中的隐含信息的过程。数据挖掘是一种计算机科学,与统计学、情报学等有相关性。简单地说,传统的信息处理所采用的统计方法是线性的、简单的,而数据挖掘是将原始数据通过更为复杂的统计思维,纳入一些专家系统作为逻辑,以模式识别等方式来挖掘更为深刻的信息。
数据挖掘技术常用的方法如下:
神经网络法。该方法对高等生物的神经网络系统进行了模拟,使得挖掘工具的处理单元能够通过不断地学习来提升对数据的认知,就像一个人体一样,在不同的数据环境中,逐步形成自己的认知思维。具有抗干扰、非线性学习、联想记忆等优势。
决策树法。该方法是基于对目标变量产生作用的差异而形成分类,因此能够利用相应的标准对原始数据开展分类,并以于树形结构的形式存在。在决策树算法的发展中,经历了ID3算法、C4.5算法等。这种方法具有透明性、易于理解等优势。
遗传算法。该算法是对生物界群体繁殖以及基因结合等进行的模拟,利用基因结合、交叉变异、自然淘汰等模式,来实现数据的总结与学习,使得处理单元能够从不规则中找出规律。基于“适者生存”的原理,具有隐含并行性、容易与别的模型结合等优势。
粗糙集法。该方法能够对一些非完整的数据进行一定的处理,在一定的条件下可以实现对数据的弥补和完善,有一定的推理性和逻辑分析性,可以有效地建立预测模型。
模糊集法。该方法基于模糊集合理论对原始数据开展模糊评判、模糊决策,与粗糙集方法有一定的类似。
关联规则法。该方法在数据挖掘中经常被使用,以Apriori算法为主,能够找出所有的频集,并由此建立强关联规则。
第一,定义问题。为使数据挖掘活动具有清晰准确的目标,需要对要解决的问题进行定义,要清楚地定位需要解决的问题是什么,如评价科研成果、评价科研效率等,因为不同的目标和问题所需要的模型是完全不同的。
第二,构建数据挖掘库。在确定好需要解决的问题后,需要选择有效的原始数据。对于数据挖掘技术的实施来说,原始数据通常是越多越好,但并不是需要滥用,在收集到所有的数据后,要对其进行一定的选择,并对数据进行描述与汇总,利用传统的数据统计进行元数据的搭建,形成数据库。
第三,分析数据。通常是利用数据分析软件进行数据的初步分析,因为原始数据过于庞大,且很难找到重点,应借助SPSS之类的工具进行归类,找出不同影响性的数据。
第四,准备数据。具体工作是选择变量、选择记录、创建新变量、转换变量。
第五,构建模型。通过数据挖掘实现对某个问题的解决,需要的工作是多方面的,因此构建模型需要长期实行,反复开展,需要对大量的算法和数学逻辑进行参考,并在运行后反复优化。通常情况下会先用一部分信息构建模型,并利用剩余的信息对模型进行测试,甚至需要另一部分数据进行验证。
第六,模型的评价。在对模型初步建立之后,还需要对其进行综合性地评价,对不同的数据下得到的结果的合理性进行专家评价,使模型更有价值。在实践中,通过数据挖掘技术来解决一定的问题,还面临着经济、人力、技术等方面的限制,所以,应评价这种模型实施的各方面的可行性。
第七,模型实施。在建立了初步的模型并被认定为可行之后,就能够开展具体的实施,以对问题进行及时有效地解决。
要积极提升科研单位的信息收集能力,构建更广范的科技文献、专利信息、论文信息以及科研单位自身各类信息的数据库,包括科研工作者的基础信息、科研成果等,并充分使用。还应把科研管理的数据挖掘延伸到全球科研信息,如对于某个研究所来说,其研究的方向在全球有很多科研机构与成果,该单位就应在全球范围内进行原始数据的收集。原始数据的收集是重要的,也是很难完全做到的,如科研成果,不仅需要在主流的论文知识平台上进行信息的搜索,还有大量的专利平台、新闻报道、科学家的演讲等。在数据挖掘技术的发展中,应当对各类信息进行准确有效地收集,同时淘汰一些失去价值的数据,如过期的甚至错误的科研成果等。
在科研管理和科研活动中,应当充分意识到原始数据的重要性,对原始数据进行准确地保留,同时在对外部数据进行收集时,也能更好地筛选出有用的信息,有利于最终的数据模型的搭建。
针对科研管理及数据挖掘机制的开拓,还应从具体的科研管理项目决策上入手,使决策更具科学性。应基于信息筛选的理念,进一步细化科研管理工作,充分利用数据挖掘的优势思维,基于云计算的模式,对研究的领域、可能得到的学术成果进行深入的分析;积极地借鉴国内外相关学术成果的现有文献,找出最合适的研究思路,并对科学课题的创新性和可行性进行判断,对其意义与必要性进行判断。在数据挖掘思维及技术的指导下,科研管理项目的科学性很容易被监测,科研人员也能够被督促,使项目决策更具有科学性。
各类科研机构的科研项目,通常由科研工作者以某个机构的研究为主进行申请。和过去的科研活动管理、信息化技术的应用相比,科研工作者仅是根据具体的科研工作,向上级领导单位进行申请书的投递,而后者则对申请内容进行进一步分析。在具体的实践中,会出现申请力度不足、相关数据残缺、有一定的错误信息等,使得科研管理水平降低,有时会存在申请课题与实际需求差距较大,以致于最终申请无法通过。在数据挖掘技术的应用过程中,数据更加透明,也更为丰富,科研单位应掌握数据挖掘的思维和技术,对数据领域进行分析、研究、准确预测,探索构建科研管理、数据挖掘的模型,与此同时,基于数据可视化的理念,得到成型的相关报告,这可以给工作人员提供更为全面的数据信息,并对其中的内在联系进行梳理。较为准确的信息就能够对科研工作人员的工作进行全面地指导,使科研管理与数据管理达到深层次的服务目标,提高科研管理的质量水平。
科研管理工作牵涉诸多的科研资源,管理单位应对各种资源进行合理配置,进一步对数据管理进行优化。第一,对相关数据开展广泛的采集和初步的筛选,构建相应的数据管理资源库、人才库、科研成果库等。第二,对科研机构的自身发展进行一定的科研评判,构建相对健全的科研模型,包括科研资源研究模型、科研成果模型等,并对其中的参数进行有效地计算,进一步制定完善的管理规则。第三,利用定量化绩效考核的思路,及时搭建科研资源的基础配置。以决策支持管理工具为基础,有效地对相应的数据进行管理,基于数据挖掘的模式对科研机构的资源开展科学配置。