高霞
(郑州航空工业管理学院,河南 郑州 45500001155)
基于大数据的科技评价方法研究
高霞
(郑州航空工业管理学院,河南郑州45500001155)
[摘要]科技评价对象所涉及的数值、图像、声音具有全媒体、多维度、跨时间的特性,挖掘和运用这些海量数据,转化为直观的、随时间和空间变化的、以图形图像呈现在同行评议专家面前,可以有效提高评价的效率和效果。通过建立众包模式、数据整合和提取规则知识、将科技评价结果应用于实践、建立评价过程交互式可视化的流程以构建基于大数据的科技评价模式,这种模式存在着观念陈旧过时、数据挖掘能力、大数据处理速度、科技评价数据安全等方面的挑战。
[关键词]大数据;科技评价;数据密集型方法
科技评价是判断科技活动及其价值的认识活动,是基本的学术评价机制,是科学共同体和科学技术发展内在的要求,如对重大科学发现的优先权的识别,或者科学共同体内部的学术评价,目的在于促进学术交流、建立科学规范、引导研究方向。科技评价还是对科技活动进行预测、决策、管理的手段,是政府制定科技政策的依据,以及配置科技资源和进行有效管理的重要手段。就科技评价的形式看,无论事前评价、事中评价、事后评价,无论立项评审、中期评估、结题验收、绩效评价,无论政策评价、项目评价、机构评价、人才评价、成果评价,无论内部评价、外部评价,都需要借助于一定的数据支撑,数据越丰富,结果越可靠。科技评价中的同行评议法、文献计量法、经济计量法、多指标科技评价法同样也需要数据的支撑[2]。而目前以云计算为代表的技术创新大幕衬托下的大数据,将原本很难收集和使用的文本、图像、声音等充分利用起来,挖掘和运用这些海量数据,预示着新型科技评价方法的产生与应用。
同行评议是科技评价的一种基本方法,由相同或相近领域的专家学者以提问的方式进行科技评价,包括被评议对象、评议专家、评议标准三个要素。17世纪,英国皇家学会采取了与类似同行评议的做法评议学者的入会申请和会员的学术论文。1930年代,美国评价科研项目经费申请时率先引进了同行评议制度,此后欧美多数国家也采用这种措施,此后成为国际学术界通行的学术水准评价手段。同行评议过程中的公正性问题实际上是怎么样客观和无偏见进行科技评价,涉及专家熟悉程度的不同、评价标准的高低、评价结果偏离度的差异进行量化,学者们从不同的角度归纳了同行评议机构利益冲突的治理对策、学术不端行为的抑制、学术纯洁的保证等具有方法论和实践操作意义的结论,实际上,同行评议就是同行专家利用其较高的决策能力对科技评价对象所呈现出的不完全数据进行评判,同行评议不可能离开数据的支撑作用[3]。文献计量方法、经济计量方法、多指标科技评价方法就是利用数学、统计学、文献学为一体,借助于多维数据,注重量化的知识体系进行科技评价。
科技评价方法需要数据的支撑,突破常规数量级的大数据时代为科技评价提供了有效的工具,其可以高效处理和有效利用科技的经济价值、地理空间和涉及领域,保证科技评价过程公正、科学、可行。2008年,Nature推出了“Big data”专刊专门探讨大数据的研究,范围涉及互联网技术、超级运算、生物医学等方面。大数据报告“Big data,big impact:New possibilities for international development”在2012年达沃斯世界经济论坛上发布后,如何利用大数据创造良好社会效益的研究日益受到重视。2013年联合国“Global Pulse”报告阐述了大数据时代各国的机遇和挑战,美国政府的“Big data research and development initiative”计划就是为了研究如何从大型复杂数据集中提取知识。大数据的研究还处于起步阶段,主要集中于数据挖掘相关算法、应用、理论方面的研究,集中在部分高等院校、研究所和公司开展研究,在金融业、电信业、网络相关行业应用广泛,此外零售业、制造业、医疗保健、制药业及科学领域大量使用了大数据技术[4]。大数据的出现伴随着新的处理工具和新技术的出现,大数据的分析处理工具和技术是推动大数据发展的核心力量之一。凭借适合非结构处理和大规模并行处理等优势,以MapReduce和Hadoop为代表的非关系数据分析技术成为主流技术。2012年5月,以“大数据科学与工程—一新兴的交叉学科”为主题,香山科学会议组织讨论了大数据的理论与工程数据研究、应用方向,重点是大数据分析算法和大数据系统效率。华为公司提出了提供的基于x86服务器的Smart Vision大数据处理技术,引发数据基础架构的创新。如何高效地处理大数据、合理地利用大数据,如何融合关系数据库和非关系数据库,如何处理数据的不确定性和数据质量的关系,跨领域的数据处理方法如何移植等仍需要不断地探索发现[5]。但毫无质疑的是大数据的预测性作用日益凸显,大数据决策模拟可以最大限度地降低科技决策风险和成本,弥补科技决策方案中存在的漏洞,利用大数据协调科技决策相关的部门、事务和政策,避免决策对象边界模糊而引起的决策效能抵消,预知未来的事态变化做出警告,都将发挥重大作用。
由于大数据所表现的4V(volume、variety、velocity、value)特征,科技评价要求的高质量数据应当从多源、多模态、实时动态的数据中提取,需要运用数据密集型科学(Data Intensive Science)的计算方法区分哪些数据应该舍弃、哪些数据应该保留,确定哪些数据是结构化还是非结构化,确定数据资源与评价目的之间的最佳结合方式是什么。数据密集型计算的数据量级为TB或PB级,利用多种来源的海量时空数据,采用数据并行方法实现大数量并行计算的应用,实验、分析、模拟与发现科技评价的目的。数据密集型计算与云计算密切相关,云计算(Cloud computing)的基础是互联网络共享资源的算模式,以数据密集型计算技术支撑的服务端的商业模式,按用户的动态需要计算、储存、网络、软件等资源,提供任何人、任何时间、任何地点、任何信息的需求服务,将改变整个信息产业链,CPU、存储、服务、终端、操作系统及应用软件都将随之改变[6]。在数据密集型科学之上的科技评价不仅关心科技数据建模、科技事件描述、科技组织、科技文档保存、科技活动分析、建立科学数据基础设施,而且关心基于数据的、开放协同的研究与创新模式构建,关系如何利用泛在网络及其内在的交互性和开放性进行科技评价可计算化,利用海量科研数据进行知识对象化。数据密集型科学正在从计算科学中分离出来,用海量数据进行科技评价,必将影响到社会科学的研究模式,这就是Jim Gray所谓的“第四范式(the fourth paradigm)”。
科技评价的数据密集型方法首先建立一种“众包(crowd sourcing)”模式。众包与外包相对,外包强调的是高度专业化,众包强调的是自由自愿外包给非特定的大众网络。众包模式融合来自不同领域的众多科技评价专家的共享信息,融合群体智慧,利用新工具去分析、呈现、挖掘科技数据,进行深度加工与提炼,从评价数据中提炼出更多精细的知识。这种评价方式围绕数据密型计算方法的应用,以开放、专业、低成本的建立数据驱动型的科技评价协同组织,开发相应的具有可扩展性的评价数据分析算法,以提供科技战略决策。
科技评价的数据密集型方法第二步是进行数据整合和提取规则知识。通常情况下,从不同的层次、不同的角度看,数据整合与系统整合、存储整合、数据库整合、数据集中的意思比较接近,是共享或者合并来自于不同应用领域的数据,以创建具有更多功能的数据应用,包括物理整合、逻辑整合和应用整合三种方式,即为实现统一管理和快速反应而把多设备整合为较少几部更大型的设备[7];通过系统管理软件等手段虚拟化集中管理物理上分散的数据资源;通过整合服务器、存储、数据库而实现数据整合;通过汇聚、整合、共享和深度挖掘数据,对评价数据深度分析,创造性地进行多数据源管理,形成规则知识挖掘机制,以便从评价数据中提取规则知识,获得评价对象系统、全面、最新的知识,实现由数据到信息、由信息到知识的转化和升华,并利用提取的知识对科技决策能实时、动态地发挥辅助和支撑功能。通过数据密集型方法,不断积累和动态获取评价数据,能更加精细和动态的辅助科技决策,更迅速、灵活、准确的理解和解决科技评价问题,
科技评价的数据密集型方法第三步是将科技评价结果应用于实践。将数据挖掘技术应用于科技评价后,还要创新性地结合科技领域的特点和特定问题,创新同行评议小组成员结构,专家彼此之间多维度地协作,自由、精确、及时地贡献和获取信息,持续、高效、灵活地实时交互,针对同一个评价对象,整合分析跨地域、跨行业、跨部门的海量数据,个体决策与群体决策相结合,增强综合功效,形成系统智慧[8];在实际的科技评价过程中,先构建数据驱动型的科技评价战略,保证数据相关者之间的利益均衡,注意知识产权和数据隐私保护,解决好数据安全性问题,促进数据有效共享,实现科技评价的主旨和目标。
科技评价的数据密集型方法第四步是评价过程交互式可视化。交互式可视化是借助于图形化手段,将数据的各个属性值以多维数据的形式表示,将数据转换成图形或图像在屏幕上显示出来,有效地传达思想观念,清晰有效地交互处理、传达与沟通信息。评价过程交互式可视化就是在科技评价过程中,把科技评价数据包括数值、图像、声音转化为直观的、随时间和空间变化的、以图形图像表示的物理现象呈现在同行评议专家面前。通过科技评价数据深度挖掘过程的可视化方法进行人机交互,寻求规则知识的发现,通过人机交互式评价,让同行评议专家的知识融入到规则知识挖掘建模过程中,形成交互式挖掘算法和模型可视化。在大数据环境下的科技评价过程中,基础设施应当包括互联网服务体系和评价数据处理中心,关键技术是可视化交互分析和评价数据的深度挖掘,通过智能终端和互联网提供科技评价数据管理及分析。设计启发式的科技评价可视化交互分析引擎,需要建立计算平台和相应的算法库以便能处理大规模海量评价数据,并能与其他系统有效对接。
在大数据环境下的科技评价能够面向需求提供可行的解决方案还有很长一段路程,首要的是面临着思维方式转型的挑战,评价数据更加复杂,评价数据价值挖掘技术不成熟,不能有效的指导实践,基于大数据的科技评价并不是将大数据技术简单移植过来就可以的,获取、处理、共享科技评价数据的方法需要创新,深度挖掘数据价值的方法需要创新,科技评价理念和科技评价机制有待实质性突破等等都阻碍科技评价的大数据技术方法的应用,
3.1传统的科技评价观念陈旧过时
传统的科技评价一般是按照事先设定的程序获取数据,基于大数据的科技评价则是从规模巨大的、彼此可能毫无关联的数据流/集中进行数据抽取;传统科技评价的对象大多是静态、个态、相对封闭,基于大数据的科技评价对象则是动态、系统、开放、整合;传统的科技评价人员具有统计学、数学、信息科学等专业知识,基于大数据的科技评价则要求评价人员具有创新性的思维、多学科背景、敏锐的洞察力[9]。运用大数据进行科技评价,目前缺少评价数据整合技术及方法,缺少有效的数据过滤技术与方法,缺少新兴技术如Hadoop的支撑,这些技术上的障碍可能很快突破,最重要的是科技评价思维上的转变,要以观念创新为先导,人才是最积极、最活跃的因素,树立培养评价人才和数据深度挖掘技术人才优先的思想,正确认识评价数据的潜在价值,探索新的评价模式下的具体应对手段,管理决策部门要把创新驱动的理念贯穿在科技评价的每一个环节中,要树立创新理念,搭建创新平台,拓展创新渠道,延伸创新触角,提高创新水平,最大限度地调动各方面同行评议专家和相关科技人才的积极性和创造性。
3.2多样性数据类型挑战数据挖掘能力
基于大数据的科技评价指标数据来源多样,如来自物联网、互联网、复杂物理信息系统;基于大数据的科技评价指标数据模态差异大,如图数据、关系数据、XML数据、矢量数据、标量数据、流数据等;基于大数据的科技评价指标数据价值密度低,实时性可能也很低,大量信息不具有相关性,对知识进行提纯的难度高,需要生成、存储、处理和分析大量数据。因此,基于大数据的科技评价过程更加复杂,需要掌握挖掘算法的有效性和可伸缩性,需要对现有架构、组织体系、资源配置进行重组,需要更强大的科技评价数据处理能力和手段,需要能对多模态数据进行融合计算,需要从多源、多模态、实时动态的数据中提取高质量数据的评价数据过滤方法,放弃常驻内存的小数据集,打破评价数据分析流程的算法效率瓶颈,解决大型数据库中的数据同时导入问题,随着数据规模的不断增大,实现精确整合和发现数据规律的指标融合计算技术解决途径[10]。
3.3处理大数据的速度挑战其时效性
基于大数据的科技评价指标数据规模会变得越来越大,分析处理的时间相应地越来越长,这与信息处理要求越来越高的时效性非常矛盾;当评价数据规模达到一定阈值时,数据维度和规模呈PB级增长,线性复杂度的算法都难以接受,小数据条件下无从显现的特征不断涌现,需要有效的人工智能算法和求解方法。传统的科技评价往往忽视或漏掉博客、碎片化交流、搜索痕迹、移动工具数据、传感设备数据等网络数据,这些数据可能恰恰是科技评价的关键数据,基于大数据的科技评价就是充分利用这些数据,深度发掘其关联规则和现实价值,从复杂的关系或网络中直接获取数据和规则知识,通过对多源、多模态和异构数据进行实时分析,有助于我们深刻了解科技评价对象,得出其中隐含的模式、未知的关联及其他知识,较之传统的因果关系更具有实用性和精准性。
3.4科技评价数据安全挑战实践指导
科技评价信息随着技术的发展发生跨边界传播,安全保密、知识产权、个人信息、隐私数据等问题相伴而生,需要建立相应的强大安全防御体系保障数据存储的物理安全性以及数据的多副本与容灾机制,发现和识别安全漏洞,这就需要新的算法与新的分析工具,缺乏新的数据类型与新的数据分析技术是阻碍科技评价结果具有实践指导作用的重要方面。相对于传统凭借经验和直觉的科技评价,基于大数据的科技评价如果能够发现创新管理模式和决策方案,将会强化评价结果的实践指导作用,实现智能决策和持续学习,需要进一步创新评价方法的应用。
总之,基于大数据的科技评价需要融合知识工程与计算机系统,利用人的知识经验和知识工程等方法来处理难于或不适宜用常规评价的复杂系统问题,由知识模型转化为计算机模型,实现对科技评价的可视化,对多种评价方面进行比较和遴选,提供人机交互式评价。
在大数据环境下,传统的科技评价方法需要应用新的数据分析技术,通过快速采集、发现和分析数据,从中提取有价值的信息,形成一种有效的可做决策依据的“洞察力”。基于大数据的科技评价以全面、集成的视角开展深入挖掘海量、多源、动态的数据,通过对大数据的交换、整合和分析,从定性到定量有机集成人的知识、经验和智慧与各种客观数据,设计可视化的交互式界面,为科技评价对象的遴选和实施提供理论和方法支持,为寻求大数据环境下科技评价规则提取新思路和新方法,形成大数据环境下的科技评价模式,揭示科技评价的运行规律,将知识更广泛而深刻地传播,为科学的决策发挥作用,带来大知识、大科技、大利润和大发展,具有较强的适用性和可拓展性。构建大数据环境下的科技评价规则,充分利用大数据,发现新知识,创造新价值,需要具有前瞻性思维的实干型领导者制定相应策略并贯彻执行,需要大数据资深分析型人才、管理人才、技术人才的支持。
参考文献:
[1]Cloud computing,the free encyclopedia. http://beagood boy.iteye.com/blog/
[2]Anal S,Walker D. Creating Social Contagion Through Viral Product Design: A Randomized Trial of Peer Influence in Networks[J]. Management Science,2011(9): 248-256.
[3]邹贺检.大数据时代的机遇与挑战[J].求是,2013(2): 31-32.
[4]郭亚军.科技评价理论、方法及应用[M].北京:科学出版社,2007.
[5]邱均平,文庭孝.评价学理论、方法、实践[M].北京:科学出版社,2011.
[6]陈衍秦.科技评价方法分类及研究进展[J].管理科学学报,2004(2):73-75.
[7]李建中.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(6):22-23.
[8]冯芷艳等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013(1):105-107.
[9]林志刚,彭波.大数据管理的现实匹配、多重挑战及趋势判断[J].改革,2013(8):8-10.
[10]缪其浩.大数据时代:趋势和对策[J].科学,2013(4): 56-57.
Research on S&T Evaluation Method Based on Big Data
Gao Xia
(Zhengzhou Institute of Aeronautical Industry Management,Zhengzhou Henan 450015)
Abstract:S&T evaluation involved numerical,image,sound have the characteristics of all media,multi-di⁃mension and time-cross. Mining and using these huge amount of data and transforming to intuitive ones which change with time and spaceand are presented in front of the peer review expertsin graphical images,can effec⁃tively improve the efficiency and effectiveness of the evaluation. Through the establishment of crowd-sourcing model,data integration and knowledge on extraction rules,we applyscience and technology evaluation results in⁃topractice,and construct evaluation process with interactive visualization in order to promote the construction of science and technology evaluation pattern based on big data. This pattern has challenges such as obsoleteidea,data mining capacity,speed of big data processing,security of S&T evaluation data and other aspects.
Keywords:Big Data;S&T evaluation;Data Intensive Method
作者简介:高霞(1980.10-),女,副教授,研究方向:创新管理与公共管理的教学与研究。
基金项目:国家社科基金(14BJL004);河南省社科规划课题(2013CZZ011);河南省政府招标课题(2015B049);河南省教育厅人文社科研究项目(2015-QN-023)。
收稿日期:2015-10-19
[中图分类号]G311
[文献标识码]A
文章编号:1671-0037(2015)11-27-4