赵亮等
摘 要:创新方法是创新经验和技巧的高度总结,是技术创新的“孙子兵法”,传统创新方法在互联网技术推动下的“大数据”时代,在创新资源相关数据的获取和融合效率方面面临新的机遇与挑战。文章通过对大数据技术与方法以及围绕着大数据环境下的企业技术创新与管理决策相关技术与方法的研究,通过院校合作,构建起大数据环境下的技术创新与决策的技术框架体系,依据技术创新“双向决策模型”,通过数据的在线收集与预处理、大数据存储与预处理技术体系、创新资源数据的可视化技术与决策技术方法和创新应用工具的开发四个子项的实施,实现技术创新的“评估与预测”和“监测与预警”。结合企业研发与技术创新实践,希望能帮助企业实现更加精准的技术创新决策。
关键词:创新方法;大数据;技术创新管理
引言
提高国家与企业的自主创新能力是建设创新型国家发展战略的核心和提高综合国力的关键。国家、企业间的竞争既要依靠创新,也受到创新效率的影响。先进的创新方法是保证创新效率的基础。创新方法是创新经验和技巧的高度总结,是创新的兵法。如何将创新方法的最新研究成果转化为现实生产力是当前高效创新驱动面临的挑战。另一方面,互联网技术推动下的“大数据”时代的来临,企业通过从海量的数据中萃取有效知识并将其转化为新的商业竞争优势[1]的信息管理思想和技术方法正在实现。如何有效使用“大数据”来实现对创新方法的创新,则成为了目前学术界与企业界广泛关注的焦点。因此,文章希望通过大数据技术与方法的深入研究,利用大数据技术来变革和提升创新方法、思维体系与管理模式,并促进企业自主创新和生产力的快速提高,使技术创新管理工作适应企业创新实践的新需求。
1 研究背景
1.1 大数据的研究进展与趋势
自1998年美国硅图公司(SGI)的首席科学家John R.Masey提出了大数据概念以来,随着网络技术的发展人们在近年来从海量数据分析的角度转向大数据。其中,以Facebook为代表的社交网络软件的应用,直接导致大量非结构化数据的涌现,并促进了针对非结构化数据查询与处理技术快速发展。2008年,《Nature》杂志出版专刊《Big Data》针对多个学科的实际研究现状系统地介绍了“大数据”所蕴含的潜在价值和挑战。2011年,《Science》杂志出版的专刊《Dealing with Data》标志着“大数据”时代的到来[2]。随后,美国奥巴马政府在2012年3月推出“大数据研究开发计划”(Big Data Research and Development Initiative)。该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式[3],从而实现从“数据分析能力”向“数据决策能力与优势”的转化[4]。
目前,针对大数据的概念与定义还存在着许多不同的分析角度。其中,大数据研究机构Gartner对“大数据”的定义为:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”的资产属性暗含了通过“分析”可以给其拥有和控制者带来预期的利益,它是从数据中萃取知识,并将其转化为商业竞争优势的智能化活动。麦肯锡公司(McKinsey)看到了个人海量信息具备潜在的商业价值,成为最早应用“大数据”的公司,并发布了关于“大数据”的麦肯锡报告[5]。
我国在2011年12月,国家工业和信息化部发布的《物联网“十二五”发展规划》上,将信息处理技术作为四项关键技术创新工程之一被提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分[6]。2012年5月,主题为“网络数据科学与工程─一门新兴的交叉学科?”的香山科学会议在北京召开,随后以李国杰院士为核心的计算机学科专家学者纷纷就围绕“大数据”定义的“数据科学”的理论框架与算法应用等问题进行了综合性的归纳研究与讨论[7]。北京航空航天大学马帅教授等就对“大数据”的异构数据模型与存储、复杂数据智能分析、数据质量以及大数据安全性等问题也进行了分析和讨论[8]。如何合理高效的利用这些海量的数据资产,使其为国家治理、企业创新与决策提供优化的服务,则是目前企业创新过程中面临的一个重要的挑战。
1.2 大数据环境下创新管理的双向决策模型
针对大数据环境对科技创新决策管理带来的挑战,中国科学院的王飞跃教授在处理与分析大数据使其有效支撑科技决策问题中构建了面向大数据和开源信息的科技态势解析与决策服务[9]。而北京理工大学朱东华教授针对美国“大数据研究开发计划”项目的深入调研,尤其是针对大数据计划最核心的美国国防部及国防部高级研究计划局在相关立项中的侧重点与项目目标的分析,发现从传统的“目标驱动决策”向“数据驱动决策”的重大转型是美国国家战略应对大数据环境的最直接变化之一。而基于传统数据分析方法的“评估与预测”理念也正在向“监测与预警”转化。有效地利用大数据环境,深入挖掘与分析潜在技术竞争情报,监测技术的发展动态,分析潜在的网络威胁与攻击,正是大数据环境下美国政府的全新国家战略思维与部署。同时,研究团队在整合技术创新管理现有理论方法的基础上,构建了面向技术创新管理的双向决策模型,即目标驱动模式与数据驱动模式并行的双向决策模型[10](见图1)。一方面,以传统目标驱动为基础,形成以传统数据挖掘技术与方法为核心的数据获取、处理、分析、支持决策的技术评估与预测模型。另一方面,围绕大数据环境下的复杂数据特征与环境,采用当前数据挖掘领域应用于大数据处理的新方法、新思路,形成以自组织动态实时监测为核心,能够有效预警并积极处理突发事件的技术监测与预警模型。
技术评估与预测模型围绕双向决策中的“目标驱动决策”展开,在大数据环境下,采用常规的数据挖掘方法,通过数据采集、加工与分析计算等步骤,将数据转化为可供技术创新决策目标支持的有效知识或观点。具体运用在技术创新管理工作中,“目标驱动决策”模型通过有目的的对大数据环境下科技、网络以及其他数据中的潜在信息进行有效萃取与分析,实现对具体技术领域的“知识发现”与“可视化”,从而达到评估技术发展状态,预测技术发展趋势的最终目的。
技术监测与预警模型以数据为驱动,不同于事先制定目标,依目标的需求进行相应的数据挖掘工作。技术监测与预警模型通过规则的建立与基于机器学习的算法训练,形成专注于“数据”本身的实时监测模型,通过对小规模数据的训练与学习,形成反应并处理相应大数据的人工智能。在技术创新管理工作中,基于传统数据挖掘方法的基础上,融入能够响应动态数据变化的动态数据挖掘理念,通过提升机器的自组织与自学能力,从而达到分析潜在新兴技术的发展动态,挖掘可能促进技术升级的核心技术,监测竞争对手相关技术领域的最新进展,并针对这一切可能情况做出及时并有效的反应,实现技术监测与预警的目的。面向技术创新管理的双向决策模型,整合传统的“目标驱动决策”与大数据环境下的“数据驱动决策”理念及方法,分别从“技术评估与预测”及“技术监测与预警”两个方面创造性的构建了适用于技术创新管理的新方案,为应对大数据环境,企业高效实施技术创新提供了行之有效的新路径。
2 大数据环境下企业技术创新方法
与传统创新数据的获取相比,大数据改变了创新方法与过程的数据来源以及环境基础,为挖掘知识数据中隐藏的价值带来了新的机遇和新的挑战。创新方法需要数据的支持,而大数据技术通过对海量数据的分析可以最大程度地降低创新过程中的不确定性,以及知识转化和推理过程中的难题。甚至以数据为基础的定量分析方法也有逐步取代耗时耗力的以专家为基础的定性分析方法的趋势。为了更好地将技术创新工作与大数据应用环境相结合,以应对大数据条件下,复杂的国际间以及企业之间的竞争,本研究试图在整合创新方法现有理论方法的基础上,充分考虑大数据环境带来的挑战与机遇,将决策驱动的根源由传统的“目标驱动决策”向“目标、数据双向驱动决策”转化。并依据“双向决策模型”,一方面,采用传统目标驱动创新方法时,形成了以传统数据挖掘技术与方法为核心的数据获取、处理、分析、支持决策的技术创新模型;另一方面,围绕大数据环境下的复杂数据特征与环境,采用当前大数据处理中海量数据提取、分布式数据处理和存储技术以及大数据可视化技术等,并通过下面四个子项的研究实施,最终实现在大数据环境下为企业技术创新与管理创新提供有效的创新决策支持。研究的整体框架如图2所示。
2.1 数据的在线收集与预处理
基于大数据环境的创新决策主要通过对各种创新数据进行动态分析,将不同领域、不同类型的创新资源进行融合。基于多源异构创新资源大数据的在线监测、自动收集与预警机制研究主要包含三方面的内容:一是利用网络数据的在线监测技术与主动爬虫技术,研究大数据环境下创新资源的自动获取与自动收集机制,特别是在半结构化和非结构化数据中蕴藏的巨大价值;二是自动地识别不同主题下创新资源的内容信息,并且将这些信息按照特定的规则和要求自动地收集与增量式抓取;三是针对期刊、报告等在内的传统科技领域数据资源以及网络中社交、舆情等数据和其它多数据来源中的潜在信息进行有效萃取与分析,实现对创新资源与不同创新方法的信息特征分析。技术难点是对不同数据源的技术创新数据识别获取和融合。
主动爬虫技术已被广泛应用在网络信息的安全监控与信息获取过程中。监测对象主要包括:期刊、专利、技术研究报告与统计数据等在内的科技领域数据资源,同时也包含了网络中发布的创新政策、社交数据、博客与微博数据、企业报表、网络舆情数据、市场动态数据以及金融交易数据等海量数据资源。另外,随着创新方法与工具的发展,创新方法与创新资源的数据量也呈现出爆炸性的增长态势。特别是在半结构化和非结构化数据中蕴藏的巨大价值,大量的创新资源与创新方法的实践结果往往也分布在网络中不同的数据系统内,并且以数据库数据、网页、文件等形式存在。因此,如何自动地识别不同主题下创新资源的内容信息,并且将这些信息按照特定规则和要求来自动地收集与增量式抓取[11],是研究面对的一个重要挑战。
2.2大数据存储与预处理技术体系
基于创新资源与创新方法的大数据存储与预处理技术体系研究的主要任务是利用创新资源的分类特征抽取和信息融合,对创新资源和创新方法中的多源异构数据进行存储和预处理,为创新资源大数据分析奠定基础。主要工作包含三方面的内容:一是创新资源与创新方法大数据的存储与并行处理机制研究;二是创新资源与创新方法大数据的预处理技术方案实现;三是根据创新方法与创新资源的特定需求进行多层聚合,形成统一的创新方法大数据资源库。该工作的技术难点是创新数据本体库的建立和海量创新资源与创新文本数据的特征提取与优化。
在创新资源与创新方法大数据的存储与并行处理机制研究方面,针对创新资源与创新方法数据的复杂性、多源异构性以及体量巨大等特点,在Hadoop平台和Hbase数据库基础上,建立一个创新资源大数据的分布式存储框架。该框架采用HDFS文件系统(Hadoop Distributed File System)来实现高吞吐量的数据访问以及流式的数据访问,适合大规模创新资源与创新方法数据集的应用存储与数据的服务[12]。另外,由于创新资源的文本数据体量巨大,采用传统计算手段无法实现文本建模、特征抽取、特征聚合。因此利用分布式并行计算框架来实现信息内容的聚合,一方面,为了提高数据分析的效率,在HDFS文件系统上使用HIVE建立分布式数据仓库,并将查询服务映射成Map Reduce任务来执行。另一方面,该框架采用Storm流计算、Spark内存计算、Map/Reduce并行化编程范式,将多个查询与信息聚合任务分解为多个并行任务同时处理,可实现快速复杂数据运算[13]。
此外,针对科技创新资源与创新方法在应用与管理过程中,常常会出现一些脏数据,需要进行差异识别与数据的预处理。这些数据预处理的方式主要包括了去除无关数据、噪声数据、遗漏数据、空值数据等脏数据,把错误的、含噪声的、有冲突的、不一致、有重叠的数据转化成可以进一步聚合的数据。由于数据的规格、语义的不统一会对后续的聚合造成影响,因此需要对数据进行规范化与归一化处理,保障数据的一致性。由于创新资源主要以文本的形式存在,这些资源需要通过对创新资源与创新方法特征库的分类,转变为创新资源与创新方法的领域元数据库、领域本体库、命名实体库等特征元数据库,并形成统一的数据模型和数据规范。同时需要对文本内容的分词和词频统计建立文本的主题向量空间模型、“主题词带”模型、创新领域知识模型,形成创新资源的特征信息集合。这些数据的特征抽取与预处理对于后续数据处理奠定基础。
2.3 创新资源数据的可视化技术与决策技术方法
大数据环境下创新资源的可视化技术与决策支持方法研究的主要任务是利用文本挖掘技术和数据可视化技术,对海量文本数据进行特征抽取和信息融合。主要工作包含两方面的内容:一是创新资源大数据环境下的数据静态与动态分析的可视化分析;二是利用可视化降维技术对高维度非结构化创新数据进行降维处理。工作的技术难点为多维异构创新数据可视化技术实现。在技术创新活动中需要了解创新数据自身的规律以及创新数据之间的相互关系和发展趋势。因此需要利用大数据中的可视化技术,提高企业分析和利用创新数据的层次。
文本可视化分析技术是将文本分析技术和交互式可视化技术结合在一起的产物。它利用人们对图形的迅速辨识及分析能力,将文本挖掘结果及相应的文本数据转换成直观的、可交互的展现形式,使人们可以通过视觉迅速获得有用信息,从而达到对大文本数据集进一步分析、推理以及理解的目的。已有的可视化分析技术主要包括静态和动态两大类方法,其中,静态可视方法不关心文档的时间属性,着重研究文档以及内容直接的静态关系;而动态方法则研究文档集合中随着时间变化的内容以及相应关系,用于找出一些关键的时刻和事件,并进一步推导相应事件产生的原因。例如,利用Circle Packing图可以圆圈的大小和归属表达明确的层级关系,帮助用户迅速定位数据的聚类,并对离散点进行评估。Stream Graph则通过对一段时间内,文本特征的变化来展示出动态的变化行为,从而可以实现对数据质量分析的优化。如图3是研究团队针对专利信息以及论坛的主题内容进行静态与动态分析的可视化结果示意图[14]。
在大数据条件下,利用可视化技术对高维度非结构化创新数据进行处理,不仅可以对数据特征向量进行降维和简化,还可对静态特征数据以及动态的行为变化过程数据与结果进行可视化显示。因此,不仅有利于对创新资源与创新成果数据进行预处理与分析,同时也对创新资源之间的关联特征、技术创新过程中动态演化行为等关键性问题,起到决策辅助支持的作用,进而提升创新资源与创新方法相关数据的利用价值。
2.4 创新应用工具的开发
大数据环境下创新应用工具的开发与应用的主要任务是在上述研究工作的基础上,实现创新应用工具的开发,并选取应用单位进行应用验证。传统的创新方法都包含有多种工具。文章研究的核心工作是基于Hadoop平台来完成一个相关的创新资源分析与创新方法应用的软件工具,并利用该工具来指导企业实际应用。其中,软件工具主要包括分布式创新数据萃取和数据融合、创新大数据模型变换、流数据处理和创新数据自动摘要功能等。
根据数据格式的不同,分布式创新数据萃取采用不同的算法对其进行处理。分类过后的数据还必须遵循统一的数据模型进行变换,从而形成统一的创新数据存储。该功能的实现采用使用元数据描述创新数据,从而将所有创新数据置于同一标准下。创新数据含有独特的创新信息,在针对需要实时计算的创新流数据时,除使用分布式计算架构中的流处理技术,还要进行创新数据流处理算法的设计。在企业进行创新数据处理时,除了使用系统提供的自动收集和预警等功能外,很多情况下还需要人工处理一些数据,当创新数据包含大量的非结构化数据,人工往往无法迅速地获取最有价值的信息。因此通过实现创新数据自动摘要生成技术,能够方便企业查找和比对大数据环境下的技术创新数据,提升技术创新活动的效率。
3 结束语
大数据时代的到来,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。特别是近年来,企业在激烈的市场竞争中往往由于技术资源的局限性以及海量数据获取与分析的能力限制而造成技术创新的成功率较低且管理决策的风险较高的影响,大数据技术与应用为企业技术创新提供了一个全新的机遇。围绕着大数据环境下对企业技术创新与管理决策的相应技术研究,陕西工业技术研究院与西安交通大学软件学院在深入合作研究过程中,已建立起来了大数据环境下的技术创新与决策的技术框架体系,依据技术创新“双向决策模型”,整合传统“目标驱动决策”与大数据环境下“数据驱动决策”的理念和方法,通过四个子项的实施,实现技术创新的“评估与预测”和“监测与预警”,结合企业研发与技术创新实践,希望能帮助企业实现更加精准的技术创新决策。下一步,将大数据环境下的创新方法在企业中得到应用与推广,为企业的创新提供新的技术支撑。
参考文献
[1]McAfee A,Brynjolfsson E. Big data:The management revolution[J].Harvard Bus Rev,2012,90(10).
[2]陶翔,罗天雨.大数据技术的发展历程及其演化趋势[N].科技日报,2014-08-10(2).
[3]R.Weiss, L.Zgorski,“Obama Administration Unveils 'BigData' Initiative: Announces MYM200 Million in New R&D Investments”, Office of Science and Technology Policy, Washington, DC,2012.
[4]赛迪智库软件与信息服务研究所.美国将发展大数据提升到战略层面[N].中国电子报,2012-07-17(003).
[5](英)维克托·迈尔-舍恩伯格,(英)肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.浙江人民出版社,2013.
[6]工业和信息化部.物联网“十二五”发展规划[Z].北京:工业和信息化部,2011.
[7]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域-大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):
647-657.
[8]马帅,李建新,胡春明.大数据科学与工程的挑战与思考[J].中国计算机学会通讯,2012,27(5):527-537.
[9]王跃飞.知识产生方式和科技决策支撑的重大变革:面向大数据和开源信息的科技态势解析与决策服务[J].中国科学院院刊,2012,
27(5):527-537.
[10]朱东华,张嶷,汪雪锋,等.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理.2013,34(4):172-180.
[11]丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010(4):188-190.
[12]李昕娟.基于主题的文本数据流实时聚类及演化研究[D].西安交通大学,2014.
[13]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2013(6):9-14.
[14]刘大伟.基于文本聚类的专利信息分析与可视化研究与应用[D].西安交通大学,2014.
作者简介:赵亮 (1969-),男,吉林长春,经济师/MBA。陕西工业技术研究院技术创新部,从事创新项目孵化技术转移研究。