陈 满,向 秦,魏香梅,何 渡,何 施
(湖北省科技信息研究院,武汉 430071)
大数据是指在一定的时间范围、空间范围等限制条件下,无法通过使用常规软件工具进行抓取、分析和处理的数据集合。在《大数据时代》一书中,大数据的概念为不采用随机分析、抽样调查这类传统方法,而是选择采用面向所有数据资源进行分析处理的方式[1]。这就要求在大数据处理过程中,采用技术上具有可操作性、便捷高效的处理模式。所以,大数据就是从各种各样类型的数据资源中,快速获取有价值信息的能力[2]。大数据中具备科技属性的大数据资源即为科技大数据,科技大数据依托于信息技术与经济社会的交汇融合而迅猛增长,且因为科技大数据对社会生产、物流、消费等日常活动及经济运行机制、社会生活方式和国家治理能力产生越来越大的影响而成为国家基础性战略资源。所以研究如何掌握使用大数据技术,构建使用数据资源的工具,合理、高效地使用高新技术领域的大数据资源,就显的具有重要意义。
在传统的高新技术领域,企业、研发及各种机构在研发、生产、制造、运输及贸易的过程中,基于各种设备、设施上设置的具备计量、测量功能的装置及传感器,随时测取、收集并传递有关位置、位移、速度、幅度、温度、湿度等数据,产生出海量的数据信息。此外,企业、研发及各种机构依托物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,同样可以汇聚采集各种数据资源。在高新技术领域,我们定义此类依托传感器等各种数据采集及承载模式收集的,没有经过数据加工技术进一步加工的数据资源为高新技术领域大数据原始数据资源。对高新技术领域大数据资源原始数据进行加工,在实现数据增值的同时,会产生出新的数据资源。这些新产生的衍生数据资源与原始数据资源一道构成了广义的高新技术领域大数据。
构建大数据中心平台,对高新技术领域大数据进行加工,可以获取更强的决策力(预测、决策)、洞察发现力(创新)和流程优化能力(优化)[3]。对高新技术领域大数据的准确界定要依托于高新技术领域大数据的实际运行流程,如图1所示。
图1 高新技术领域大数据运行流程Fig.1 Large data flow diagram in the hi-tech field
高新技术领域大数据的价值更多体现在经济层面。高新技术领域大数据的产生,提供了一种全新的决策方法,即基于数据分析做出决策行为,而不是凭借经验和直觉。
从高新技术领域大数据所处的价值链来分析,其价值的来源有3种:数据本身、技术技能与思维[4]。信息时代的显著特征就是数据资源变得越来越多,且具有一定的战略重要性,但是在实际工作中,却缺少从数据中提取价值的技术及能力。所以,在大数据时代的初始阶段,大数据技术技能的价值要比数据本身的价值要高。而大数据思维,是一种思维意识,认为公开的数据资源经过某种合理的方式处理后,就能为急需解决的问题提供一种答案,它强调的是可能性,而不是可行性。在大数据时代的思维变革中,我们要注意到:①如果决策及预测的依据是数据,那么大数据时代,尤其是高新技术领域大数据所采用的样本模式将是数据资源的总体,小数据时代依据随机采样所作出统计、分析及预测最终将向大数据时代全数据模式转变;②大数据的简单算法比小数据的复杂算法在效率方面更有优势;③思维模式由因果关系向相关关系转变。由此可见,思维的变革最终都指向数据资源本身。虽然目前缺乏技术技能,大数据思维也在不断变革及培育,但是过分强调技术技能及思维意识而忽视数据本身的重要性是不可取的。随着计算机行业的发展,思维变革将逐渐成型并适应大数据发展的需要,人力技术的落后也会被慢慢地克服,针对大数据的技术技能将会变成十分普通的事情。因此,从长远考虑,数据才是最核心的部分。在高新技术领域大数据价值链中获益最大的,在大数据时代的初期,应该是大数据思维,然后随着大数据时代的推进,这种思维会慢慢推广,那么大数据思维的优势就会逐渐减弱。随着数据库管理、数据科学、数据分析、机器学习算法等类似行业的技能变得普及,大数据成为人们生活的一部分,大数据工具变的更容易和更方便使用,越来越多的人会掌握这些技能,所以这些技能的价值就会减少[5]。
综上,采用不断创新与发展的大数据技术,构建高新技术领域大数据中心平台,以资源来源、数据资源采集以及数据资源加工这3个方面为切入点,实现高新技术领域大数据资源的共享与信息挖掘,通过对数据资源的全面分析,为政府管理部门、企业管理者和参与者提供智力支撑、决策支撑,同时呈现出全新的视角,从而进一步推动科技管理与决策的智能化,促进产品创新,推动传统产业转型升级。由此可见,以高新技术领域为切入点,不断整合其他领域的大数据中心平台,打破原有数据资源之间的壁垒,形成覆盖领域更广、数据资源更丰富、应用方向更多、挖掘出价值更大的大数据中心,这就是构建科技大数据中心的重要意义。
要体现高新技术领域大数据的价值,就必须对含有价值的数据进行专业化处理。专业化处理意味着要着力提高对数据的 “专业化处理能力”,通过“处理”实现数据的“增值”。高新技术领域大数据中心平台就是能实现对数据的“处理”,实现数据“增值”的“工具”。高新技术领域大数据中心平台的构建是基于接口标准化体系建设及数据资源分类标准制订,依托于企业级、行业级、项目并联审批平台等大数据平台的构建与互通,从而实现大数据资源的共享。
构建高新技术领域大数据中心平台,最根本的基础就是要有相适应的大数据技术,通过大数据技术实现数据资源之间的传输、存储、清洗及挖掘,促进数据资源的流通与利用。实现高新技术领域大数据资源的互通共享的技术路线如图2所示,通过建立接口标准化体系和数据资源的分类标准,将高新技术领域大数据资源转化成适宜于互通共享的数据资源,然后整合各大数据平台,依托骨干企业,形成高新技术领域大数据中心,形成体系,促进大数据资源流通。
图2 平台技术路线Fig.2 Platform technology roadmap
大数据中心平台的架构基本都是类Google/Hadoop模式,Google/Hadoop模式得以在大数据领域广泛应用,得益于其自身在数据抓取、转换、传输及加载等方面的天然优势。Google/Hadoop模式的特点非常适合高新技术领域内大数据资源的处理,所以高新技术领域的大数据中心平台架构也可参考Google/Hadoop模式进行设计,具体设计如图3所示。
图3 中心平台架构设计Fig.3 Central platform architecture design
在基础资源层,通过高新技术领域的数据资源共享,构建基础资源库接口标准化体系及数据资源分类标准,促进数据资源的汇聚。通过建立高新技术领域的数据开放平台和标准体系,最终实现数据资源的统一开放。基础资源层的功能及价值更多地体现在数据采集、质量保障和安全管理标准的制订及实施,有助于推动数据开放的标准化,方便社会利用。
在物理架构层,利用云计算技术,依托操作系统、数据库等软硬件,基于数据交换平台,统筹已建数据中心平台,实现对小而散的数据平台的整合,促进大数据中心平台物理架构的整合,最终形成部署合理、规模适中、维护便捷、绿色集成、节能环保的大数据中心平台,使之成为数据资源汇聚的基础。目前,高新技术领域拥有众多的数据资源平台,包括众多政府统计性质、行业性质、产业集群性质的大型数据信息资源平台,要挖掘出这些来源于不同平台、数据库的高新技术领域大数据资源的价值,就必须首先着重于实现多行业、跨行业垂直应用软件、数据交换平台的开发,促进资源的汇聚。
在数据管理层,逐步实现将分散于各个政府部门、科研院所、行业机构、企业及社会科技应用领域的高新技术领域大数据资源,包括大量的科研数据、实验数据、运转数据、统计数据、技术成果、交易数据、新技术新产品等数据的汇聚,实现共享及对不同数据的分类存储,同时加强对数据资源的备份及保护。
在分析支撑层,以数据科学理论体系、大数据的计算系统与分析理论、大数据驱动的应用模型、数据加工算法探索等关键技术研究为基础,提升对数据资源的分析发掘能力,形成安全可靠的大数据技术体系核心架构,同时兼顾信息的安全与隐私保护。
在应用服务层,通过大数据中心平台门户及手机端APP,实现对制造资源数据、企业数据、行业数据和互联网数据等信息要素的分析,驱动行业内、企业间快速响应,动态融合、优化资源利用效率,展现更快更强的决策力、洞察发现力和流程优化能力。
高新技术领域大数据中心平台实现了跨平台的数据资源汇聚及面向各种需求用户的单点登录。单点登录功能的实现是依托于基于AD的身份认证基础体系的搭建。数据资源汇聚,采用数据交换和集成技术,从数据规划的角度出发,设计统一的数据及编码标准体系,从数据的完整性和一致性出发,规划公共数据库、元数据库和主题数据库。当数据交换发生时,规定数据传输的载体、标准和数据传输格式,实现数据的透明、实时、准确。
高新技术领域大数据中心平台基于政府管理、企业运营等移动业务管理模式共性技术的研发,开展跨平台移动应用研究与实现,设计基于移动网络平台和IT系统的移动信息化解决方案。基于上述关键技术构建的平台将围绕政府决策管理、企业移动办公、数据资源共享、手机网站、移动营销等业务的需求,实现设计、制造、管理、决策、查询等实际应用的集成,时间和空间信息的集成,以获得移动性能特有的工作效率、管理效率、生产效率和竞争优势,进而提升管理部门的管理能力,企业的竞争能力,将数据资源中蕴藏的价值转化为实际的效益。
高新技术领域大数据中心平台采用统一的标准,实现了数据信息的统一表达,将数据资源技术化、标准化,解决特殊结构数据类型积累与利用难的问题,同时进一步推动多领域数据资源统一汇聚技术在国内的发展与应用,解决复杂结构数据资源的共享问题;平台结合数据采集技术、云计算等技术,丰富了在线数据分析功能,解决了工作环境和工作条件对用户的束缚问题。平台采用多用户并行工作及负载均衡技术,实现对服务资源、多用户并行的均衡调度;平台采用协同技术,提供面向企业及个人的创新知识服务,推动企业的创新升级。
高新技术领域大数据中心平台采用基于SaaS模式、多用户冲突机制原理为核心算法的关键技术,实现基于Nash公理体系的冲突协商,协商过程中如果一方的提议使得双方的净收益乘积较小,则该提议方做出让步,从而得出唯一解,保障基于数据分析得出的解决方案的最终实施。
面向政府高新技术领域大数据中心平台作为宏观调控的有效手段,可以深刻影响产业的布局,引导产业的发展,从统筹全局的高度,响应及补充国家的各个层面的产业规划及布局,做到有的放矢,促进科技进步的同时,进一步将科学技术转化为生产力,促进社会发展,提升政府决策和风险防范水平。通过高新技术领域大数据中心平台,可以洞察市场需求,优化社会资源配置。促进职能型政府向服务型政府转型,丰富服务内容,拓展服务渠道,扩大服务范围,提高服务质量,提升辐射能力,推动服务向社会及企业基层延伸,促进形成便捷高效的科技服务体系。高新技术领域大数据中心平台可以简化政务办理程序,平台可以实现项目并联审批,形成网上审批大数据资源库,实现在线审批、核准。
面向企业高新技术领域大数据中心平台可以实现信息资源共享,促进优化与创新,避免闭门造车,消除信息壁垒,激发企业的创新潜力,促进企业乃至企业所属的整个产业通过技术变革、管理变革实现转型与升级,适应新时期、新形势下的环境变化,保持企业的竞争力。企业研发工作与工业数据的实时采集、高吞吐量存储、数据压缩、数据索引、查询优化、数据缓存等关键技术息息相关。通过高新技术领域大数据中心平台,实现终端与云端数据、设备端嵌入式数据管理平台与实时数据智能处理系统的交换融合与智能协同,实现对产品全生命周期和制造全业务活动的追踪覆盖,实现“数据驱动创新”[6]。
面向社会运用高新技术领域大数据中心平台,促进社会数据信息资源中涉及信用、医疗、金融、税收、教育、统计、进出口、资源环境、产品质量监管等领域的数据资源获取和分析、利用能力的提升,丰富数据采集来源,覆盖更为广泛的社会领域,实现对社会管理中监测、分析、预测、预警的精确化,提高决策的针对性、科学性和时效性,改善社会管理效能,保障供需平衡,促进经济平稳运行与社会发展。
面向个人高新技术领域大数据中心平台的应用,可以带动社会公众开展大数据增值性、公益性开发和创新应用,充分释放数据红利,激发大众创业、万众创新活力。
大数据时代的来临已是大势所趋,数据资源中潜在的巨大价值势必会掀起一场涉及社会管理模式、企业发展及社会进步的深刻变革。构建大数据中心平台作为一项紧迫的任务,已经得到整个社会的广泛共识。采用不断创新与发展的大数据技术,构建高新技术领域大数据中心平台,从数据资源采集、共享及管理机制几个方面入手,逐步建立并完善大数据中心平台,发掘出蕴藏在数据资源中的价值,可以使企业依靠数据资源形成企业的核心竞争力,使社会管理决策部门充分、高效地利用大数据,挖掘蕴含其中的附加价值,依靠数据来驱动决策,完善管理,不断推动社会发展与创新。
[1]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代[M].浙江:浙江人民出版社,2013.
[2]杨静.大数据技术研究[J].计算机时代,2015(1):13-14,17.
[3]迪莉娅.我国大数据产业发展研究[J].科技进步与对策,2014,31(4):56-60.
[4]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012(8):8
[5]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察,2012(6):44-45.
[6]路甬祥.走向绿色和智能制造—中国制造发展之路[J].中国机械工程,2010,21(4):379-386,399.