朱力维
摘要:文章首先描述了科技基础条件平台建设所面临的大数据时代背景;然后对大数据背景对科技基础条件平台带来的机遇和挑战进行了分析;最后,针对挑战提出了应对的解决方案。
关键词:大数据背景;科技基础条件平台;数据挖掘;非结构化数据
随着知识经济的发展, 科技创新重要性日益显现。支撑科技创新活动的科技基础条件资源已成为国家的重要战略资源, 在国际竞争中具有重要的战略地位。各国普遍把科技基础条件平台的建设、优化和加强作为强化竞争优势的一项国策。在此背景下,2003年科技部会同有关部门启动了国家科技基础条件平台建设。根据《国家中长期科学和技术发展规划纲要(2006~2020)》,国家科技基础条件平台就是充分运用信息、网络等现代技术,由研究试验基地、大型科学设施和仪器设备、科学数据信息、自然科技资源等组成,对科技基础条件资源进行的战略重组和系统优化,建立以共享机制为核心、以资源整合为主要目标,从而促进我国科技资源高效配置和综合利用, 提高科技创新能力。
近年来,大数据(big data)一词逐渐被人们接受,它是海量的结构性与非结构性数据的总和,具有数量大、实时性、多样化的特点。它代表着信息爆炸时代产生的海量数据,以及相关的技术发展与创新,对人们的工作和生活都产生了巨大的变化。大量结构性和非结构性数据的存在,使无论是商业、经济或者其它领域,基于经验和直觉的判断不再流行,数据和分析将成为决策行为的基础。寻求解决问题的方法,不再是根据问题寻找数据,而是如何从数据中发现问题,以何种思路做数据整理和分析。大数据背景也对我国科技基础条件平台的建设和发展带来了新的机遇与挑战。
一、大数据背景下科技基础条件平台建设的机遇
(一)科技基础条件平台建设的功能更容易实现
国家建设科技基础条件平台就是为了通过实现科技资源共享,打破科技资源分散、封闭和垄断的状况,在现有的基础上对科技研究所需设施、器材、文献和数据等资源进行重组和优化,构筑科技创新资源服务的共享平台。科技基础条件平台是一个信息收集、分享的平台,利用信息具有的公共品属性,更好地实现信息的价值。科技基础条件平台的功能在大数据时代将更容易实现,大数据时代的一个重要特征就是数据规模巨大且增长迅猛,伴随着网络时代的快速发展,各类企业数据增长迅猛,半结构和非结构化数据以几何倍形式增长;数据来源的渠道也逐渐增多,网络日志、社交媒体,以及遍布各地的传感器网络等都可以获得大量的数据。这意味着科技基础条件平台收集数据、获取信息、分享信息将更加便利,成本也更低。
(二)科技基础平台条件建设的必要性上升
大数据时代拥有数据量大、数据类型多和数据价值密度相对较低等特征,数据类型包括音頻、视频、网络日志、图片和地理位置等信息,这些数据信息量很大,信息感知无处不在,但利用这些数据需要对它们进行“提纯”。以上特征对我们的数据驾驭能力发起了新的挑战,它要求有更强的数据处理能力和更好的分析方法。随着大数据时代的发展,政府和企业等组织机构也逐渐意识到数据和数据分析能力的重要性,前者正成为组织内最重要的资产,后者正成为组织的核心竞争力。但如何去培养和利用这种核心竞争力是一个新的问题。要应对这种挑战和解决这个问题,由各个组织、企业和机构自行解决,那将得不偿失。不仅数据本身具有公共品的特性,数据的处理、分析也具有相似的特性。通过科技基础条件平台在数据收集过程中,对数据进行初步整理、分类、归集、分析和处理,可以使各个组织、企业和机构更便利搜索和利用数据,从而节省大量的交易成本。这方面,美国已经采取了类似的措施,2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府以“未来的新石油”来定义数据,明确表示未来国家的核心资产除陆权、海权、空权以外,还将包括对数据的占有和控制能力。
二、大数据背景对科技基础条件平台建设带来的挑战
(一)技术挑战
大数据对科技基础平台条件技术的挑战,可以分为硬件和软件两方面,硬 件方面主要是大数据背景下,数据规模巨大且增长迅猛。从TB级别跃升到PB乃至EB级别,由此带来存储设备的要求,但更大的挑战来自于后者。软件的挑战可以归结为两个方面:首先,分析工具尚未成熟。传统分析工具主要用于结构化数据,可现在存在大量非结构化数据,同时数据的实时性需求上升。这些都要求针对大数据开发新的分析工具,但目前大部分与大数据相关的分析工具,尤其是非结构化数据分析工具,往往是由致力于研究高效处理大容量信息的互联网志愿者进行开发。因此,与传统数据库和数据管理套件相比,大部分技术在成熟度和可访问性等方面都还不够完善,同时帮助其他数据分析人员熟悉的相关补充分析工具也很有限。其次,缺乏相关领域的技术人才储备。大数据分析往往面对的是原始数据,其中包括大量非结构性数据,分析也主要基于预言建模或未来趋势分析,对于这种程序模型开发、应用的要求比较高,一般业务用户和传统数据分析师也很难掌握。
(二)检索、分析的挑战
原有科技研究分析逻辑是从关系到数据,现在相反,更多的是从大量数据中去发现问题。这种测量将令“错误发现”的风险增长。科技基础条件平台要帮助数据使用者去收集、分析和共享数据,那么就要面临数据分析的挑战。这种挑战来自于数据检索和挖掘这两方面。首先,在大数据时代下,数据和信息呈爆炸性增长,科技基础条件平台中也拥有了相对应增长的信息。与过去信息贫乏的时代不同,信息泛滥同样使科技基础条件平台数据的利用产生困难。相较之依靠手工、卡片检索的过去,如今大数据时代随着信息技术、数据库和计算机辅助技术的发展,数据管理变得更加快捷方便,但也面临由于数据和信息数量剧增带来的数据“胀库”的问题。往往由于需要的数据被埋没在大量不需要的数据中,因此在数据检索时性能急剧下降甚至无法响应。所以建设科技基础条件平台首要问题就是如何让使用者在“数据海洋”中准确而快速地找到所需信息。其次,由于大数据时代,科技基础条件平台数据量非常大,数据密度相对就会比较低,如何在海量数据中帮助使用者更加便利地抽取和挖掘有用的数据和信息也是科技基础条件平台建设面临的重要问题。在海量数据、半结构、非结构性数据盛行、数据来源多样化的大数据时代,传统的数据挖掘、分析工具已不能适应需要,因此,在科技基础条件平台建设中对于适应大数据时代数据挖掘、分析工具的开发变得非常重要。
(三)数据安全挑战
在大数据时代,网络攻击、黑客和个体隐私问题都会给科技基础条件平台建设的数据带来安全问题。首先,科技基础条件平台聚集了大量的数据,这些数据可能是复杂、敏感的,它们都可能吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,无形中降低了黑客的进攻成本,增加其“收益率”。另外,现今黑客的组织能力、作案工具、作案手法及隐蔽程度比以前都更加厉害,这也使科技基础条件平台安全形势更为严峻。最后,个体隐私泄露的风险也随之而来。数据的集中存储和部分敏感数据所有权和使用权尚未界定增加了个体隐私泄露的风险。
三、面对风险,科技基础条件平台建设应如何应对
(一)应对技术的挑战
首先,科技基础条件平台建设应该不断对获得的数据提纯,以便简化存储,从而减轻硬件的压力。一方面,大数据的价值密度低,要通过大量的分析提纯工作才能找到有价值的数据。而从数据分析角度上看,数据新鲜程度与数据的价值是成正比的。其次,科技基础条件平台应该重视开发更加强大且富有表现力的数据分析、处理工具,比如更好的编程语言支持,通过编写简短的程序就能清晰地表达出对数据的要求,以及能够提供更好交互性的工具。可视化数据分析工具的开发、应用代表了这一方向。
(二)應对检索、分析的挑战
由科技基础条件平台数据量大、形式多所带来的查询性能下降、无法查询甚至无法响应等问题,可以通过模式识别、数据挖掘等技术对非结构化数据的开发和利用来解决。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含的、事先未知的但有潜在应用价值的信息和知识的过程,其包括结构型数据挖掘、web 数据挖掘和文本数据挖掘等。针对数据特点,科技基础条件平台开发、运用相关数据挖掘工具,能帮助使用者在浩瀚的“数据海洋”中准确而快速的找到有用信息,从而提高科技基础条件平台数据应用效率,并从海量原始档案数据中发掘出有价值的信息和知识。
(三)利用大数据为科技基础条件平台数据安全提供新支撑
大数据一方面对科技基础条件平台带来信息风险,另一方面,如果我们能妥善利用大数据,它也能为科技基础条件平台的信息安全提供新机遇。科技基础条件平台服务商通过对海量数据的分析,能更好地刻画外部数据异常行为,并从中找出数据风险点。通过追踪以数据形式隐藏在大数据中网络、黑客的攻击行为,结合大数据整合技术找到攻击源头,能更有针对性地应对外部数据安全威胁。
参考文献:
[1]范道宠.我国科技基础条件平台的运行机理与机制建设研究[J].当代经济,2010(11).
[2]侯经川等.大数据时代的数据引证研究:进展与展望[J].中国图书馆学报,2012(12).
[3]孟小峰等.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(01).
(作者单位:国家测绘地理信息局管理信息中心)