石 鑫,程 成
(沈阳航空航天大学 机电工程学院,沈阳 110136)
在现代社会日新月异的发展中,大数据时代的来临使社会各个领域的面貌焕然一新,使人类第一次具备条件:在广泛的领域与深入的层次中获取和使用全面的、完整的、系统的数据,深入研究与探索世界发展规律,创造无限的社会价值。为此,面对大数据时代,无论是个人、企业还是整个社会和国家,都应该积极主动地顺应大数据时代更新变革的发展趋势,认清大数据时代给我们带来的机遇与挑战,认识到制定应对决策的必要性与紧迫性。
随着大数据的普及,特别是大数据与云计算的有机结合,使得整个网络体系框架面临革命性的挑战,人类社会已经进入大数据时代。
大数据通常具有两种含义,一是数据量之大;二是数据分析与发掘。第一条含义很容易理解,例如,当我们使用淘宝网搜索一下“书籍”,它会很快找到994.540.000 条宝贝信息,利用百度搜索“大数据”则会显示54.600.000 条,另外google每天处理的搜索请求也高达1.8 亿次。相比第一条含义,数据分析与发掘显得更为重要。大数据时代的预言家维克托.迈尔-舍恩伯格在其著作《大数据时代》一书中指出“大数据的真正价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表层之下”[1]。旅美信息管理专家徐子沛在其著作《大数据》一书中也强调了数据发掘的重要性。他认为大数据之大,不仅在于容量,更在于通过数据的整合和分析,发现新的知识,创造新的价值[2]。由此可见,大数据已经成为一种核心竞争力,只有对大数据进行深入全面的挖掘,我们才能更好地使用数据背后隐藏的有用信息,创造价值,提升自身的竞争力。
大数据的基本特征,可以用“四V”来概括形容。所谓“4V”[3-5],即Volume big、Variety type、Velocity fast 和Value high and Low density。Volumebig(容量大),它是指大数据巨大的数据量与数据的完整性,该数据量级已经从TB(1012 字节)发展到PB 甚至ZB,可谓是海量、巨量乃至超量;Variety type(多样化),它意味着要在海量、种类繁多的数据间发现其内在的关联,探寻结构与半结构信息框架联系;Velocity fast(快速化),即数据需要实时处理,快速满足实时性需求;Value high and Low density(高价值与低密度),即通过数据获得洞察力与价值。在上述“四V”特征中,应该说大数据的最终意义才是我们不懈努力和研究的主要方向,这也是目前人们关心和探讨最多的话题之一。
在人类的发展进程中,生产活动大都与数据相关。事实上,大数据对我们的思维变革主要体现在以下三个方面,并且这三者是相互联系和相互作用的。
如今,随着科学技术的不断发展,社会所能提供的技术条件得到了很大改善,即便人类能够处理的数据的能力依然有限,但是可以处理的数据量却大大地增加,而且有用的数据信息会越来越多,其价值储备可想而知。这样,倘若我们能够拥有全部或几乎全部的数据并加以科学地利用,那么我们就能够从不同的角度,更细致地观察和研究数据的方方面面,创造无限的价值,造福人类。
通常,人们处理的数据绝大部分是结构化的,其储备量大约只有5%,另外95%的数据则是非结构化的。在以前,因为收集的数据信息量比较少,所以保存下来的数据必须尽量精确。而现在,在不断涌现的新情况里,能够允许不精确性的存在,即接受容错性或者混杂性,这样95%的非结构化数据才能够被利用。由于放松了条件限制,故而在数据的使用过程中,数据内容不再那么局限与狭隘,人们可利用的数据也逐渐多了起来,大数据分析方法也得到不断完善和发展,各种新技术也不断被开创,并广泛应用于各个领域。
日常生活中,人们常常习惯性地用因果关系来考虑事情,所以会认为,因果联系是浅显易寻的。但是事实却非如此,与相关关系不一样,即使要使用数学这种比较直接的方式,因果联系也很难被轻易证明。我们已经习惯了信息的匮乏,故亦习惯了在少量数据的基础上进行推理思考,很多时候自然而然的就削弱了特定的因果关系。在大数据时代,我们依然指望用因果关系来说明我们所发现的相互联系,并且相关关系的分析通常情况下能够取代因果关系起作用,即使在不可取代的情况下,它也能指导因果关系起作用[1,8-9]。
自大数据提出以来,新技术不断更新,新领域不断开拓,使世界面貌发生了翻天覆地的变化。据不完全统计,2012年大数据市场规模约为50亿美元,今年预计达到100 亿;大数据产业为欧洲公共管理部门也带来2500 亿欧元的净收入;为世界零售业增加30%的纯利润;全球制造业的产品研发成本也减少50%;个人信息利用也超过了7000 亿美元的价值等[6]。
目前,由于信息化基础底子薄,技术相对落后,我国仍然处于大数据的探索阶段。如何科学有效地把握大数据发展这一趋势,灵活利用大数据给我们带来的技术更新与商机,不仅关系到我国民族产业发展问题,更关系到我们国家的核心竞争力和前途问题,这也将是我国真正实现跨越式发展,真正由“中国制造”到“中国创造”转变的宝贵机遇,我们必须严肃对待,科学把握。
进入互联网时代,人们每天的日常活动如购物、消费以及网上活动、各种通信行为等等都被监视记录着,互联网使得这种监视变得更为容易、成本更低廉也更有用处。现在,监视无处不在,例如亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,腾讯游戏保留着我们注册的个人信息,人人网更神,似乎什么都清楚明白,包括我们的社交关系网。互联网时代,我们的隐私就受到了如此大的威胁,更何况大数据时代!这种威胁很大可能会随着大数据化的推进而增强,这要求我们必须加强个人隐私的安全意识,防患于未然。
目前,围绕大数据产生的新型技术包括高效率存储、新型表示大数据的方法、非结构化与半结构化的高效处理、各行各业大数据深度挖掘的分析工具与开发环境、降低能耗等。这些新技术的应用效果还不够理想,功能有待完善与提高。
大数据时代,数据量庞大但标准化不足,各领域数据规格、统计口径、信息维度以及存储方式大相径庭,这样致使数据的跨行业应用难以形成规模[7]。一般来说,数据增值的关键在于整合分析,而其前提就是数据共享与开放。精诚合作,金石为开,然而国家战略观念上的欠缺、政府部门工作不足、企业对数据共享的认识和投入不到位等都是当前我国在推进大数据时代发展应用中亟需面对与解决的问题。
大数据的核心意义就在于分析和处理数据,而分析和处理数据的关键在于人才。然而就目前情况来说,大数据人才情势不容乐观。据麦肯锡全球研究所的一项调查预测,在未来六年内,光美国就可能面临缺14 万至19 万拥有扎实分析技能的人才,而且缺少懂得使用相应工具分析大数据、作出合理决策的150 万管理和分析人员。大数据量与人员不足矛盾日益突出,形成了一个巨大的鸿沟,严重阻碍着企业开发和利用数据蕴含的价值。
大数据时代数据量爆炸式增长与涌现是当今信息化发展的必然趋势,不会因为个体的力量而转变。但是现在,仍然有很多人对大数据的概念及存在价值认识不清,仍然没有树立起大数据意识,盲目行事。据一项调查研究显示,目前59%的组织都非常关心大数据相关话题,但是42%的受调查者却不明白何为大数据,另有34%的人说他们理解大树据较为片面。由此可见,人们对大数据的认识还不够,大数据虽已提出,但是实质性的东西还有所欠缺,大数据只是漂浮于人们嘴边的话料而已。
大数据时代,人才是数据分析与处理的关键。前面已经提及,大数据的从业人员和人才缺口巨大,综合性人才更是少之又少,资源宝贵。同时,大数据的处理是从原始数据到最终可利用的价值数据转变过程,这个过程涉及到数学、物理学、海洋生物学以及销售管理等数据处理的各个方面,技术不再单一,而是有机的结合在一起,科学运用,共同构建大树据结构框架,这样才能充分发掘有用信息,创造价值,服务社会。结合实际,高校是我国人才输出的主要渠道。为此,我们必须紧紧抓住高校人才输出这一关键环节,加强大数据分析处理方面的教学内容,增加工程技术训练时间,注重相关语言统计编程人员的培养,重视自动化学科的基础性建设等[8]。
数据之于信息社会就如燃料之于工业革命,它是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。为了获得更多的新鲜数据,迎合大数据时代发展需求,我们必须要反对和打破数据垄断。这样就要求政府机构加强有关立法工作,加强法律宣传,加强大数据生产者、提供者与使用者之间的协调关系,力求将大数据法律化、规范化和常态化,进入寻常百姓家[9]。
(References):
[1][英]维克托.迈尔-舍恩伯格,肯尼思.库克耶.大数据时代[M].盛扬燕,周涛,译.杭州:浙江人民出版社,2013.
[2]徐子沛.大数据[M].广西:广西师范大学出版社,2012.
[3]黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(6):9-14.
[4]胡树祥,谢玉进.大数据时代的网络思想政治教育[J].思想教育研究,2013(6):60-63.
[5]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信,2012,36(17):14-15.
[6]许丽萍.钱景与挑战并存,如何应对大数据时代?[J].信息与电脑,2013(5):89-91.
[7]刘洋.冷眼看待“大数据”[J].金融博览,2013(17):43.
[8]吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1):5-8.
[9]郑京平,王全众.官方统计应如何面对BigData 的挑战[J].统计研究,2012,29(12):3-7.