国网甘肃省电力公司信息通信公司 袁 昊
甘肃同兴智能科技发展有限责任公司 张文斌
国网甘肃省电力公司信息通信公司 陈 丽
大数据是计算机和互联网发展到一定阶段的必然产物,随着社会资源被网络化和数据化改造,人们对于过往生产经营数据的价值兴趣更高,且有足够的能力挖掘海量数据背后的价值,自然而然就有了“大数据”的产生,依靠“大数据”,相关企业能够获得用户海量的行为数据,根据数据进行更为合理的资源调控,将更有利于企业的发展,也能为用户带来更有效的建议,可以说大数据时代已经逐步到来,必将给社会带来翻天覆地的变化。
随着社会的发展,同时社会资源被网络化和数据化改造,随之而来的,多元的、海量的数据呈现爆炸式的增长,这些数据可能来自社交网络、访客记录、购物浏览等等,是一个用户过往行为的反映,人们也开始对“大数据”背后隐藏的价值感兴趣,运用先进的算法从“大数据”中挖掘价值,随之创造更大的价值,当然,这一切都离不开计算机信息处理技术(云计算)的发展,对于大数据和云计算来说,就像是一枚硬币的正反面,不可分割,相互促进。本文即分析大数据时代下的云计算处理方式,以供参考。
“大数据”这个概念已经社会上流传很久了,人们对大数据也越来越熟悉,它是随着社会的发展,社会资源被网络化和数据化改造后,随之形成的海量行为数据,大数据的本质是人的行为,对象多种多样,包含人的人口信息、出行信息、购物信息、搜索信息、浏览信息等,大数据就是人的众多行为的反映,其具有价值,能够创造更多的价值,利用云计算对海量的数据进行分析、存储、处理,深度挖掘大数据价值,企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策,居民能受到合理推送的信息,试想一下,当你需要赶飞机时,手机为你推送专车服务,能第一时间最优化路线赶到机场,当下飞机后,收到合适的宾馆推送,出去吃饭为你推送饮食券等等,大数据及其应用正在改变人们的生活,这就是大数据自身的价值和创造的价值。很多人知道“大数据”的概念,却不知道“大数据”的量级,早在数年前,大数据的量级就已经从TB升级到了PB(1024GB=1TB),未来必然会跃升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的级别。
(1)Volume(容量):大数据的容量非常大,已经从TB升级到了PB(1024GB=1TB),未来必然会跃升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的级别。
(2)Variety(多样):大数据的形式是多样的,包括结构性数据、非结构性数据、源数据和处理数据等,种类也是多样的,包括网络、音频、视频、位置、文本等数据。
(3)Value(价值):大数据在经过深度的挖掘处理后,能够创造较大的价值,利用大数据的价值,能够让企业或用户在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点,不过同时也要看到,因为数据是海量的,数据的价值密度却非常低,但鉴于大数据的价值是由一个个微小数据共同提炼出来的,缺一不可,海量的工作量不可能减少,因此需要大量的机器学习来代替人力作业。
(4)Velocity(速度):大数据对处理速度也有要求,要求实现实时数据分析,要为用户推送更好的服务,当你浏览商品时,等关掉手机,系统才采集并计算出你的喜欢,当你喝一杯咖啡后,相关软件才为你推送优惠券,无疑是不称职的,要想给用户更好的服务,必须要求较快的数据处理速度。
首先,大数据的增长是无止境的,大数据还会呈现爆炸式的增长,对于海量的数据,必须借助机器学习来代替人力,在这个过程中不断优化大数据算法,包括大数据的存储、索引、查询算法,流数据分析算法;大规模互联网数据挖掘算法;多媒体大数据分析算法;大规模机器学习算法等,随着5G通讯技术的研发,对大数据的处理能力会更上一层楼。
其次,随着大数据的增长,企业对大数据的依赖也逐步加强,来自黑客的侵扰也会逐渐增强,如何做好对大数据的保护也尤为重要。
再次,随着大数据价值的体现,也随着5G通讯技术的大规模商用,大数据的应用领域也会更多,各行各业都会逐步和大数据接驳、融入,如下图2所示,回归那句话:“大数据时代才刚刚到来”。
数据的采集(ETL理念)指的是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端,数据采集的工具包括ETL工具或Sqoop等,将一个关系型数据库(例如MySQL,Oracle,Postgres等)采集,然后传输到目标端(各家企业的云,Hadoop框架等)因为数据是海量的,数据的采集也至关重要。以往数据的采集是企业对自己行业的用户数据,随着数据共享理念的兴起,数据采集对象也变得多种多样,朝着集体化发展。
对于数据的收集,要明确的是,数据本身不会说谎,但数据收集的过程、覆盖的范围、问题的设置、选项的描述、采访的背景等各种细节都会给分析结论本身带来一定的主观偏向,也是为什么一些研究者对大数据分析存在质疑的根本原因:你无法保证你的数据来源是否可靠。
对于数据的存储,企业一般都会存在企业的“云端”,比如阿里云、AWS(亚马逊)、AZURE(微软)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等,又或是存储在Hadoop等框架结构中。需要明确的是,数据的存储是为了立刻为数据处理做准备,因此云计算或各式计算框架等,一般将数据存储和处理放在一起说。
高端互联网企业都在致力于开发自己的云计算,云计算是对大数据的转移、存储、计算的协同体,常采用分布式数据库进行分布式处理,随后慢慢形成了分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机的混合技术,这些都属于“云计算”的范畴,利用云计算,能够将海量的“大数据”实时处理,因此,要正确看待云计算和大数据的关系,它们就像一枚硬币的正反面,密不可分。完成这一步,大数据的价值已经被深度挖掘了出来,之后更有目的、更准确的做出系统判断,给用户推送关键信息,就能够创造出更大的价值。
对于资源有效,无法开发“云计算”的企业来说,和高端企业合作,利用高端企业的云计算系统进行数据处理,又或是利用Hadoop、Mapreduce、Tensorflow(深度学习框架)、Spark、Pentaho BI等开源框架进行大数据处理,都是不错的方法,这里重点提一下Hadoop开源框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,并进行简单的数据处理,如何正确看待云计算和开源框架的区别?前者是大型的,后者体量较小,功能也较为单一,就好像修建一栋房子,云计算是总设计图,内容是多样的,功能强大,而众多开源框架则是水泥、锤子一样的修建工具或卧室、阳台设计图,功能较为单一,但也能使用,其中Hadoop开源框架非常优秀,被高端互联网企业收录进自家的云计算环境中,云计算和大数据的关系如图1所示。
随着“大数据”的日益发展,大数据的安全性又成为人们热议的话题,这里包含两方面内容,第一方面为作为用户的你,是否愿意自己的大数据被收集,当你浏览商品时,你的喜好已经被收录,当你发送邮件时,联系方式已泄密,当你使用地图时,位置信息已经泄密,作为用户的你要想保护数据安全性,就需要慎重对待手机软件中的权属限制,谨慎处理。
另一方面是企业如何保护大数据?企业的大数据有流通性和共享性,本身就容易暴露,且容易受到黑客勒索攻击,国家在2019年5月13日发布等保2.0,要求企业构建安全防护架构,保护数据安全,如图2所示。
图1 云计算和大数据的关系
图2 等保2.0
在大数据时代,计算机信息处理技术,可以简单看作“云计算”,主要处理技术包括数据的采集、存储、计算、安全管理、运营等方面,针对这些内容上文做了简单说明,以供参考。