李泽浩
摘 要:近两百年来,知识爆炸,科学技术飞速发展,工业化已极大的改变了人们的生活方式。在这中间,数据信息作为伴随产物也井喷式涌现从而迎来大数据时代。大数据信息量大种类繁杂,价值巨大但是密度较低。分析处理过程也较为复杂,大数据目前已在商业领域、科学领域和网络领域等有所应用,前景巨大。但它在应用过程中也伴随着一些隐患,如个人隐私泄露问题,企业国家机密保护等。如何有效的,健康的运用大数据成为我们目前的研究方向。
关键词:大数据技术;数据分析;数据挖掘;信息安全
中图分类号:TP311 文献标识码:A 文章编号:1671-2064(2017)22-0014-02
1 大数据的简介
1.1 大数据概念及其发展背景
大数据,顾名思义就是大的数据,这个大指的就是数据大而全。它拥有五个显著特点即5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。[1]理想的大数据可以说包含人类活动的所有信息,相对于现有数据使用来说,大数据是我们无法在一定时间获悉,捕捉,处理和管理的,它需要新的一套方法,需要更强更全面的洞察力、决策力和处理能力来满足大数据的利用需求。
数据是我们从古至今都使用的传递信息的媒介,在工业革命之前,人类知识总量较少,社会全部的数据信息也很少,人们对数据的使用停留在部分小数据,局部数据阶段。这种情况下,人们生产交流都会产生许多没有实际效益的无用功。计算机带来的网络化使得数据信息急剧增长。现代社会不仅充斥着大量信息,而且其发展速度也在飞速增长,随着经济发展的网络化,数据越来越占据主导地位。从监控到科学教育,从网络到工业,各行各业都在数据中生存。未来将是大数据的时代。[4]
1.2 大数据技术的特点
大数据技术包含对数据的获取和捕捉,分析和处理,应用和反馈等。它是一套系统的过程,在这个过程中,数据的获取和捕捉相当繁琐和困难,因为大数据本身信息量巨大而且种类极其繁多,要获取和整合这些数据需要大量的人力物力财力,必须依靠先进的计算机知识,数学统计知识,并且要对数据整体有足够把握情况。大数据技术还需要极为强悍的服务器和分析处理设备及方法,因为我们需要对繁杂的数据进行提取,提取到的有用信息才能产生价值。另外安全问题作为大数据技术的衍生问题也需给予足够重视,它决定了我们是否可以长期的,有效的利用大数据进行发展。
1.3 大数据的处理分析方法
我们研究大数据技术是为了避免因为信息缺失而做的无用功,使社会运行尽可能高效化。因此从大数据中提取有用信息才是我们的关键目的。
从技术上看,大数据与云计算是相辅相成的,它们必须协同合作。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。[3]大数据需要的关键技术参照表1。
对分布式文件系统而言,我们需求的文件系统不是在本地储存中,而是储存在另一个终端,这类似于服务器的工作原理。分布式文件系统的设计基于客户机/服务器模式。一般来说,可以有多个服务器存在于一个网络平台上,这样用户就可以实现访问的全面和自由化。分布式文件系统巧妙解决了巨量数据的管理和储存:将原来只能储存在我们本机的数据,扩散到一个大的网络平台上,再分散到多个储存点,而我们可以通过通信网络轻松的访问这些数据,从而实现了数据的共同储存,共同使用,打破了传统中使用和储存绑定在一起的模式。我们在使用过程中只需要按照自己的需求进行存储、访问和管理。如此在现有的硬件模式下,极大地拓宽了数据的流量。
对实时处理而言,它要求数据的新鲜度,而流处理的方式可以很好的满足这个要求,应用流处理方式,把数据分流之后使其分批到达。而在数据分批到达的过程中,因为其本身带有大量数据,所以内存中只需要保存少量数据。流处理工作精度通常在秒或毫秒级别。
就数据分析技术而言,我们应尽量使数据简单易懂,即表示为人可以理解的语言,这就是自然语言。在人工智能发展中,越来越需求我们以自然语言与数据进行交流,而不是用人造语言如C语言之类无法直接理解的语言去沟通。
机器学习就是让机器拥有学习的能力,也就是说让计算机可以自己增长知识量,而计算机本身拥有极强的运算和整合分析能力,据此计算机将可以规划出最优的行动决策,这点是我们人脑难以达到的,机器学习推动人工智能的发展,未来的机器可以代替人类进行某些方面的工作,进一步解放人类。
2 大数据的相关应用
大数据技术的最终目的是应用,我们研究它是为了创造价值,表2列举了大数据技术现有的应用情况,下面将分三个方面介绍。
2.1 商业领域应用
在现代社会之中,任何新兴的技术一般都会首先运用于商业领域或是军事领域,就大数据技术而言,它现在已经在商业领域中初试锋芒,并且取得了很好效果,比如美国梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价,以适应市场需求。又比如电子商务中购物网站对人门消费数据的把握,如上表所示,电子商务涉及人口数量巨大,用户反应时间很快,而且可靠性相当高。这点就决定了大数据在管理人们消费时具有相当的功效,这也是大数据在商业领域应用的典型方式。信息在商业领域内至关重要,可以说,谁掌握了有效的信息,谁就可以引领商业发展。未来人们的商业活动將更为一体化,随着经济全球化,大数据必将会在商业领域大放光彩。
2.2 科学教育领域应用
科学研究需要实验,实验产生数据,可以说数据决定科学发展,现代科学发展建立在一个大的网络内,这些设备,实验过程,验算过程,记录过程等每年将会产生巨大数量的数据,而整合,分析,处理,运用这些数据正是大数据技术的工作职责。对科学发展而言,大数据的主要贡献有:实现高程度的信息共享,实现科学有效的预测,在实验过程中进行处理及分析等。大数据技术在教育方面也大有作为,一方面在整体上它可以用来处理教育方面庞大的数据量,维持健康高效的教育系统;另一方面,为了实现个体化的细致教育,我们可以借助大数据分析每个孩子的情况,给予相对应的引导,如此可以实现信息的高效利用,形成更为人性化的体贴教育,对社会整体发展做出巨大贡献。endprint
2.3 网络信息领域应用
大数据在网络信息方面的应用是显而易见的,尤其是体现在移动网络,社交网络上,人的交流所产生的信息大量流动在网络上,例如我们的微信,QQ,Facebook等,它们每天都会产生巨大的数据流量。大数据在网络信息方面的应用还体现在搜索引擎上,无论是百度还是谷歌都会根据个人情况作出相应推荐,这点会让个人生活更加便捷。而大数据技术对信息的整体把握能力远非我们现在的数据平台所能比拟,它基本上会达到人类所能利用数据的最高水平。
3 大数据发展过程中存在的问题简介
3.1 隐私泄露问题
随着人们生活的不断网络化,信息越来越被整合在一个个集中的平台上,而如今大数据时代的来临,势必会将信息由各个平台再一次整合起来,形成一个大的共享环境。搭建这样一个平台可以高效的利用信息,同时也可能“高效”的丢失信息,如今信息诈骗层出不穷,大多是个人隐私泄露引起的事故,如大学生信息被不法分子窃取,以学校名义进行诈骗。大数据相对于现有数据体系来说更广博,但也蕴藏巨大威胁,因此在发展大数据技术的同时,我们应重视隐私的保护,为避免个人隐私被窃取,我们可以用多种方式并行保护的方法进行数据保护。
3.2 大数据基础设施安全与恶意攻击
大数据信息需要设备设施作为载体,基础设施是大数据安全使用的保障,其安全相当重要,除了自身问题,它有时会受到恶意攻击,我们有必要做好相关防护。保护大数据基础设施,首先我们应该从硬件上进行安全设计,其次要在软件上进行加密,协议,扰动等保护措施。为安全健康的利用大数据做好防护工作。
4 大数据发展前景及展望
大数据技术目前正在一个积累期,数据的获取捕捉和对数据的分析处理都在一个探索时期,我们可以看到大数据技术目前应用仍然较为稀少,或者规模远远达不到大数据的标准。未来的大数据发展将会从搜索引擎到数据挖掘,到通过自然语言,机器学习等实现它自身蕴藏的巨大价值。在这个过程中数据的分析和处理将可能会是最大的技术难题,机器学习和自然语言的发展将会依赖于人工智能的发展,而且大数据本身将会和人工智能相辅相成。另一方面,大数据技术在发展过程中带来的一系列问题,如隐私安全等也需要给予相当的重视。大数据的发展方向将会是:高效、健康、安全、和谐。
参考文献
[1]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):1-44.
[2]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
[3]高明,金澈清,王晓玲,等.数据管理技术研究综述[J].计算机学报,2010,(3):373-389.
[4][英]維克托·迈尔·舍恩伯格.大数据时代[M].浙江人民出版社,2012.
[5]刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].北京计算机研究与发展,2015,52(1):229-247.
[6]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013, 50(1):146-169.endprint