科尔仑
(通辽市图书馆,内蒙古通辽,028000)
在大数据时代发展背景下,社会中各领域的发展都步入快速的阶段,有关计算机信息技术的应用越发的广泛,而遍布各领域的多样化数据终端,每天所产生的海量数据,需要得到相应的信息处理技术的支持,才能够实现对这些数据的有效筛选,并提炼其中的价值。故此,当前在大数据时代背景下,我们需要针对计算机信息处理技术的发展方向进行探究,这对促进整个社会的发展来说将具有积极的现实意义。
麦肯锡全球研究,对于大数据所给出的定义是:在信息获取、管理、存储、分析方面,能极地大超出传统数据库软件工具能力范围的数据集合,具有多样的数据类型、快速的数据流转、价值密度低,海量的数据规模四大特征。由此可见,在当前的多元化发展的时代背景之下,大数据所具有的价值不可替代,针对大数据的价值进行探究以及有效应用,将影响整个社会的发展走向。
现阶段所衍生出的计算机信息处理技术类别主要包括三种:其一是信息系统技术。各种技术的中心为计算机,实现信息处理的主要途径为数据库和通信网络技术;其二是数据库技术,该项技术的核心内容是针对信息进行整序,不仅具有集合性相关信息的功能,不评测兼具信息的有效储存以及利用;其三是检索技术,其最为主要的作用是,可以随时随地为人们提供信息查询。当下计算机信息处理技术已经涉及到了方方面面,对于信息的处理而言极其重要,是深度挖掘信息数据具有的价值的重要工具。
图1 计算机信息处理技术的基本原理
1.2.1 数据的采集
由于大数据时代背景下,所面对的采集数据总量较大,因此具有强大的数据采集功能十分关键。在传统模式中,关于数据方面的采集,只是一些社会中的企业只针对于其自身的本行业内用户,所进行的一些相关数据的采集,但是,当前随着数据共享理念的实施,实时数据采集的对象主体越发的丰富,并逐渐朝向集体化方向进发。
数据本身不会造假的,但是在整个数据收集的过程中,是很难确保数据来源是否真实可靠的。因为数据收集是需要经过很多的流程,在数据收集当中,其一系问题的设置以及一些选项的描述等细节性内容,都会对最终的数据收集结果产生影响,甚至左右数据收集的过程,这也是目前人们进行数据收集时面临的主要挑战。
1.2.2 数据的存储
目前关于数据的存储方式,大多数企业选择使用企业“云端”,比如 AWS(亚马逊)、阿里云、AZURE(微软)、GOOGLE CLOUD(谷歌云)等进行信息存储。数据存储的主要作用是为了能支持数据的处理,因此,类似于云计算或者是其他类别的计算框架,通常会将数据存储和处理融合为一个整体。
1.2.3 计算与处理
目前国际范围内一些大型护理企业都青睐于开发属于自己的云计算体系,云计算属于大数据转移存储,计算的协同体,能够实现分布式数据库的分布式处理,并逐渐朝向分布式计算、效用计算、负载均衡、并行计算等领域进发。云计算的优势在于能够实现海量数据的实时处理,因此,正确看待大数据和云计算之间的关系十分关键,二者之间存在密切的联系,不可分割。通过云计算的应用,实现对大数据价值的深度挖掘,随后进行具有目的性且更加准确的系统性判断,以此实现为用户推送关键精准信息来创造更多的价值。而一些企业受限于自身的资源和技术能力,无法开发属于自身的云计算,可以选择和高端企业进行合作。同样可以借助高端企业的云计算系统,实现对数据的处理和利用,又或是利用Hadoop、Mapreduce、Tensorflow(深度学习框架)、Spark、Pentaho BI等开源框架进行大数据处理,云计算和大数据的关系。
1.2.4 大数据的安全
因为随着大数据的应用范围不断拓展,有关大数据的安全性备受关注。之前的等保1.0体系,在适用性、时效性等方面还有很多地方需要进一步扩充和完善,因此等保2.0体系应运而生。关于大数据的安全性,通常覆盖两方面,首先是用户方面,用户是否表现出自己数据被大数据收集的意愿,例如用户在进行商品浏览过程中,喜好会被记录,或者是发送邮件时联系方式会被泄露,以及使用导航地图时位置信息会被泄露等,这些都是常见的大数据安全问题。因此用户为了保证自身信息安全性,在使用大数据相关的各种平台及软件时,就会慎重对待各种权属限制,谨慎处理。另外一方面则是关于大数据的开发方如何保证安全性。例如一些企业级的大数据,在流通性和共享性方面会较为的明显,很容易出现信息泄露的情况发生,也有着较高的会被网络黑客进行勒索攻击危险性。
图2 云计算和大数据的关系
图3 等级保护2.0安全框架
关于大数据研究的价值意义,主要体现在以下三方面,首先,大数据已经成为国家层面的重要战略资源,注重该方面的研究,对于提高国家信息安全竞争力及其比较其次,有关大数据的研究,能够进一步加大关于大数据的利用程度,能够为各行各业的发展提供更加准确的分析和指导,可以说影响着我国产业升级以及未来经济发展结构的走向,关系到我国产业的整体发展,最后是关于大数据的研究,有利于推动科学思维的革命。
目前根据有关大数据的研究,来看大数据拥有的发展机遇,主要体现为以下三个方面,首先是大数据时代下的信息技术的挖掘和应用,具有十分明显的产业价值,其次是大数据时代面临着网络信息安全以及各种新兴事物出现的挑战,最后是有关大数据,信息安全的不断升级要求。在明确大数据发展机遇的基础之上,也需要正确认识面临的主要发展挑战,首先需要在数据挖掘领域持续深入,其次需要达到更高层级的信息安全等级。
首先,大数据时代背景下,计算机的信息处理技术中,DEEP WEB数据感知与获取技术是一种较为重要的问题。该项技术的特征在于有着较大规模的数据量信息,并且呈现出较为特殊的动态变化以及分布性和访问方式。该项技术的主要用途是实现数据的充分利用,随后针对海量数据中具有价值的部分进行高质量集成,实现对数据的抽取以及整合操作,该项技术能够支撑数据的准确利用,有着重要研发意义。
分布式数据存储技术的使用,也是眼下大数据时代背景下,计算机处理技术的主要应用领域,该项技术的作用发挥建立在谷歌公司的GPS 技术基础之上,在许多大型互联网企业都有着大量的应用。该项技术主要是使用列存储概念。一般是以列为单位实施存储,列存储方式在数据压缩方面的有着较好的优势,能够实现信息技术快速的循环,并且在实际应用中,关于海量数据的加载以及磁盘空间的高效利用都更胜一筹。
数据的高效索引,同样也是大数据时代下,计算机与信息处理技术中重要的研发领域。目前较为先进的索引技术,以谷歌公司的BIGTABLE 技术为主,在实践中的应用要点集中在以下两点,首先是聚簇索引,在索引顺序的指导下,全部数据结构进行存储;其次是互补式聚簇索引。其主要是利用副本为索引列,来进行互为补充的索引表创建。并且在实际使用过程中,通常会和查询结果估算配合使用,以达到最优的数据查询结果。
针对信息数据的挖掘,也是大数据时代背景下,计算机信息处理技术的主要应用领域,主要是指针对网络实施搜索,并进行实体关联和分析。目前在互联网信息搜索领域的热议话题为排序学习算法,该种算法主要应用于大规模社会媒体信息量的短文本特征搜索,从而达到对数据信息良好的处理和分析,眼下关于排序学习算法的研究热点集中在逐点、逐对和逐列三个领域。
遗传算法也同样备受关注。遗传算法的主要原理为仿照生物界的进化规律演化实现随机化搜索,该方法应用过程中,想要实现寻优,则必须采用概率化方法,从而实现对搜索方向的自动调整。现阶段遗传算法表现出的应用相对较为普遍,主要集中在机器学习以及信号处理领域。模拟神经算法的主要原理是通过模拟动物运行神经。从而形成具体的网络行为,该方法的特征在于能够借助分布式并行实现信息处理。
综上所述,希望根据通过对当前的大数据时代背景下的,计算机信息处理技术发展前景,以及计算机信息处理技术当中的主流处理技术进行分析,随着大数据时代的不断发展,以及计算机信息处理技术自身的的不断革新,可以使二者之间的融合将会更加的深入,会共同推动社会的发展和进步。