山东医学高等专科学校 陈 军
大数据是信息技术与专业技术、信息技术产业与各个领域有机融合的典型领域,在国民经济发展中具有广阔的应用前景。大数据时代到来后我国的数据规模已经超过美国而位居世界首位,原因与我国是全球的人口大国、制造业大国、互联网大国、物联网大国,每个环节无时无刻不再产生着数据,而如何处理、调动、应用大数据则成为一个不可回避的现实问题。信息处理技术(Information Processing Technology)与计算机的有机结合使得数据的处理更加得心应手,但大数据时代的冲击下其所使用信息处理技术势必会出现深刻的变革。因此,在此种背景下对计算机信息处理技术展开深入分析具有重要的研究价值和现实意义。
“大数据”为近些年来涌现出来的科技新词。麦肯锡公司首先提出了全球步入“大数据”时代,数据已经渗透到了各行各业的方方面面,并且成为最重要的生产要素之一,时至今日已经在物理学、生物学、环境生态学等领域、军事、金融、通讯等行业中得到了广泛的应用并成为推动技术创新的重要助力。哈佛大学加里·金曾经指出“大数据是一场革命,海量的数据资源使得各个领域开启了量化进程。”尽管目前了解“大数据”的群体依然不多,但不可否认的是“大数据”带来技术革新却早已经潜移默化的走入了百姓日常生活之中,如网购过程中“大数据”可以为消费者提供同类产品的比价、准确预测你的喜好等优质服务;民生领域中“大数据”省去了业务的众多环节,无需备齐各种证件、无需反复奔波、无需排队等待,通过下载应用程序(Application,App)并在线上办理即可,以交管12123为例,在该平台上即可以完成违章查询、扣分、交罚款等业务;医疗领域中网上预约挂号有效的缩短了患者等待时间,使得就诊更为便捷。以上种种便利均得益于大数据时代带来的技术创新。数据每时每刻都在产生,但形成的数据却并不都具有使用价值,各种渠道在拓宽了数据来源的同时亦使得信息多样化特点凸显,如何从中筛选出有用的数据就成为摆在大数据时代面前的一道难题。
传统数据信息的采集主要通过爬虫或者是抽取-清洗转换-加载(Extract-Transform-Load,ETL)完成,其中爬虫常用的有Requests、BeautifulSoup、scrapy、selenium等,能够满足特定需求的人群使用,获取数据后进行数据清洗即可以从中筛选出感兴趣或者是有用的数据信息。ETL则能够打破业务系统间“数据孤岛”现象,借助数据抽取、数据清洗、库内转换、规则检查、数据加载即可以完成数据处理的整个流程。虽然以上手段能够在一定程度上满足使用者的使用需求,但大数据时代到来后以上工具所采集到的数据信息关联度较差、离散度较高且很难聚合在一起,由此使得数据信息资源并未得到充分的挖掘。由此信息采集技术在原有流程基础上做出了革新,即:数据采集的同时完成数据标签的添加操作,利用标签将彼此具有内在关联性的数据关联起来,以视频数据采集为例,在采集视频数据本身的同时亦可以加入视频发布时间、发布者、点赞及评论等标签,通过图数据库技术即可以完成对收录视频数据的迅速分析。相较于传统数据收集停留于一级数据的不足,大数据时代下的信息采集技术通过设定标签,根据使用者需求设定检索规则、检测策略、检索关键词即可以实现对数据信息逐步细化的目的,可以为使用者提供多级数据,整个数据链中的每个节点均可以被其掌握,明确上下游关系,使其具有较强的可追溯性。由于相同标签下的数据存在着显著的内在关联性,使用者通过对部分数据信息进行深入分析就可以对整体数据变化规律做出推测,从根本上提高了数据分析的准确性。近些年来云计算(Cloud Computing)的兴起给数据信息采集工作提供了强大的便利,随着信息技术的发展,云计算为分布式计算(Distributed Computation)、效用计算(Utility Computing)、负载均衡(Load Balance)、并行计算(Parallel Computing)、网络存储(Network Storage)、热备份冗杂技术(Hot Standy Router Protocol,HSRP)、虚拟化技术的有机整合,使其具备了实施监测数据库以及动态信息采集的能力,经由云平台从多个数据库中同时采集数据信息。
步入大数据时代后虽然业界对于大数据的具体量级并未给出明确的界定,但肯定不会低于太字节(Terabyte,TB),并且总体上数据缺乏统一的规律,数据类型也十分多样,如图表、表格、日志等,甚至还有视频以及音频。此外,大数据并非一成不变,而是每时每刻都在更新,由此使得数据规模不断扩大。各种数据在获取之后需要在第一时间保存,以防止数据的丢失,削弱其蕴藏的使用价值。大数据时代本质上属于数据爆发的时代,种类繁杂、规模庞大的数据存储就成为一个棘手问题。目前国外流行的DEEP WEB技术成为大数据时代下一种备受推崇的信息存储技术,在统一的存储环境中数据信息在规模、分布方式、动态变化等方面均有着相对应的特点,集成处理能力更高。谷歌公司研发的分布式存储技术(Google File System,GFS)成为大数据时代下数据信息存储技术的个中翘楚,该技术将整个系统分为了三个角色,分别为客户端、主服务器、数据块服务器,客户端提供应用程序的访问接口,通过应用程序客户即可以直接调用库函数。主服务器则是整个管理技术的节点,负责元数据的存储并由每个数据块节点实施更新元数据。数据块服务器负责数据的具体存储工作,将数据信息按照固定大小进行分块,一般情况下默认为64兆,每一块被称之为一个数据块且具有为宜的64位标签。该信息存储技术已经在万国商业机器公司、百度等知名企业中得到了广泛的应用,其所具有的优势在于以列存储为数据信息的主要存储方式,有效的压缩了庞大的数据信息,占据的空间更小,磁盘空间实际利用率处于较高水平。在今后工作中只需要不断完善现有的信息存储方式即可以满足当前乃至今后一段时间的信息存储需求。
云计算采取的信息存储技术与GFS不尽相同,高可用性、高可靠性、经济性好为云计算的主要原则,除了利用分布式存储来对数据信息进行保存外,还充分运用了冗余存储技术对已经存储的数据进行处理以提高其可靠性,通俗而言就是将一份数据存储多个副本。GFS面向的客户群为企业用户,而云计算则可以满足几乎所有的用户使用需求,在云技术不断完善下其所具有的高吞吐率越发引起社会各界的关注,核心系统中拥有大量的服务器,存储系统为谷歌公司的GFS以及Hadoop团队研发的Hadoop分布式文件系统,可以满足海量的、大型的、分布式的数据存储与访问需求。但当前需要考虑的问题在于如何完成内部存储数据的快速准确定位、保障数据存储的安全性、底层设备数据存储不均等方面。
大数据时代下数据已经被全球公认为继土地、劳动力、资本之后的第四大生产要素。在万物互联的时代,海量的数据信息汇聚在一起,以大数据为基础商业领域形成了精准营销以及智能进化的布局,智能商业时代拉开大幕。经过处理之后的数据信息往往蕴藏着丰厚的经济收益,但互联网是一个开放性平台,任何人、任何时间都能够借助互联网获取感兴趣的数据信息,由此使得数据信息存在着较高的风险,信息安全问题备受社会各界的瞩目。步入大数据时代后的信息安全技术研发取得了突破性进展,依托现场可编程门阵列(Field-Programmable Gate Array,FPGA)的高速并行技术、以太网高速数据传输技术、多路输入输出技术、密钥管理技术研发的高速密码运算设备使得数据安全得到了有效提升。该设备能够利用SM4算法对重要、关键数据进行加密处理,有助于防止数据泄露,提高保密性;使用SM3算法对数据进行散列处理,获得数据摘要后再进行散列运算后有助于避免数据被篡改,数据完整性大幅提升;数据传输期间使用数字签名来提升业务行为的抗否性,同时使用验证签名确认身份;用户访问权限控制对于保证使用者身份真实性具有重要意义,加密模组利用管理员以及操作员两级身份实现对访问权限的控制。除此之外继续完善现有计算机信息安全管理体系也是提升数据安全的重要举措。
结语:综上所述,大数据时代给各行各业均带来了极大的便利,催生了智能商业时代,但如何对数据信息进行处理就成为一个首要解决的问题。传统信息处理技术越发难以契合大数据时代发展所需,使得数据蕴藏的价值并未充分挖掘。本文从信息采集技术、信息存储技术、信息安全技术三方面对步入大数据时代后计算机信息处理技术发展趋势进行总结,希望能够为提升大数据安全提供帮助,