钟建坤 陈纪钦
关键词:云计算;大数据;信息检索技术
云计算下的大数据网络信息检索技术,是在利用云计算技术对信息实现自动分析、挖掘后,通过优化云计算资源来实现自动化分析和挖掘,实现个性化的服务、决策的过程。以大数据为基础的网络信息检索技术,以云计算为手段,能够将网络信息检索技术与现代科学技术有机结合起来,形成一种全新的、新型服务模式。网络信息检索技术通过云计算等技术实现网络信息的检索、分析、挖掘,以为用户提供更加高效、便捷的信息服务。
一、云计算与大数据的相关概述
大数据,是伴随互联网发展起来的新兴事物,也是我国IT 产业发展的一个重要方向。大数据主要包括三大部分,即存储与处理系统,包括云计算平台、数据库系统、网络系统及相关的服务系统等。云计算是通过云计算平台提供计算、存储、网络服务的一种新型计算模式,旨在为用户节省资源、降低成本,并提高用户体验。此外,随着网络技术、计算机技术等信息技术发展进程的不断加速,云计算也更加广泛地应用于经济社会之中。从传统应用系统向云计算平台转型是互联网发展过程中必然会出现的一个发展趋势。一方面它给我们带来了前所未有的技术;另一方面也给传统行业带来了前所未有的挑战。因此,云计算对应用软件开发人员、数据科学家、软件开发人员来说具有十分重要的价值。
二、大数据网络信息检索技术
大数据网络信息检索技术是针对网络信息特点和海量用户需求发展起来的大数据网络技术与应用技术。且大数据网络信息检索技术是通过数据收集、数据建模等方面的研究成果来实现大数据计算、挖掘、应用等方面的技术方法。因此,大数据网络信息检索技术,对大数据有着十分重要的作用。
(一)大数据网络信息储存
大数据网络信息储存数据库的构成包括两个部分:一是存储,即数据的对象存储;二是数据处理,即数据的内容处理。存储主要是将数据存储到内存中去进行存储,计算主要是将数据计算到字节级的存储。其大数据的网络信息储存内容具体如表1 所示。
1. 分布式存储技术
分布式存储技术主要是通过一系列复杂的技术实现数据的统一管理,将多个用户数据集中起来,然后通过分布式存储技术将各个用户的数据集中起来,再利用分布式存储技术对各个用户的数据存储。因此,分布式存储的主要优点是数据保存的安全性与效率比较高,另外还可以将大数据作为数据的存储对象进行利用。但是在数据存储方面存在着成本较高且性能不稳定的不足之处[1]。因此要想实现大规模的存储,就需要将数据集中起来储存好,在数据储存方面也需要采用存储技术,来进行大数据存储的研究开发,才能够获得良好的经济效益。
2. 系统内存存储技术
系统内存存储技术是大数据系统的核心,它是一种动态内存存储技术,可以有效地提高系统对大数据资源的利用率,实现数据库的快速扩容,并且支持了在复杂环境下保持系统性能的优化。该技术是目前最先进的内存存储技术,也是大数据系统的核心技术。目前,大数据系统内存存储技术主要分为两种类型:第一种是异构内存技术,主要有分布式内存技术及异构的数据库技术;第二种是融合内存技术,主要有MongoDB 及HBase 两种技术。其中异构内存技术具有很高的扩展性,可以广泛应用于多核处理器中。因此,异构内存技术已经成为大数据时代信息存储技术的核心。
(二)元数据的具体应用
元数据是存储在数据库中的数据集合,一般是由一组数据文件組成,在建立数据库的过程中,需要对这些数据文件进行排序、抽取、转换、提取,以获取相应的记录。目前元数据主要用于对数据库相关知识的解读,以及对新应用、新问题的发现或预测,以及对数据库知识图谱、高级分析工具等软件程序上使用。而在传统存储结构中,往往只存储简单类型的源代码。但是传统结构化数据在数据库中具有不可替代性,在使用时需要对传统结构化信息进行分析后,再形成可执行文件保存在数据库中[2]。因此,其在数据库系统架构中起着至关重要的“连接”作用。
(三)WEB 信息收集与检索
从当前的信息社会发展来看,信息的种类越来越丰富,并且是一个非常具有包容性的信息资源,人们不仅可以在网上直接访问到所需要的信息,而且还可以通过网站的链接来实现在线交易等。对于WEB 系统,在获取信息的过程中,主要有两种方法:一种是直接在网站上输入需要的内容,这种方式存在信息质量差的不足之处;另一种是通过查询网站的信息来获取内容与信息,这种方式也存在着一定的问题。因此,针对这两种方法,在WEB 的信息收集与检索过程中,就必须采用良好且准确的信息获取流程与相应的方式,来对信息的质量问题加以保障。
三、网络信息的收集与检索
(一)网页收录
大数据是指在信息技术快速发展的背景下新出现的以数据量增长为特征的信息结构。它的特征是数据规模庞大、分布广泛,并且数据的可收集性极强。数据的形式多种多样,它可以是自然数,可以是互联网的URL数据,也可以是通过各类的数据源来获取数据,可以是文本、图片、视频等信息,也可以是其他类型的数据。在传统的网页的分类中。它分为多种分类类型,如以中文为例:HTML 类网站分类,就是按照其所处环境分类来划分的。在每个分类下再细分出若干个子分类,如游戏、购物、新闻资讯以及信息等。
(二)数据检索
数据检索是大数据分析的核心内容,是为了实现数据的最优化和效率最大化而采用的技术,是云计算下大数据应用最为关键的一个部分。很多企业都需要通过数据检索,来获取业务系统中需要的数据信息,为企业经营决策提供依据。在企业中也存在着大量的数据资源需要存储、查询,存储也就是在使用的过程中不断地进行学习、优化和改进。这就要求企业要将大量应用系统的数据进行检索,并对其进行整理分类、关联、提取、清洗,等处理之后再进行分析,以提高其使用效率并减少因重复而造成的经济损失与浪费[3]。
(三)检索过程
大数据检索,即为用户将需要处理的数据集中起来处理。通过分析海量数据,并采用不同的检索模型,来达到提升用户服务效率和准确性的目的。根据传统的Hadoop 等数据库检索模型,大数据检索主要包括三个阶段:第一阶段是基于对海量用户数据集的检索;第二阶段是基于业务用户数据集,如:搜索、社交网络等检索;第三阶段才是基于核心业务用户数据集的检索。此外,在对数据库进行研究分析时,主要的研究内容包括:如何将分散的、可访问的、结构化和非结构化数据组合起来,建立一个数据库。从内容来看,数据库分为分布式数据库、非结构化数据库和表数据库。从结构来看,分布式数据库和非结构化数据库分别通过将不同的属性放在不同对象上,从而构建出了不同类型的查询系统、查询引擎、扩展功能。
四、云计算在大数据网络信息检索技术中的应用
(一)云计算中私有云的具体应用
随着互联网的快速发展,信息和数据的价值不断提高,各大企业都开始将IT 部门转移到互联网上,利用互联网技术来提供信息服务。云计算中的私有云主要用于IT 部门,企业IT 部门将自己的计算资源和存储资源等向私有云平台迁移。从使用效果上看,私有云能够很好地满足IT 部门的业务需求。其主要应用如表2 所示。
1. 解决企业信息安全问题
通过应用大数据,私有云可以很好地保护企业的重要信息,使企業可以有效地应对网络攻击,保障企业信息安全。在使用私有云模式时,企业可以将自己的服务器搬到私有云平台上运行,实现安全托管功能。采用云计算技术在保证数据存储信息安全的同时,能够有效地解决企业存储的数据存在着数据丢失和泄露等问题[4]。此外,在企业内部还可以使用私有云模式做数据共享;在数据共享过程中,也无需担心存储在企业内任何服务器与其他服务器之间存在着数据丢失和泄露等问题,从而更好地实现了企业内部员工对私有云平台数据的共享访问,提升了企业内部资源利用率,以及大幅度地降低企业办公成本。
2. 支持企业业务不断创新
为了保证业务处理过程中的数据安全,企业一般采用防火墙、入侵检测、密钥管理等安全技术,来保障业务核心数据安全。但同时企业自身缺乏相应的IT 人才,如果采用普通安全技术,这些专业人员的需求和精力有限。如果企业业务发展需要大量人力,又缺少技术人员来保障服务能力,这时候私有云就是一个很好的选择。与传统IT 技术相比,私有云平台可提供更多的支持,在支持业务创新方面具有独特优势。此外,基于云平台能够提供实时备份及安全监控等服务以满足客户需求;且能够更好地对业务扩展与个性化服务进行优化。
3. 减少IT 人员工作强度
云计算环境下,IT 人员可将自己的资源向私有云迁移,并通过提供相应服务或技术来实现资源的有效利用,大大降低了IT 人员的工作强度,并提高了IT 人员的工作效率,同时避免了IT 人员出现重复劳动的现象。目前,在国内已经有一些大型的IT 企业开始使用云计算环境的私有云平台进行数据迁移。用户可通过云平台提供相关的服务,这样用户既可以轻松管理自己的虚拟资源,又可以灵活操作其软件资源或其他资源。
(二)网络环境中云计算技术应用
云计算作为一种商业模式,在全球范围内得到了广泛推广,也正在各个行业中得到了广泛运用。伴随着互联网技术的发展,网络环境正变得越来越复杂多变,所以传统企业需要寻找一个安全可靠、可扩展且适合自身需求的环境来开展业务,才能不断提升自身竞争力。例如,存储和计算系统会变得非常昂贵和难以维护,并且需要一个专门用以管理云计算的服务器来提供高效率;许多企业没有足够先进的网络设施确保数据能够安全地传输;或者IT 服务需要快速升级、更换和扩展等等;云计算在一定程度上都可以对这些问题进行解决。
(三)实现信息检索中的计算资源
如今计算技术的日益优化,网络信息检索技术所使用的计算资源已经从最开始的“CPU+ 内存部分”逐渐扩展到“硬盘+ 内存部分”“CPU+ 内存”以及内存的扩展等多种方式。其中硬盘存储数据通常以磁盘和光盘组合的方式进行。由于磁盘存储数据占用内存较小,因此可以将其当作磁盘存储计算资源;而光盘存储数据相对较为复杂,需要一定的计算资源支持才能使用。因此,针对网络信息检索技术来说,若想要利用大数据进行挖掘分析并不是一件十分简单的事情,还需要更加深入的研究来加以解决。
(四)提高计算机的资源处理能力
随着计算机技术的发展,能够充分发挥出计算机硬件资源优势的云计算就是一种新兴的计算资源应用模式。云计算在网络信息检索技术中应用的关键技术在于,提高数据库信息系统资源处理能力,使其更快地在互联网中得到应用。通过云计算技术可使大数据在企业内部的应用更高效更便捷,使其更加适应信息化社会的发展需要[5]。当前,我国企业网络信息检索技术还不够成熟,用户对于网络信息检索技术要求不高,也不具备强大的网络信息检索能力。因此,我们应该大力发展云计算技术以提高计算机资源处理能力,从而能够实现更加高效的网络信息检索技术应用。
(五)拓展网络信息检索应用范围
以云计算为基础,可以在一定程度上拓展网络信息检索技术的应用范围。例如,可以利用云计算技术为用户提供信息查询服务,这是一种基于云计算的信息查询服务模式。用户通过使用云计算来完成网络信息的检索目标,那么就可以利用这种模式对网络信息进行分析和挖掘,并在其分析结果的基础上确定查询的目标或范围,从而将网络信息转化成为有价值高效率的信息内容或信息形式。借助云计算这种网络信息查询的模式服务用户,将会极大地提高用户在网络信息检索中的便利性和准确性。
五、结束语
综上所述,在信息检索领域中,基于云计算的大数据检索技术与网络信息检索技术的融合是一个非常好的发展方向,其不仅能够为信息检索提供更加高效的解决方案,还可以实现资源协同办公,为用户提供更多便利。此外,云计算大数据技术已经在互联网领域发挥了巨大应用,但由于技术的不成熟,目前仍存在一定程度上的安全隐患。因此,要积极推动该技术在互联网领域的应用和普及,建立安全可信的网络环境,以确保为用户提供更好的服务,进而促进我国大数据行业的良好发展。