基于云计算的大数据信息检索技术研究

2014-04-29 23:21:39吴雪琴舒晓苓
电脑知识与技术 2014年10期
关键词:分词搜索引擎网页

吴雪琴 舒晓苓

摘要:随着云计算的快速发展,信息呈现爆炸式增长。廉价的云存储和计算能力,加速了大数据的产生,也使得解决大数据的信息收集和信息检索成为必然。大数据超过50%是非结构化数据,所以它们绝大部分以文件的形式存储。大数据被分成许多块存储在块服务器中,同时也产生存储在主服务器上的相应元数据。该文就如何收集大数据的web-url及关键词,又如何检索其中的信息,作了探讨。

关键词:云计算;大数据;信息收集;检索机制

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)10-2388-03

Abstract: With the rapid development of cloud computing, information increases rapidly. Cheap cloud storage and computing accelerates the datas generation. It also makes that the solution to large data information collection and information retrieval has become inevitable. Over 50 percent of large data is non-structured, so the majority of them are stored as files. Big data is divided into many blocks stored in a block server. And at the same time it also generates the corresponding metadata stored on the master server. This article discussed on how to collect web-url and its keyword of big data and how to retrieve its information.

Key words: cloud computing; big data; information collection; retrieval mechanism

随着云服务的快速增长,越来越多的个人和企业把业务迁移到在线应用。在线的贸易,社交网络,自动传感系统,移动设备的应用,以及科学仪器的使用等产生了大量的数据。其中社交网络(音频、视频和图片等)和电子商务的应用使得数据增长极为迅速,这些数据可能需要用GB、TB、PB,EB, 甚至 ZB才能描述。那么什么是大数据呢?云计算如何正确地处理它呢?如何从这些海量的数据中获取有用的信息呢?如果能从这些信息中获取日常生活必要的有用信息,无疑将极大便利整个人类社会。那么大数据也将具有巨大的价值。因此,对云计算中大数据的信息收集和信息检索将会成为一个热点。

1 大数据的存储特征及元数据

大数据是随着云计算的超级计算能力而产生的。大数据指的是:大量的结构化和半结构化的数据。它有四个特征。首先,体积大(Volume),第二是数据类型的多样化(Variety),第三是价值密度低(Value),第四是有快速处理的能力(Velocity)。大数据的这四个特征表明了他们的存储、收集和检索有别于传统的方式。

如果用传统的关系数据库保存大数据,那么既耗时又耗钱,实现起来相当麻烦。超过50%的大数据是非结构化的数据,它是以文件形式存储的。目前,基于云计算的集群文件系统已成为了大数据的传输中心了。现在,云计算中的文件系统的存储技术主要有GFS和HDFS,以下GFS [1] 系统阐释了大数据的存储机制,如图1所示。

集群文件系统的基本思想是:一个大数据文件被划分成许多块。块数据存储在块服务器中,每个块有相应的元数据。元数据存储在主服务器中。主服务器保存元素据的三种主要类型:文件和块的命名空间;块的映射文件;每个块数据备份的位置。以上的元数据存储在主服务器器的存储器中。命名空间元数据被用于维护文件系统的命名空间,通过查询命名空间能查询指定的文件和目录路径的属性信息,该路径指向了相应的内容。另一种元数据记录了文件存储的位置信息,通过查询该信息,就能知道数据块位置的偏移量。关键词元数据被组织成动态的弹性的索引结果。由于非直接描述的文本信息如果被误用,将误导搜索引擎工作。所以很多大公司如谷歌对元数据的准确描述相当重视。

2 Web信息收集与信息检索

价值密度与信息总量的大小成反比。在成千上亿,甚至千亿的页面中,满足自己需求的页面通常只有几个至几千个。例如,一个小时的视频,有用的数据通常只有几秒。云计算有超强的计算能力,只有通过云数据快速地获得处理结果。云计算如何更迅速地挖掘数据的价值是急需解决的问题。

作信息检索,百度和谷歌等是这行业方面的领先公司。在基于云计算的大数据时代,核心思想仍然借鉴了百度和谷歌搜索引擎的思想。基于云计算的大数据信息检索系统中,信息检索分为两个过程:网页收录过程和检索过程。

2.1 收录网页

检索云中的各个服务器,并对各个节点上的存储服务器中的数据信息进行分析排序,得出“相关度”排在前面的服务器。并对这些存储服务器进行并行分布式检索,检索方式主要有“深度优先”、“广度优先”。检索的结果收录在Index Repository;网页收录在搜索引擎的索引,用户提出请求的搜索过程实际上是在Index Repository进行搜索。将网页内容与索引词库结合网页的倒排序索引中。其中网页标题和链接数据被保存在一个索引中,用于广度优先搜索;网页内容保存在另一个索引中,以用于检索频率不高的长尾、个性化、深度优先搜索。

检索云中的各主服务器上的数据,分析后整理成元数据。得出“相关度”排在前面的服务器,并对这些存储器作并行分布式检索。检索方法主要有“深度优先”、“广度优先”,检索的结果收录在Index Repository中。网页收录在搜索引擎的索引,用户提出请求的搜索过程实际上是在Index Repository进行搜索,如图2所示。页面内容及按照PageRank算法计算出的倒序索引列表都存储在索引存储器中。其中页面的标题及链接数据被存储为一个索引,用于广度优先搜索。网页内容保存在另一个索引中,用于检索使用率低的长尾、个性化、深度优先搜索。

无论是在收录网页的过程中,还是用户提出请求的检索的过程中,都会用到相关度计算方法。相关度计算方法中各参数说明:N :表示关键词的总数量,M表示所有在线资源的总数量。T={t1,t2,...,tN }表示索引关键词集合。R={r1,r2,...,rN }表示被索引元数据资源的集合。TT={t1t1, t1t2,...,tNtN}表示关键词之间的关联度。TR={t1t1, t1t2,...,tNtN }表示关键词与元数据对于资源的关联度。FT:关键词使用的频率,FR:GFS元数据使用的频率。Ri表关键词ti所标记的在线资源集;Rj表示关键词tj所标记的在线资源集表关键词t所标记的在线资源集。

用户在查询时所得到的查询结果并非是及时的,而是在搜索引擎的缓存区已经大体排好的。虽然索引引擎不会知道用户会查询哪些关键词,但为了通过搜索的效率,它建立一个关键词词库,当其处理用户查询请求的时候,会将其请求按照词库进行分词。分词后的关键词匹配关键词词库,索引引擎缓冲区。

3 检索过程

当用户提出查询要求,并将关键词提交给检索代理,检索代理将检索关键词发送给了索引存储器,将检索结果重新按相关度进行排序后,传到用户检索界面呈现在用户面前.大大提高了检索能力和检索速度,如图3所示。

3.1对提交的搜索请求分析

搜索用户在搜索引擎上键入关键词,提交搜索请求,一步一步找到匹配的网页显示出来,搜索引擎将会对这次搜索请求进行详细分析。对搜索请求的详细分析主要是做分词处理。

如何分词?如果是应用请求就按照空格分词,得到分词集,排除重复后,就得到了查询的关键词。如果是中文分词,就要复杂多了,但对中文用户是重要的,而且也是必要的,中文分词采用了以下三种方式:

1)基于字符串匹配

基于字符串的匹配有三种方式:正向最大匹配法、逆向最大匹配法、最少切分。正向最大匹配法是从左到右地将索引问题分词为一些词语。逆向最大匹配法是从右到左地将索引问题分词为一些词语。最少切分就是将一个个词组最细化,甚者会一个字地出现。

2) 理解分词方法

搜索引擎模拟人类的思维去理解句子,进行分词。词和表达式进行整合以便于理解。基本的思想是:在分词的同时将通过语法和语义分析处理歧义。它通常由三部分组成:分词子系统,语法子系统和语义子系统,总控制系统。在总控制系统的协作下,语义子系统得到词,句子和其他语义信息。它模拟人类理解句子的方式去工作。

3) 统计分词方法

相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。搜索用户在键入关键词时,或多或少会出现不少停止词,像“的”“吗”,在进行分词时,通常会被去掉。

3.2 匹配搜索请求

当搜索引擎接收到搜索请求详细分析之后,便会匹配URL(当然重点是标题和摘要片段),匹配的URL有成千上万个,怎样才能有序显示出来了,这就需要搜索引擎按URL的匹配程度排序。

系统将网页的PageRank值与文档分词后的信息以及链接文件中的网页描述信息相结合起来确定检索结果排序的权值,这样就能客观地对网页进行排序,从而极大限度地保障搜索出来的结果与用户的查询相一致。PageRank的基本思路是:如果一个网也被其他网页多次指向,这就说明本网页比较重要或者质量较高。除了考虑网页链接数量之外,Google还要参考链接网页本身的级别,以及这个网页有多少正向链接到其它网页。当然“重要”的网页的链接就会有更高的权重。PageRank的简化计算公式:

4 总结

在大数据检索技术中仍然面临很多挑战。比如如何有效地应对多媒体类型—图形,声音,视频等大数据的检索。智能终端越来越普及,如何在这些智能终端应用搜索,获取相关的应用。如何利用检索技术做出有价值的信息推荐。总之,大数据的检索技术的研究仍有很长的路要走。

参考文献:

[1] Google File System(GFS).http://wenku.baidu.com/view/8a839535ee06eff9aef8074d.html,2012.

[2] 谷歌搜索引擎工作原理简介.http://wenku.baidu.com/view/ff86db2ced630b1c59eeb56a.html.

猜你喜欢
分词搜索引擎网页
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
基于CSS的网页导航栏的设计
电子制作(2018年10期)2018-08-04 03:24:38
基于URL和网页类型的网页信息采集研究
电子制作(2017年2期)2017-05-17 03:54:56
值得重视的分词的特殊用法
网页制作在英语教学中的应用
电子测试(2015年18期)2016-01-14 01:22:58
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
基于Nutch的医疗搜索引擎的研究与开发
10个必知的网页设计术语
广告主与搜索引擎的双向博弈分析
高考分词作状语考点归纳与疑难解析