将搜索引擎中的基本技术应用于高职教学探讨

2012-08-15 00:52
武夷学院学报 2012年2期
关键词:爬虫数据结构分词

陈 琳

(福建省信息职业技术学院,福建 福州 350003)

将搜索引擎中的基本技术应用于高职教学探讨

陈 琳

(福建省信息职业技术学院,福建 福州 350003)

本文探讨了搜索引擎的基本技术,以及将搜索引擎的基本技术融入高职教学中的合理性、有效性和可行性。探讨如何将搜索引擎的基本技术融入《数据结构》课程教学中。

搜索引擎;高职教学;数据结构

1 搜索引擎的基本技术

搜索引擎为互联网上数以亿计的网页建立索引,包含不胜枚举迥然不同的词汇。每天要完成成千上万个查询。处理查询必须快,达到每秒能处理成百上千个查询。索引系统必须能够有效、快速地处理亿万个的数据。而且用户希望得到高精度的搜索结果,并且这些结果最好能出现在前面的几十个。

搜索引擎的基本技术有:

1.1 抓取网页技术

抓取网页是由几个分布式爬虫完成的。一个URL服务器负责向爬虫提供URL列表。抓来的网页交给存储服务器。再由存储服务器压缩网页并把它们存到知识库中。

设定最大的线程的数目,每个线程对应一个爬虫。所有爬虫同时在网上进行搜索,根据数据库中已有的网页信息,寻找需要更新的网页或新鲜有用的网页。执行的重点是找DNS。每个爬虫有它自己的DNS缓存,不必每个网页都查DNS。每一百个连接都有几种不同的状态:查DNS,连接主机,发送请求,接收回答。它用异步IO处理事件,若干请求队列从一个网站到另一个网站不停的抓取网页。

1.2 分词技术

分词技术分为英文分词技术和中文分词技术。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,因此英文分词技术较容易实现。为了得到有效结果,还应实现短语切分,实现短语查询。中文是以字为单位,句子中所有的字连起来才能描述一个意思,因此,中文分词技术很难实现。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。

中文分词技术可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1.2.1 基于字符串匹配的分词方法

又称机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”分词词典中的词条进行比较,若在词典中找到某个字符串,则成功切出一个词。可以把机械分词作为一种初分手段,再利用各种其它的语言信息来进一步提高切分的准确率。

1.2.2 基于理解的分词方法

是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

1.2.3 基于统计的分词方法

是根据上下文,若相邻的字同时出现的次数越多,就越有可能构成一个词。以此来识别一些新的词。

1.3 用户查询方式

用户查询方式有单词查询、短语查询、“智能”查询和分层的主题查询。所谓的"智能"是基于对概率统计的灵活应用。它能够同时进行基于概念和关键字的索引。搜索引擎最基本的检索是基于布尔查询。一般认为用户输入的若干关键词为与关系,同时支持短语和邻近两种运算。在布尔查询的基础上,按空间向量模型的相似度算法计算各个文档与查询的相似度算法计算各个文档与查询的相似度,结果作为排序的基础。分层的主题查询,能让你能够从一个常用的主题导引入到另一个相关的主题。

1.4 排序技术

对搜索到的网页按它们的价值度和访问次数排序。理想情况是将价值越大或访问次数越多的网页排在最前面。

PageRank技术主要根据链接数来排序而HillTop算法更强调了内容的相关性,相同主题网站之间的链接优先。

与排序技术相关的技术有:词干技术和拼写纠错技术。

1.5 前向索引和后向索引

搜索引擎将抓取的文档信息存入知识库中。知识库中有64个“存储桶”。前向索引是将抓取的文档信息存入包含一些Word Id的“存储桶”中,“存储桶”的关键字为DocId,“存储桶”即前向索引表,它已完成了部分排序;而后向索引是在前向索引的基础上建立Word Id与其对应的所有DocId的关系,形成后向索引表,它是以Word Id为关键字,建立某个关键词与其对应的所有网页,即倒排文件。如果倒排文件的索引项数据用链表方式,则有利于提高更新效率,不利于检索;如果索引项数据按序连续存储,则有利于提高检索效率,不利于更新;一个折中方案是索引项用连续存储,索引更新采用部分索引重建的方式。

2 将搜索引擎的基本技术融入高职教学的合理性、有效性和可行性

在信息化时代的今天,高职院校的学生经常在网络上查阅各种信息,频繁使用搜索引擎。对搜索引擎有一定程度的了解,将搜索引擎的基本技术融入高职教学中具有一定的合理性。虽然高职学生会使用搜索引擎查阅资料,但他们未必了解它的工作过程,出于好奇,他们也会想了解它的工作过程,兴趣是最好的老师,如果将搜索引擎技术融入高职教学中,能吸引学生的注意,引起学生的兴趣,从而能有效地提高相关课程的学习热情,增强学习效果。因此,将搜索引擎的基本技术融入高职教学中具有一定的有效性。在高职院校计算机及其相关专业中开设了 《数据结构》课程,它是计算机专业基础课,是理论和实践并重的课程,它不是一门非常实用的课程,但对于计算机专业的学生来说,它又是一门非常重要的课程,学好它,能提高学生的学习能力、提高分析问题和解决问题的能力,能有效地提高学生的编程水平。因此,将搜索引擎的基本技术融入高职教学中具有一定的可行性。

3 如何将搜索引擎的基本技术融入高职教学中

《数据结构》课程的主要内容有线性表 (串、文件)、树、图、查找和排序。数据结构研究数据的逻辑结构和物理结构。线性表、树、图是三种基本的数据结构,每一种数据结构都有不同的存储结构,在计算机中都是以它的一种物理结构的存储形式存在。目前,高职教育推崇以工作过程为导向的教育理念,提倡以任务驱动的案例教学模式,搜索引擎的基本技术是一个不错的案例,可以贯穿整个《数据结构》课程教学的过程中。

设计一个方案如下:搜索引擎的知识库中为每个网页建立一个字典表,包括URL编号、单词及其出现的次数。可以用字典表作为线性表的案例。基于字符串匹配的分词方法,其常用的策略有以下三种:正向最大匹配法、逆向最大匹配法和最少切分法。可以用基于字符串匹配的分词方法作为串的案例。用户查询方式中的分层的主题索引可以作为树的案例。抓取网页技术用多个爬虫实现,每个爬虫有一定的搜索路径,其搜索方式可以作为图的案例。用户查询方式中用单词查询或短语查询可以作为查找的案例。用搜索引擎中的排序技术作为排序的案例。爬虫将抓取的文档存入知识库中的所建立的倒排文件可以作为文件的案例。

在《数据结构》课程的实际教学中,可安排1至2周的实训课程,完成其中的部分或全部功能。对于高职学生来说,不能作太高要求,能完成基本功能即可。

四 结束语

本文探讨了搜索引擎的基本技术,以及将搜索引擎的基本技术融入高职教学中的合理性、有效性和可行性,它不具备必要性。本文还设计了搜索引擎的基本技术融入《数据结构》课程教学的一种方案。

[1]王畅.基于java技术的搜索引擎基本组成和数据结构探究[J].科技博览,2011:109-110.

[2]魏长春.资料搜集过程中搜索引擎合理化选择探讨[J].信息通信,2011:87-88.

[3]郑志宏,徐文君,文红等.改进搜索引擎及其数据结构的设计[J].情报科学,2012:200-205.

[4]邓雄(Johnny Deng)万维网Web自动搜索引擎(技术报告)2006.12 http://www.csdn.net.

[5]搜索引擎的基本原理及数据结构剖析http://hi.baidu.com/lewutian/blog/item/0e6074dd5f6e2fe476c63885.html.

The Discussion on the Application of Search Engine Technology to the Vocational High School Teaching

CHEN Lin

(Fujian Instiute of Information Technology,Fuzhou,Fujian 350003)

This paper discusses the basic techniques of search engine and the rationality,effectiveness and feasibility of applying them to the vocational teaching.Issues such as how to apply them to course teaching eg.Data Structure is also explored.

search Engine;vocational Teaching;data Structure

G350;TP393

A

1674-2109(2012)01-0103-03

2012-02-25

陈琳(1963-),女,汉族,高讲,主要研究方向:软件技术。

猜你喜欢
爬虫数据结构分词
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
数据结构线上线下混合教学模式探讨
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术
“翻转课堂”教学模式的探讨——以《数据结构》课程教学为例
高职高专数据结构教学改革探讨