面向中等职业教育的垂直搜索引擎的分析与研究

2015-06-15 20:53卞华文
科技资讯 2015年36期
关键词:网络爬虫中等职业教育

卞华文

DOI:10.16661/j.cnki.1672-3791.2015.36.056

摘 要:网络技术的飞速发展,使人们对信息的接收方式发生了翻天覆地的变化。搜索引擎已经成为人们查询信息的主要方式。同时对于查询的速度,准确率提出了更高的要求。由此各种针对某一行业的垂直搜索引擎为此应运而生。目前面向教育的垂直搜索引擎已经有了很大的发展。但是针对中等职业教育的垂直搜索引擎还很少。该文通过对垂直搜索引擎的核心技术分析、研究,设计了面向中等职业教育的垂直搜索引擎的系统结构,并对其中涉及的关键技术:Web搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进该领域的技术发展作出一定的贡献。

关键词:中等职业教育 垂直搜索引擎 网络爬虫

中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2015)12(c)-0056-02

1 绪论

1.1 概述

目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来找到我们所需要的信息。那么为了能够更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎(雅虎、百度、Google)能够使人们快速地搜索网络上我们需要的相关信息。但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,需要浪费用户大量的时间和精力来加以区别。垂直搜索引擎技术的产生就是为了解决通用搜索引擎专业性不够、集中度不高的问题,大大地提高了搜索的速度和精确度。而随着我国执行大力发展中等职业教育的政策,教育资源不足严重地制约着中等职业教育质量的提高[1]。目前面向普通教育资源的垂直搜索引擎发展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重不足。目前我们国家对于中等职业教育非常重视,投入的力度也很大,对于计算机和网络的硬件条件已经完全具备在中等职业学校建立辅助教学的信息检索平台。

1.2 国内外研究现状分析

通用搜索引擎从诞生到现在已经经历了十余年的发展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,实际上,搜索引擎的出现是个必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出了人们的想象,互联网行业的应用已经渗透到人类生活的方方面面。搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。

搜索引擎的发展经历了几个重要的历史时期:最开始出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开始收录网络地址;搜索引擎开始收录标题;目前的搜索引擎,已经开始抓取网页全文了。

1.3 面向教育的搜索引擎的发展现状

目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被视为商业机密。甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描述。这使得开发教育搜索引擎成为教育技术领域一项困难的任务。为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进行了深入地探讨和研究。

1.4 面向中等职业教育的垂直搜索引擎发展现状

面向中等职业学校的垂直搜索引擎的研究目前严重不足。对于垂直搜索引擎来说专业性越强其搜索的效果越好,由于我国的经济形势的发展,各种产业不断升级,社会需要大量具有合格工作技能的专业人才,国家对于中等职业教育越来越重视,投入也越来越大,甚至达到了职业教育与义务教育同等重要的地位。

2 垂直搜索引擎技术分析

垂直搜索引擎系统由4部分组成:信息采集(Crawler)、分析、索引(Indexer)和查询(Query)。信息采集模块负责在互联网上查找网页信息,并对所采集的网页内容进行解析、过滤、分词处理;索引模块对采集到的信息分析之后进行倒排序的方式存放到索引数据库中;查询模块根据用户输入的关键词,从索引数据库中找到相关的网页,并根据相关度排序将网址和网页摘要反馈给用户。

2.1 信息采集模块

搜索引擎采集网页通常采用网络爬虫(Spider)[2]方式。通过它可以生成以用户输入的关键词为依据排序的URL及摘要的索引数据库,它的工作原理是从初始URL开始不断抓取URL。这些URL信息集成一个URL队列,一直到不满足查询条件为止。通过分析过滤掉不相关的网页链接,将有用的网页链接放到URL队列中,并在URL队列中找到后面要抓取的网页。最后将抓取的URL和摘要按相关度的顺序保存到索引数据库中,用于后面的索引和查询。

2.2 信息的分析模块

目前互联网上的网页数量呈几何级别的增长,如何从浩如烟海的网络中抓取用户需要的信息,过滤掉无关的网页需要建立一个判定的规则。通用搜索引擎是不进行主题相关性判定的,造成抓取的网页数量庞大且分散。由于垂直搜索具地专业特性、精确度高、深度大的特点,要对信息采集模块采集到的网页进行主题相关度的判定。使其能够尽量地抓取高度相关的网页,这样提高了搜索的精确度和搜索的速度。同时还要制定一定的策略来解决网页重复和网页内容变化的问题。

2.3 信息索引模块

信息采集模块抓取的网页,保存在一个结构化的数据库中,按照类型进行排列建立索引数据库以便进行快速检索。通用搜索引擎抓取的网页庞杂、分散,因此不能进行全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进行全文检索。使其具有相比于通用搜索引擎搜索深度大的优点。

2.4 用户界面

用户输入和输出的接口,现在通常使用Ajax技术来设计用户使用的界面。利用Lucene全文检索工具根据用户输入的关键词将索引的相关网页以列表的形式反馈给用户。

3 面向中等职业教育的垂直搜索引擎的分析和研究

3.1 中等职业教育的特点

中等职业教育具不同于普通教育的特殊性,简单的说有些类似于高等教育与义务制普通教育的结合体。既有高等教育按专业分类的特点,又有普通教育课程分配的特点。要求的知识内容和技术水平接近于高中教育水平。虽然中等职业教育是以培养专业技术型人才为目标,但同时也要兼顾文化素养和德智体美全面发展。即不仅要学好专业课程和专业相关领域知识,同时也要加强文化课程的学习。

3.2 构建面向中等职业教育资源的垂直搜索引擎框架

根据我国中等职业教育的自身特点,搜索引擎框架从下面几个角度来设计,分别为专业课程、文化课程、技能鉴定和实习就业4个部分。学生可以根据自己在学习当中的需要,有针对性地查询自己所想要的信息。

3.3 各个子系统的设计

信息采集系统的设计:网络爬虫的工作步骤。首先蜘蛛搜索网站首页的根网址,保存到待抓取的地址列表中,若地址列表不为空就判断是否曾经访问过该地址,假如此网页没有被访问过就读取网页内容,并对读取的网页内容进行解析,然后对内容主题相关度进行判断,并将关联主题的网页内容保存到数据库中,并把这些网页的网址保存到已访问网页列表中,否则去掉此网页地址。最后当待抓取的网页列表为空的时候,或者抓取的深度满足制定要求的时候结束读取,重复执行抓取其他网站直到结束。

索引系统的设计。索引过程可分为3个主要的操作步骤:将信息转换成文本,分析文本,将分析过的文本保存到数据库中。要想对信息分类和建立索引,那么首先必须将信息转换成纯文本字符流。但是在网络中信息是以各种富媒体文档格式存在的:比如PDF,WORD,EXCEL,HTML,XML等。为此需要使用文档解析器,将富媒体转换成纯文字字符流。分析文本。在对信息进行索引之前,还必须将转换后的文本进行分词技术处理,才能更好地建立索引。当数据分析时,首先将文本拆成若干个块和单元词汇,接着可选择操作,比如:大小写转换在索引操作之前,避免大小写的错误;比较典型的是去除经常使用却没用的词汇,比如介词、冠词(the、a、in、on、an等)。同样道理,找到一些没有意义的词汇在索引之前就把它们去掉以减少索引的次数提高索引的效率。对输入数据分析处理完成后,就可以将结果写入索引文件中。结果一般包括网页标题,正文,所属住地址,主机,内容摘要,当前URL地址等,并根据具体情况和需要建立索引和存储。

信息查询算法。通过预处理网页后,每个元素由下面几个信息构成:编号,网页地址和主题,初始网页文档包含的系统关键词的集合以及它们在文档中出现的位置数据同时还包括一些其他的重要信息(例如重要级别,代码类别等)。而关键词集合和文档的编号共同组成了一个倒排索引文件结构,能够迅速地输出相关文档的集合编号。查询方式指的是搜索引擎承认的查询方法。由于客户的不同要求所以不能只有一种查询方法。通常对于普通的客户的查询方式,那就是输入他最想要的词汇。然而这不能作为一种准确定义的查询方式。

比如客户写“技师学校”,可能是他想了解技术学校目前的招生状况,可能需要找到技师学校教务系统的网址,可能需要了解大家对技师学校的评价。这是3种相当不同的需求。在其他一些情况下,用户可能关心的是间接的信息,例如“技师学校录取分数线”,450分应该是他需要的,但不可能包含在这个短语中。尽管如此,用一个字或短语来间接表达查询需要,如果网页内容或标题中包括输入的词或短语,仍然是最普遍的查询方法。原因是他所查询出现的概率是最多的,还包括如此查询也更简单和容易完成。如此来说,搜索引擎接收的语句。通常用q0作为客户的初始查询,比如,q0 =“网络与分布式系统实验室”。它最先要被分词成一个词的序列。所以则变成“网络与分布式系统实验室”(注意,分词软件的不同有可能导致不一样的查询结果)。接着要过滤掉那些几乎在所有文档中都会出现的那些没有意义的字符,最后生成查询词表用于匹配,q={t1,t2,…,tm},从上面的实例来说q={网络,分布式,系统,实验室}。倒排文件就是把所有的词按倒序的方式依次保存到搜索引擎的索引文件中,所以q中的词一定要存在于搜索引擎所产生的查询倒排文件。那么作为用户所输入的q,客户输入的词汇会分割成一个个的关键词而抓取到文档编号的集合,记作L(ti),所产生的交集就是相关查询的倒排文件,也就是达到了查询和网页文档的匹配。因此用户总是要求所输入的词汇被包含在网页文档当中。

3.4 专业课程模块设计

专业技术的学习是中等职业教育的核心和重点,专业技能的高低直接决定了学生未来的就业前景。由于中等职业学校规模的限制不可能像大学那样建立大而全的专业体系。大体上来讲,中等职业学校的专业可以笼统地分为工业类包括机械、工程、电子等,信息类包括计算机、金融、会计等,服务类包括艺术、旅游、餐饮、教育等。用户可以根据不同的专业来搜索相应预处理过的信息。

4 该文的主要工作

该文通过分析了中等职业教育的特点,对垂直搜索引擎的核心技术分析、研究。设计了面向中等职业教育的垂直搜索引擎的系统结构,并对其中涉及的关键技术:网页搜集器、信息抓取技术、查询技术从事了探讨和研究,希望对中等职业教育领域的垂直搜索引擎的应用能够做出一点贡献。

参考文献

[1] 赵翠.中等职业教育扩招:意义、问题与对策[J].机械职业教育,2011(8):14-16.

[2] 赵洋,滕桂法,张玉新.基于Intemet的农业信息垂直搜索引擎的设计[J].河北农业大学学报,2009,32(6):125.

猜你喜欢
网络爬虫中等职业教育
炼铁厂铁量网页数据获取系统的设计与实现
浅析中职《汽车机械基础》课程的教学方法
浅析中职数学课与专业课的衔接
中职学校学生探索能力培养初探
“新常态”下区域中等职业教育发展的三大转变
案例教学法在中职校生物教学的应用研究
将情感教育融入“老年护理学”教学中对中职卫校学生道德价值观的影响研究
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量