基于社会计算的科普教育平台研究*

2013-07-30 04:07,莫倩,王
电子测试 2013年10期
关键词:搜索引擎分类器检索

薄 璐 ,莫 倩,王 芳

(1.陕西职业技术学院,西安 710100 2.北京工商大学,北京 100048 3.北京航空航天大学,北京 100191)

0 引言

社会计算的交流平台,开辟了一个令人振奋的Internet 新局面,它正从根本上改变着人们共享信息和交流的方式,深刻的影响着全球经济、社会互动和人们生活的各个方面,教育也必然身置其中。作为提高公众素质的一个重要因素,科普教育构成了现代教育的核心。本文提出了一种基于社会计算的科普教育平台框架,旨在有助于科普知识的普及和全民素质的普遍提高。

1 平台框架设计

基于社会计算的科普教育平台是一个集Wiki 和社会化科普搜索引擎于一体的面向科普领域的开放教育平台。在此平台中,科普领域的专家、教师、学生、甚至对科普感兴趣的任何人都可以添加科普领域的术语词条,日积月累逐渐形成一个科普完整的、严密的和相对权威的专业知识系统——科普Wiki。图1 描述了基于社会计算的科普教育平台框架。

社会计算是同互联网密切相连的,是一门现代计算技术与社会科学之间的交叉学科,分为微观技术和宏观社会两个层面。由于Web2.0 文化是一种平等、开放、自由的网络社区文化,所以在这个背景下的用户对搜索引擎提出了更高的要求。融入了社会计算概念的科普搜索引擎更加社会化,通过用户通过对搜索结果进行评分能够影响科普搜索引擎对结果的排序,搜索Wiki 元数据包括词条编辑时间、编辑次数、点击率等人文因素,在检索时的分档评分中这些社会因素乘以一定的阈值也将影响到结果排序,对搜索结果排序更加人性化,使用户享受到更为透明的搜索服务。其主要由科普主题分类机器人、索引器、查询器和查询接口组成。

2 关键技术

2.1 社会化科普搜索引擎设计

2.1.1 主题分类机器人架构设计

主题分类机器人主要完成从Web 中采集科普领域信息并入库的工作。机器人的制作使用基于工作流/组件技术的网页信息抽取系统VWIE 来完成。利用VWIE 的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人。

2.1.2 分类器核心算法

2.1.3 分类器准确率实验

图1 基于社会计算的科普教育平台框架

1)分类训练样本设置

SVM 算法分类需要给出训练样本。本文的实验训练样本分为科普和非科普两类,但由于两类覆盖范围较大,无法用一个简单合理的特征集来描述两个主题,因此我们对这两类进行了细分,尽可能多的将其划分为小类,若网页属于小类,则其必属于此小类所属的大类。我们的子类别划分及各个类别训练样本如表1 所示:

2)实验结果

我们从搜狗互联网分类语料库中依照非科普类子类目录,共选出5000 篇语料作为非科普测试集,从百度百科开放分类中的自然、地理和历史三个大类中抽取每个子类的前20~30个词条,共抽取5000 篇文章作为科普测试集,两者合计共10000 篇用作实验的开放测试数据集。测试结果如表2 所示:

衡量分类器的重要指标是召回率和准确率。召回率(Recall)是检索出的相关文档数和文档库中所有的相关文档数的比率,准确率(Precision)是检索出的相关文档数与检索出的文档总数的比率。本文分类器召回率和准确率如下所示:

实验结果表明:本文基于SVM 算法的科普主题分类器具有较高的分类准确率和召回率,能提供专业的科普知识搜索功能。

2.1.4 基于Lucene 的检索机制

科普社会化搜索引擎在信息检索部分使用Lucene 实现索引器和查询器功能,Lucene 具有索引文件格式独立于应用平台、优秀的面向对象架构、分块索引、语言和文件格式易于扩展等诸多优点,并且已经默认实现了一套强大的查询引擎,我们无需自己编写代码即使系统可获得强大的查询能力,但Lucene 中文分词并不十分理想,因此利用Lucene 的可扩展性我们使用现较为流行的开源中文分词庖丁解牛技术代替原有的分词。实践证明,替换后效果非常明显,很大程度上优化了索引质量和查询效果。

2.2 科普Wiki 的实现

随着Wiki 技术的发展,出现了种类繁多的Wiki 引擎,使用较为广泛的有JSPWiki、WikiMedia、WakkaWiki 、CooCooWakka 等。本系统采用JSPWiki 引擎,JSPWiki 引擎是一个基于文本文件的简易Wiki 系统,包括了版本控制、身份认证等基本功能。JSPWiki引擎中的用户只分为注册用户和非注册用户,用户信息在XML 文件中存储,为了便于用户权限管理,本文采用MySQL 数据库来存放用户信息。

3 小结

本文综合运用主题搜索引擎技术和Wiki 等技术,设计并实现了一个基于社会计算的科普教育平台。该平台中科普搜索引擎部分针对科普领域信息的特点,采用人工干预与先采集后过滤相结合的主题搜索引擎信息采集策略,应用基于SVM 分类器的主题分类机器人进行数据采集,在检索部分引入社会因子并且允许用户对搜索结果评分使得此平台能够为用户提供更加专业准确的搜索服务。基于社会计算的科普教育平台对普及科普知识,提高全民素质,推进素质教育具有重要意义。

[1]刘润英;胡航;任友群.社会计算视野下的教与学[J].现代教育技术,2008,18(13):10-14.

[2]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.

[3]Yutaka M.Junichiro M.Masahiro H.An Advanced Social Search Engine System from the web.In Proceedings of the 15th International Conference on World Wide Web,May,2006,Edinburgh,Scotland:397-406.

[4]Jo T,Japkow Icz N,Stephens.The Class Imbalance Problem:A Systematic Study[J].Intelligent Data Al1alysis,2002,6(5):203-231.

[5]李东方.Web2.0 环境下互联网信息过滤理论与方法研究[D].合肥:中国科学技术大学,2009.

[6]Mo Qian,Du Junping.The Design of a News Knowledge Portal System with Topic Tracking Technology.Proceedings of the 2006 International Symposium on Artificial Intelligence,Beijing,China,2006.8:258-262.

猜你喜欢
搜索引擎分类器检索
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
专利检索中“语义”的表现
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
一种基于置换的组合分类器剪枝方法
基于Lucene搜索引擎的研究
国际标准检索
国际标准检索