薄 玮
(陕西学前师范学院,西安,710100)
基于社会计算的科普教育平台是一个面向科普领域的开放平台,主要由社会化科普信息搜索和科普Wiki两大部分构成,如图1。面向科普领域的社会化搜索旨在向用户提供精准的科普信息检索,具体包括用户查询、科普信息检索、和社会化结果展示三部分。科普Wiki模块利用Wiki技术,允许平台中科普领域任何人添加和修改科普领域的术语词条,从而日积月累逐渐形成一个完整严密的和相对权威的专业科普领域知识库。该模块包含用户管理、问题提交、学习讨论、协作共创、页面管理、科普知识编辑等六部分。此平台为用户提供了网上学习交流、协作共创和问题解决的环境,更为透明的搜索服务,允许用户对搜索结果进行评价,通过对搜索结果进行评分能够影响对结果的排序。
图1 平台功能结构图
本文提出的社会化科普搜索引擎主要强调两方面设计:(1)科普领域数据采集器的设计;(2)社会化检索机制设计。
2.1.1 科普数据采集器
科普数据采集器主要完成从网络中抓取科普领域信息并入库的工作,是一种面向领域的主题爬虫。图2所示为采集器架构图。其中,科普领域信息分类器是采集器的核心组件,负责主要的科普网页分类工作。为提高爬取效率,本文同时添加种子域名判断组件,用以实现站内页面预判,减少分类器开销。
2.1.2 科普领域信息分类算法
科普领域信息覆盖度大,内容繁杂,比如天文、地理、自然、科技等类别均属于科普信息。为处理如此粗粒度的分类问题,本文将科普领域信息进行细粒度划分,提出多细粒度分类器融合的集成分类方法。其基本思想是:给定一待分样本,由科普领域细粒度分类器为其打分(0或1),最后汇总得分,分值高于某一阈值则认为该样本属于科普领域。本文选择支持向量机(SVM)作为细粒度分类器的分类算法,该算法是目前已知分类效果非常好的一种文本分类算法,具体实现上本文选用开源的LibSVM。
2.1.3 分类器准确率实验
本文选择百度百科作为细分科普领域信息的依据和训练样本数据源。本次实验选择其开放分类中的天文、历史、地理、自然、科技等几个大类作为科普细分类别,从百度百科中抽取各类别下子类的top-50的词条用作训练样本,共得到10000篇科普类样本。对于细分非科普类,本文以搜狗互联网分类语料库中的非科普类子类目录为依据,从各子类中随机选取非科普训练样本,同样得到 10000篇语料作为非科普类样本集。两者合计共20000篇用作实验的开放测试数据集。
本文选择保持(Holdout)方法对各细分分类器进行训练,其中训练集和检验集的划分比为2:1。选择常用的准确率、召回率和F-Measure作为科普分类器的评价指标。经计算,本系统科普领域分类器的各项指标结果如下:
由此可知,本文基于多细粒度分类器融合的集成分类器具有较高的分类性能,准确率和召回率均达90%以上。
2.1.4 基于Lucene的社会化检索机制
Lucene是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,具有索引文件格式独立于应用平台、优秀的面向对象架构、分块索引、语言和文件格式易于扩展等诸多优点。基于Lucene的检索框架,本系统将社会化搜索的概念引入到科普信息检索中,在Lucene的相关度评分机制上引入社会因子,使搜索结果更加社会化。社会因子起到人为调节结果权重的作用,允许用户对搜索结果打分。这种评分机制,使得社会化科普信息搜索能够更个性化地对结果排序,从而为用户提供更好的检索体验。
基于维基百科的理念,本系统采用JSPWiki引擎设计并实现科普Wiki模块。JSPWiki本身自带了身份认证、版本控制等基本功能。在其基础上,本文添加各项教育相关的子功能,如科普教学中的问题提交功能,允许注册用户提交各种科普问题,其他注册或非注册用户可以对所浏览问题进行回答。本系统以文本文件的形式存储用户产生的各种数据,为了方便用户权限管理,采用MySQL存储用户信息。
基于社会计算,本文综合运用社会化搜索技术及Wiki技术,设计并实现了一个面向科普领域的教育平台。该平台主要包括社会化科普信息搜索和科普Wiki两大模块。在科普领域数据采集中,本文设计采用人工干预与先采集后过滤相结合的爬取策略,提出多细粒度分类器融合的集成分类方法进行数据过滤。实验表明,该方法对于科普领域具有较高的分类性能。本文在检索部分引入社会因子,允许用户对搜索结果打分,从而为用户提供更个性化的搜索服务。同时基于维基百科的理念,采用JSPWiki引擎实现一个科普Wiki,可供用户添加、编辑、评论科普信息,自创科普资源,提升自主学习能力。本平台对于推进全民科普、提升素质教育具有重要意义。
[1]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.
[2]Linda Schwartz,Sharon Clork,Mary Cossarin et al.Educational Wikis:Features and selection criteria.Technical Education Report 27-International Review of Research in Open and Distance Learning,Vol.5(1),2004.4.
[3]Anja Ebersbach,Markus Glaser,Richard Heigl.Wiki Web Collaboration.Springer.Verlag Berlin Heidelberg,2006.
[4]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1--27:27,2011.