黄 炜
(长沙航空职业技术学院,湖南 长沙 410124)
不同的教育领域都有了解和查询相关知识的需要,比如医学诊断、建筑工程、软件设计等,这些领域的资源管理都起着举足轻重的作用。但随着科技的进步,各领域信息的增多,知识库便会不断扩大,需要运用教育信息系统的学科和领域也会不断增加。面对海量的教育信息,传统的教育查询系统不再满足需求,查到的教育和教师信息不再精确,以致系统的效率大大降低。
语义Web是一种能够理解人类语言的智能网络,其应用能够根据语义来查询和处理网络上的资源[1]。文章利用Web技术和本体技术整合教育领域的教师信息,针对现有的查询系统存在的上述问题,设计了基于语义本体的教师信息系统检索方案。
传统的方法是直接利用本体建模工具如Protégé等通过定义概念及概念之间的关系来建立本体,但这些工具存在难以处理复杂的本体概念和关系等问题。为解决领域本体建模过程中存在的问题,文献[2]通过模糊本体技术实现了5W1H(Who,When,Where,What,Why,How;5W1H)层的划分,从而直观地描述了新闻本体的概念模型。为实现教育信息的领域语义查询,文章以教师信息为例,采用5W1H分析法从六个层次来归纳分解领域本体中的概念和关系,并建立教师信息的领域本体概念模型。
领域本体可以用O=(C,AC,R,Ao)四元组表示,其中,C表示从5W1H的六个方面分析领域本体中概念的非空有限集合;AC表示概念属性的集合,是对概念特征或性质的描述;R表示概念与概念间关系的集合;Ao表示领域本体公理,是定义在概念和属性上的限定和规则。根据定义:
C={c│c∈ Cwho∨ Cwhen∨ Cwhere∨ Cwhat∨Cwhy∨Chow}
CiI Cj=Φ;
其中Cwho是关于教师主体的概念集合,Cwhen是关于时间的概念集合,Cwhere是关于地点的概念集合,Cwhat是关于研究对象的概念集合,Cwhy是关于评估、著作、奖励等的概念集合,Chow是关于方法的概念集合。
关系集合R表示领域中概念之间的交互作用,主要有两类关系,即概念之间的层次关系和关联关系:
Rh是概念间的层次关系,包括了概念间的泛化关系kind-of和聚合关系part-of。泛化关系表示概念之间的继承关系,聚合关系表示概念之间的整体与部分关系;Rb表示处在同一层次的概念间存在语义关系。对于教师本体而言,各个层次中的概念如表1所示。
表1 教师本体信息在5WIH各层次中的概念
依据领域本体、概念和关系的定义,设计了基于5W1H的教师本体概念模型。从When、Where、Who、What、Why和How六个层次分析领域本体概念,并通过每个层次内概念之间以及层次与层次中概念之间的交互关系,定义概念之间的层次关系和关联关系,从而设计了基于5W1H的教师领域本 体的概念模型,如图1所示。
图1 教师本体的概念模型
根据教师本体的概念模型,基于领域本体的教师信息通用查询系统具有以下四个层次:
(1)数据层。领域本体数据库,包括领域本体中各类、各类之间的关系以及类的属性等信息,除了对本体信息的描述信息外,还有各本体实体的信息。
(2)语义推理层。使用 RDF(Resource Description Framework,RDF)资源描述框架和 OWL(Web ontology language,OWL)本体描述语言对本体信息进行描述,并采用Protégé工具建立领域本体,采用 SPARQL(Simple Protocol and RDF Query Language,SPARQ)查询语言来查询领域本体数据,利用Jena提供的接口建立基于规则的推理查询[3-5]。
(3)服务集成层。检索引擎和推理引擎,对领域本体进行查询和推理,根据用户提供的查询条件组合查询语句结合规则进行推理。
(4)应用层。面向用户的接口,用户根据自己的需求提交相应的检索条件。
其体系结构如图2所示。
图2 系统四层构架示意图
在研究了语义网络理论知识研究的基础上,设计了基于SPARQL查询规则和基于Jena推理规则的信息查询算法,实现了基于领域本体的教师信息通用查询。
将本体数据持久化到数据库之后,便能通过Jena API来对本体进行查询和推理[6]。Jena支持SPARQL查询语言,因此采用SPARQL查询语言对本体信息进行查询推理。查询语句包括查询信息的名称以及名称应该符合的条件。条件子句以三元组形式出现,按照<主语,谓语,宾语>的顺序排列。查询条件也成为一个模式。查询的结果实际就是条件三元组与数据文件中RDF三元组匹配的结果。
Jena 2支持基于规则的简单推理,其推理机制支持将推理器导入Jena,在创建模型时将推理器与模型关联以实现推理。
在基于规则的推理机中,规则被定义为一个Rule对象,该对象由 body terms的 list、head terms的list以及可选的名字和方向来定义。只要编写查询的规则,就可以在推理机中使用了。一个推理示例如下:
[expertAndSubject:
(?x http://www.owl- ontologies.com/expert.owl#research?d),
(?d http://www.owl- ontologies.com/expert.owl#associate?s)->
(?x http://www.owl- ontologies.com/expert.owl#familiar_with?s)]
以上推理示例定义了一个名为expertAndSubject的规则,规则内容为教师x的研究方向d,研究方向d关联学科s,此规则可以推出教师x熟悉学科s。上述推理规则可表示如下:
(1)Rule expertAndSubject
Familiar(x,s)=Expert(x)I Direction(d)I
Subject(s)I research(x,d)I associate(y,s)
(2)Rule subSubject
FamiliarSub(x,z)=Expert(x)I Subject(y)
I Subject(z)I Familiar(x,y)I subClass(y,z)上述推理规则表示教师x熟悉学科y,学科y是学科z的子学科,那么教师x熟悉学科z。
(3)Rule bookAndSubject
Familiar(x,s)=Expert(x)I Book(b)I
Subject(s)I write(x,b)I associate(y,s)
上述推理规则表示书籍b的作者是教师x,书籍b关联学科s,那么教师x熟悉学科s。
(4)Rule paperAndSubject
Familiar(x,s)=Expert(x)I Paper(p)I
Subject(s)I write(x,p)I associate(y,s)上述推理规则表示论文p的作者是教师x,论文p关联学科s,那么教师x熟悉学科s。
基于Jena推理的教师信息查询,主要是通过在定义业务规则的基础上,利用Jena2推理机进行本体推理,查询满足条件的教师信息。
系统采用SPARQL设计了教师信息查询算法,采用Jena推理实现了教师信息的语义检索,实现了系统的精确查询、模糊查询、语义查询等三个功能,其人机交互界面如图3所示:
图3 人机交互界面
用户通过人机交互界面提交查询条件后,系统开始进行推理查询。由于在领域本体中教师和学科是没有直接联系的,教师研究方向与学科关联,通过学科推出教师的研究方向和专业,然后根据研究方向和专业检索出符合条件的教师。
为了比较不同的查询方式,通过中南大学信息院120位教师的信息构造了教师本体库,并在不同的查询过程中使用相同的查询条件,查询条件中的“地区”对应“湖南省”、“教师姓名”对应“志刚”,三种查询方式返回的结果有所区别:精确查询返回的结果为空;模糊查询和语义查询都返回了湖南省的名字中带有“志刚”的教师。如果查询条件中“熟悉专业”对应“计算机”,则精确查询只能找出熟悉专业为“计算机”的教师,模糊查询返回了所有的熟悉学科为“计算机”的教师;语义查询根据教师的研究方向和发表论文等推理出教师的熟悉学科,然后检索出熟悉学科有“计算机”教师。在查询条件相同的情况下,三种查询方式查询结果比较如表2所示。
表2 三种查询方式比较
实验结果表明,传统的基于关键字的查询效率远远低于基于语义的查询。通过系统中的精确查询、模糊查询、语义查询结果的分析,发现精确查询在已知查询条件的情况下具有较高的查准率,但其查全率并不高;模糊查询虽然能把数据库中所有与查询条件相关的数据都查询出来,但是很多数据不是用户所需的,所以其查准率并不高;而基于本体的查询很好的解决了查全率和查准率的问题,对用户输入的查询条件进行语义扩展以及规则推理,能够根据查询条件推理出用户所要找的所有教室信息并且很少有无关的信息,同时,基于领域本体的信息扩展查询在响应时间上也有很大的改善。
文章给出了基于教师领域本体的通用信息查询系统的实现方案,采用5W1H分析法来归纳领域本体中的概念和关系,建立了基于5W1H的领域本体概念模型,设计了基于SPARQL查询规则和基于Jena推理规则的领域信息查询算法,采用Jena开发平台和MySQL数据库,实现了领域本体查询系统的查询服务,实验结果表明,基于领域本体的语义查询技术在查准率、查全率及响应速度方面比之于其它两种检索方法都具有明显的优势。
[1]王杰生,李舟军,李梦君.用描述逻辑进行语义Web服务组合[J].软件学报,2008,19(4):967-980.
[2]Chang-Shing Lee,Zhi-Wei Jian,Lin-Kai Huang.A Fuzzy Ontology and Its Application to News Summarization[J].IEEE Transaction on Systems,Man,and Cybernetics—Part B:Cybernetics,2005,35(5):859-880.
[3]王进鹏,张亚非,苗壮.RDF(S)三元组的推理控制算法[J].计算机工程,2009,35(19):17-19.
[4]汪晨,俞家文,陆阿涛.OWL及其在Ontology建模中的应用研究[J].情报杂志,2007,(6):63-67.
[5]李柳青.SPARQL运行时查询优化算法研究[D].天津:天津大学,2012.
[6]欧黎源,邱会中,白亚茹.基于JPA的数据持久化模型设计与实现[J].计算机工程,2009,35(20):76-77.