李跃新,张 瑞,洪宗祥
(1.湖北大学 数学与计算机科学学院,湖北 武汉 430062;2.商丘师范学院 计算机与信息技术学院,河南 商丘 476000)
语义网络是奎廉(J.R.Quillian)于1968年在他的博士论文中作为人类联想记忆的一个显式心理学模型最先提出的[1]。随后在他设计的可教式语言理解器TLC(Teacher Language Comprehended)中用作知识表示,1972年西蒙将其用于自然语言理解系统。目前,人工智能和知识工程许多领域广泛地应用语义网络,这种知识表示方法表达能力强并且灵活多变。
当前国内外语义网络的存储和使用的工具,多是基于本体的知识体系的, 如 Sesame、Jena、3store、SquishQL 等几种存储管理系统。 JENA语言,是以RDF(Resource Description Framework)API为核心的,可以用来实现语义网的一种方便的语言[2]。JENA支持RDF的创建、操作和查询等多项功,也支持很多不同的数据存储技术。SquishQL语言从名字就可以看出与SQL语言有联系。这是一种基于SQL的RDF查询语言,使用比较简便,并且有两种约束类,可以用来表达模式和过滤,可以直接将Web作为数据库使用[3]。从定义上来看,本体是一种基于理论的知识体系,在理论研究中被广泛用来描述领域知识[4]。所以应以本体理论为依据,根据实际的需要,制定规划相应的知识管理方案和策略[5]。作者正在研究本体论表示领域的知识体系,语义网络表示领域的具体知识。
文中以关系数据模型为基础,并借助于关系数据库管理系统强大的存储和处理能力以及良好的可靠性,介绍语义网络知识表示方法,在关系数据库支持下的存储、使用和维护的技术方法并讨论和分析这种技术下的存取效率。
语义网络主要是将概念及其语义关系用图的方式来表示一种知识结构。单纯从图论的来看,它其实就是一个“有方向的图”。下图是一个最简单的语义网络,用三元组来表示:
图1 基本语义网元的图表示Fig.1 Basic semantic elements
其中node1、node2表示知识领域中的事物、概念和事件等,arc表示事物、概念和事件等之间的联系。可用如图1所示方法表示。node i用矩型图表示,arc用有向直线表示。主要的联系有:
1)隶属关系——is a;
2)聚集关系——a part of;
3)分类关系——a kind of;
4)推论关系——derived from;
5)活动或行为关系——action or take part in;
6)时间、空间等关系——before、after、behind、in、at。
语义网络系统是多结点的有向图表示领域完整的知识系统。其定义如下:
其中V表示知识系统中的结点集合,E表示结点间的联系集合。
语义网络的不确定性表示,这里需要从3个方面进行:
1)语义联系的不确定性;
2)结点的不确定性;
3)语义网络结构的不确定性。
文中考虑语义网络节点联系的不确定性,为此提出二元组:
其中,G为(2)式表示的有向图,V是语义网络中结点的集合:V=(v1,v2,…,vn)。
若 E(vi,vj)存在,E 为 G 中的边集合,定义
μi是 E(vi,vj)的隶属度,表示结点(vi,vj)联系的模糊度、重要度等;F是V×V上的一个模糊关系。
二元关系模型可描述语义网中的有向边的起始节点和终止节点之间的关系:
Start_Node(NodeID,NodeName,NodeArcIndex)
End_Node(NodeID,NodeName,ArcAttribute, Membership)
Start_Node关系描述了语义网中有向边的起始节点,其属性分别为NodeID节点ID,NodeName节点名称。End_Node为有向边的末端节点,其属性分别为NodeID有向边末端节点ID,ArcAttribute节点的关系,Membership关系的隶属度。用数学语言抽象两个关系构成一个二维矩阵,Start_Node为行元素,End_Node为列元素,ArcAttribute为元素的值(Membership也可是元素的值,这时元素的值将是一个二元组)。
有如下所述的关于小明和小丽的事实[6]:
小明和小丽是XX小学6年级学生,他俩是兴园小区的邻居。小明养有一只小狗,名叫“笨笨”,小明的妈妈每天下午7点钟在小区内遛狗,她可以看到小区内有很多中老年人在锻炼身体。
上述事实可抽象出的概念有(含时间概念):小明、小丽、XX小学、6年级、邻居、狗、笨笨、小明的妈妈、中老年人、兴园小区、下午、7点等,可抽象出的事件或活动:饲养、遛狗、锻炼身体等。因此关于小明和小丽的事实可用如图3所示的语义网络描述。
图2 关于小明和小丽事实语义网表示Fig.2 Bob and Mary's facts are described with the semantic network
关于小明和小丽事实语义网络表示的数据库关系表可依照Start_Node和End_Node关系建立如图3所示的数据表,其中End_Node_Table最多有n个,由于结点的关系为确定关系,属性Membership省略 。
图3 小明和小丽事实语义网络的数据库关系表Fig.3 Bob and Mary’s facts are described with the database relationship table
现在分析一下基于关系模型的语义网知识表示的空间资源耗费情况。设知识领域的语义网表示的图G=(V,E)中,V的结点数为n,Start_Node_Table表记录的个数最大为 n,最坏的情况下每个结点i有指向所有结点的有向边,End_Node_Tablei表的个数i为n,而表中的记录个数也是n,因此知识领域的语义网表示的关系数据库实现时最坏情况下的记录数为:S(n)=O(n2)。 可以看出虽然 S(n)为多项式,但还是比较大的,因此如何优化数据库查询提高知识使用效率将是后续研究的重点。
文中提出了给予关系模型的语义网的知识表示,并用关系数据库表表示了一段的事实,可以看出这种方法很好的解决了用二维关系表表示多维非结构性知识的问题。因论文的篇幅有限,文中没有涉及如何查询数据库(如何使用知识),即利用事实推理得到与事实相关的事实以及如何得到隐含在事实中的事实。另外由于语义网表示知识本身也有缺陷,如表示知识的方法不统一、表示一个完整的、规模较大的知识体系比较困难[7-8]。这些问题正在进行深入的研究,研究的结果将发表在另外的论文中。
[1]陆建江,张亚非,苗壮,等.语义网原理与技术[M].北京:科学出版社,2007.
[2]邓志鸿,唐世渭,张铭,等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5):730-738.DENG Zhi-hong,TANG Shi-wei,ZHANG Ming,et al.Ontology research[J].Journal of Peking University:Natural Science Edition,2002,38(5):730-738.
[3]Neches R,Fikes R Finin T,et a1.Enabling technology for knowledge sharing[J].AI Magazine,1991,12(3):36-56.
[4]Pan Z,Zhang X,Heflin J.DLDB2:A Scalable Multi-Perspective Semantic WebRepository[C]//In W1 08:Proceedings of the International Conference on WebIntelligence.IEEE Computer Society Press,IEEE,2008:489-495.
[5]Haarslev V,Moiler R.RACER System Description[C]//Proc.of the International Joint Conference on Automated Reasoning.Heidelberg:Springer-Overflag,2002.
[6]李跃新,胡婕.知识工程基础与应用案例[M].北京:科学出版社,2006.
[7]Gruber T R.Toward Principles for the Design of Semantic network Used for Knowledge Sharing[C]//Revision:August 23,2005.
[8]李曼,王琰,赵益宇,等.基于关系数据库的大规模本体的存储模式研究[J].华中科技大学学报,2005(12):217-220.LI Man,WANG Yan,ZHAO Yi-yu.Research of large-scale storage model ontology based on relational database[J].Journal of Huazhong University of Science and Technology,2005(12):217-220.