浅析语义Web在信息检索中的研究与实现

2010-09-05 00:53许红梅
湖北工业职业技术学院学报 2010年2期
关键词:布什信息检索应用程序

许红梅

(武汉职业技术学院电信学院,湖北武汉430074)

浅析语义Web在信息检索中的研究与实现

许红梅

(武汉职业技术学院电信学院,湖北武汉430074)

语义Web是未来web的发展方向,是信息可以被机器理解和使用的新的信息环境,语义Web的出现彻底改变了web上信息的组织方式,对于各种网络信息应用都将产生巨大影响。本文首先对Semantic Web的概况进行了简要介绍,然后详细分析了语义Web体系的主要支持技术(XML RDF),最后探讨了语义Web技术对网络信息检索的影响。

语义Web;网络信息检索XML;RDF

1 语义Web及语义Web技术体系

语义Web(Semantic Web)是信息可以被机器理解和使用的新的信息环境。它最大的特点在于将语义嵌入到了web资源中,使得web上的一切资源都可以被应用程序识别和利用,从而促进全球知识的共享。

从技术角度看,Semantic Web是一个分层次结构,从下至上包含了Unicodev、URI、XML、RDF、Ontology、Logic、Proof、Trust等重要的技术,图1是该层次结构的具体图示[1]。

图1 Semantic Web的分层结构示意图

在整个层次结构最底层的是Unicode和URI:它们完成的功能是对整个WWW上的资源统一编码,并用统一的标准给每个资源以唯一的标识。Unicode是一种新的编码标准,支持世界上绝大多数语言。Unicode层将上层的数据转换成与平台无关的标准Unicode码流。URI是统一资源标识符,作为互联网上信息资源的识别标准。依据它我们可以为互联网上所有存在的资源指定一个唯一的标识符,从而能够从任何地方访问它。

XML即可扩展标记语言(eXtensible Markup Language),它使用了一种简单而灵活的语法,为web的应用提供了一个描述数据和交换数据的有效手段,弥补了HTML的不足。XML最具魅力的地方是它的可扩展性,XML允许使用者根据内容需要,创建自己的标记语言和自定义的标签,以准确地对信息进行描述。同时XML还实现了数据内容和显示格式分离,XML单单描述内容,将数据显示的任务交给XSL和CSS来完成,内容和显示的分离使得应用程序可以更加专注的进行数据处理工作。XML示例:

NS即名字空间(NameSpace)用来区分不同XML文档中具有相同名称的元素和属性。NS以URI为基础,由于URI在互联网上具有唯一性,通过在每个元素和属性前添加名字空间前缀,可以使得不同XML中的元素和属性都具有唯一性,从而区别不同XML文档的元素和属性。

尽管XML的出现大大地推动了互联网上的数据互操作,但是对于达到语义Web要求的语义级互操作,XML的能力还是不够。一方面,XML允许用户自定义标签来描述数据,这就可能造成对于同一概念,不同用户使用不同标签来描述。另外, XML虽有严格的语法规则,但没有对于语义描述的约束,所以对同样的数据,从不同的语义理解可以表示为不同的XML描述形式,比如上面的示例也可以写成:

Web服务正在呈现为用于各种各样分布式系统的一个有前途的计算平台。Web服务中的3个核心标准是用于服务描述的WSDL、用于报文交换SOAP和用于服务注册和发现的UDDI。Web服务的特征是它们对服务合成的支持。对Web服务来说,我们期望在合成的过程中自动得到另一个服务,这要求Web服务用语义来丰富。

Web语义服务基础结构的一个突出特征是它的语义支持的缺乏。它专门地依赖XML的互操作性,但是仅保证语义互操作。用XML表述报文内容,使Web服务解析其他的每个报文,但是这不便于报文内容的理解。此外,在服务的注册和发现中, UDDI自身不提供对Web服务的语义描述的任何支持。Web服务应当有语义的含义,这样服务可根据语义匹配而不是句法匹配。

RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。下面我们来看一个简单的RDF的例子:

(指明被描述资源的URI)

(被描述资源有一个叫Author的属性其值是Paul)

穿刺及手术切除标本10%中性甲醛固定,HE染色后在镜下观察。HEHE病理诊断标准:HE染色切片显示以纤维硬化区为中心,周边富于细胞,肿瘤细胞呈上皮样分化,腔内含有红细胞,免疫组织化学染色中Ⅷ因子相关抗原、CD31和CD34中的1项呈阳性。

htm>(被描述资源有一个叫 HomePage的属性其值指向另一资源)

[3]

RDF和XML是互为补充的。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。RDF希望以一种标准化,互操作的方式来规范XML语义。XML文档可以通过简单的方式实现对RDF的引用,两者的合作使用如下所示:

在RDF技术的基础上W3C又制定了RDFS规范,即资源描述框架定义集(Resource Description Framework Schema)。RDFS是RDF的词汇描述语言(Vocabulary Description Language),RDF是为网上资源语义互连而制定的一个技术规范,而RDFS是为扩充RDF数据而制定的一个规范,它制定了一系列标准的类和属性,定义怎样用RDF来描述词汇集,可以在不同词汇集间通过指定元数据关系来实现含义理解层次上的数据交换。

Ontology是关于领域内共享概念的形式化的规范说明,独立于具体的符号层表述方式,因而是具有不同知识表示的web应用系统之间进行数据或知识交换共享的基础结构。一般web上的Ontology包括分类和一套推理规则,分类定义对象的类别及其之间的关系[4]。

基于语义的web应用应该可以根据特定的规则从RDF/RDFS和ontology描述的知识中进行推理,逻辑层的目标就是提供一种方法来描述规则。针对语义网上各种不同类型的应用,逻辑层可能会采用多种逻辑语言的实现形式,这一点就和互联网中的TCP/IP协议模型中的每一层都会针对不同的硬件和软件系统采用不同的实现类似。

2 语义Web对网络信息检索的影响

语义Web的出现将彻底改善web上信息的组织方式,对于各种网络应用都将是巨大的促进。对于网络信息检索而言,其影响主要体现在以下几个方面。

现在的关键字搜索引擎通常只能搜索与所输入关键字精确匹配的网页,而不能根据所输入关键字的意思进行扩展,搜索同义的和相关的网页。

在未来的语义Web环境下,由于使用了ontology,概念被更加行式化的规范说明,应用程序可以利用ontology提供的概念关系网扩展用户输入的关键词进行检索,也能够利用ontology和logic等技术推理理解网页里包含的各个概念及其关系,从而更加全面地返回用户想要的结果。

2.2 查准率的提高

传统网页由于缺乏对网页内容的语义描述,所以应用程序很难准确理解发布者要表达的意思,只能通过字面猜测。所以就算某些网页里明显出现了“本文提到的布什不是美国总统布什”这样的话,用户在输入“美国总统布什”进行搜索时搜索引擎还是会将这些页面作为正确结果返回给用户。但是在语义Web环境下,网页的作者为了表示“本文提到的布什不是美国总统布什”,就会给”布什“加上语义标记,如“布什”,并且在网页其他地方注明,这样应用程序就可以根据http://www.bush.com/information的信息知道这里所提到的布什并非美国总统。

2.3 搜索深度更深

传统网页标记语言由于只控制了网页内容的显示形式,没有提供基于语义的对内容的区分标记,所以对于搜索引擎而言,很难将一个网页按内容拆分为更小的语义单元,只能将整个网页作为最小的检索对象,不能像数据库检索一样深入到表格的字段,直接得到想要的数据。

显然,这样的检索方式非常的不方便而且效果也不令人满意。在未来的语义Web环境里,由于网页的制作者对于网页内每一项有意义的内容都会进行基于语义的标记。所以,搜索引擎可以直接深入网页文档内部,将每一项标记的内容作为检索对象,从而直接返回用户想要的东西。

例如,对于刚才的情况通常语义Web会这样描述网页:

于是我们就可以通过SQL构造查询式 select文章的作者 where文章的标题=Semantic Web roadmap进行检索然后搜索引擎就会直接返回Tim Berners-Lee。

2.4 多媒体搜索更有效

当今的自动搜索引擎虽然也有某些能对图片、音频、视频等多媒体文件进行搜索,但主要依据的都是文件名、周围的文字信息以及文件本身的属性特征。这几种搜索依据都有很大的缺点。文件名虽然常常描述了文件的内容,但是网上的大多数多媒体文件都不是按照这种方式命名的,而是用数字加字母命名,文件名并没有任何实际含义[5]。因此,现在网上的各种多媒体搜索引擎的效果非常不理想也是可以理解的。

不过在未来的语义Web环境下,多媒体的检索将会变得简单而准确。语义Web具有的强大的对资源语义进行描述的功能,并且这些描述都可以被其他应用程序所理解和使用。另外,语义Web的资源间语义关系的描述能力,更使得多媒体资源与文字描述能很好的融合为一体。

2.5 实现系统性检索

Web是一个由众多单个网页相互链接形成的统一空间。HTML语言及其链接技术实现的网页间的连接,仅使得我们可以从一个网页到达另一个网页而已,相互链接的两个网页之间的关系并没有给出描述。比如,我们想查询《Semantic Web roadmap》的作者的出生日期,在现在的web条件下,因为这些信息通常不会出现在同一个网页上,所以我们不得不先查出《Semantic Web roadmap》的作者是谁,然后再查询他的出生日期。但是在语义Web条件下,利用RDF等技术所描述的语义关系,应用程序可以将各个有关联的网页联系起来,利用ontology logic等技术推理返回用户想要的结果。

3 总结语

语义Web的出现适应了网络知识化、智能化的要求,对于网络资源的组织架构和应用都将产生深刻的影响。从上面的分析我们可以清楚地看到,语义Web的各种技术通过给网上资源赋予语义,使计算机能理解网上信息,从而使精准、便捷、智能化的网络信息搜索变得可能,为智能信息检索的实现创造了条件。然而,要实现真正智能的信息检索,我们还要解决人机交互过程中的理解和沟通问题。只有当机器与资源,人与机器这两方面都实现了完美的沟通,真正智能化的搜索服务才能实现。

[1]潘小进,林子禹,张月强,贺春辉.语义Web的标记语言和体系结构[J].计算机工程,2003(4):79.

[2]李卫华.语义 Web及层次结构[J].计算机系统应用, 2002(7):46.

[3]瞿裕忠,张剑锋,陈峥王,丛 刚.xml语言及相关技术综述[J].计算机工程,2006(12):106.

[4]卢巧云.XML:数字图书馆信息组织的基础技术[J].情报科学,2003(9):33.

[5]罗 威.RDF(资源描述框架)Web数据集成的元数据解决方案[J].情报学报,2003(2):48.

Analysis of Semantic Web Application in Information Retrieval Research and Implementation

XIU Hong-mei
(Telecommunications Dept.of Wuhan Technical Institute,Wuhan 430074,China)

Semantic Web is the future of today’s web,which is a new space where the information inside can be understood and used by machines.Semantic Web will change the way of organizing information on web and make a significant influence on lots of web information applications.This paper,firstly,presents a brief introduction to Semantic Web,and then analyzes in detail the main technologies supporting Semantic Web such as XML and RDF.Finally,the influence of Semantic Web on web information retrieval is discussed.

semantic web;web information retrieval;XML;RDF

book=107,ebook=47

TP391

A

1008-4738(2010)02-0107-03

2010-02-20

许红梅(1968-),女,武汉职业技术学院电信学院副教授,研究方向:计算机网络及多媒体应用。

猜你喜欢
布什信息检索应用程序
删除Win10中自带的应用程序
引领美国结束冷战的前总统H.W.布什去世,享年94岁
谷歌禁止加密货币应用程序
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
三星电子将开设应用程序下载商店
微软软件商店开始接受应用程序
布什召开任内最后记者会