空间数据库反向最近邻数据模型查询优化研究

2014-04-17 08:14尚晓丽宋广军包向辉
佳木斯职业学院学报 2014年3期
关键词:数据检索齐齐哈尔结构化

尚晓丽宋广军包向辉

(1.绥化学院 黑龙江绥化 152061;2.齐齐哈尔大学 黑龙江齐齐哈尔 161006)

空间数据库反向最近邻数据模型查询优化研究

尚晓丽1,2宋广军2包向辉1

(1.绥化学院 黑龙江绥化 152061;2.齐齐哈尔大学 黑龙江齐齐哈尔 161006)

反向最近邻数据查询优化简言之就是从特定文本中取出所需的事实反向最近邻数据。它的具体应用可表现多个方面。比如从新闻里查询优化报道、从公司网站查询优化产品情况、从漫画网站里查询优化漫画图片等。通过反向最近邻数据信息优化,提高数据信息提取与查询能力。

空间数据库;反向最近邻;数据模型

一、前言

当我们享受空间数据库带来的方便、快捷、高效、丰富的反向最近邻数据同时,一个问题也不容我们忽视。那就是随着人们的需求量的上升,空间数据库上的反向最近邻数据也成指数级增长,以至于浩如烟海的反向最近邻数据与个人需求之间矛盾也随之诞生。为了获得自己需要的反向最近邻数据,有时候用户不得不花费大量的时间甚至以天计算来上网浏览各种网页。虽然搜索引擎随着空间数据库的飞速发展也迅速发展起来,但是你通过搜索获得的反向最近邻数据仍然是个庞大的结果集。这个结果集给我们的反向最近邻数据只是一个相关的大致概要。有时候甚至于用户需要的反向最近邻数据相差甚远,为了获得需要的反向最近邻数据,用户仍需查找相关的页面。这个过程难免浪费大量的人力和物力,即使获得自己需要的反向最近邻数据,如何有效的保存也是一个不容忽视的问题。

上述问题的关键在于空间数据库反向最近邻数据的发布和浏览都是基于html或者xml语法的页面来实现的。而大家都知道,html或者xml都是非结构化、半结构化的语言,计算机所识别的只是二进制码,因此它们像传统数据库那样,提供高效、结构化、强大的查询语句也变得不太可能。我们所要解决的问题正是如何从计算机中获取所需的反向最近邻数据,这也是反向最近邻数据查询优化的任务所在。

二、反向最近邻数据查询优化的基本模式设计

反向最近邻数据查询优化是反向最近邻数据检索的一种,它的目标是把非结构化、半结构化的机器可读文本抽取出来并转化成结构化的存储格式。在大部分情况下,处理人类语言文本的形式跟自然语言处理过程相似。近年来像自动标注和通过处理查询优化出图像、音频、视频的多媒体文档,也被看作是反向最近邻数据查询优化的一种方式。反向最近邻数据查询优化的一种形式化描述如下:假定某一组web页固定(用符号s表示),然后我们再定义一个映射(用符号w表示),w将s映射到一个结构化的,语义清晰明确的数据结构中(用符号d表示),同时与s结构和语义都相关的web集合(用符号s表示)都可以认为具有相同的功能。反向最近邻数据查询优化的研究历史可以追溯到二十世纪七十年代晚期(也就是自然语言处理的早期)。当时相关查询优化系统的建立最早是在八十年代中期,也就是jasper系统。系统建立的目的是为了提供实时的金融反向最近邻数据给相关客户。开发实用的反向最近邻数据抽取系统这正是反向最近邻数据查询优化的目的,从自由文本中分析需要的反向最近邻数据并将之抽取出来从而得到真正有用反向最近邻数据和用户感兴趣的反向最近邻数据。反向最近邻数据抽取技术在军事、经济、医学、科学研究等领域都有着广泛的应用,它提供了一条从海量的反向最近邻数据堆中抽取出与用户相关的反向最近邻数据的思路。

1.反向最近邻数据查询优化与反向最近邻数据检索

反向最近邻数据查询优化与反向最近邻数据检索关系密切,但也有不同之处。它们的主要不同之处在以下三个方面体现:

(1)目的不同

反向最近邻数据检索的目的虽说是找出用户需要的文档,但带有盲目性;而反向最近邻数据查询优化于基于抽取性质的,它是直接从文本中抽取获得用户感兴趣的反向最近邻数据。

统计词频和匹配关键字符是反向最近邻数据检索经常使用的技术,在检索的过程中,文本是被看成是一个大量词的集合,不需要对文本的深入分析和理解;而反向最近邻数据抽取是建立在自然语言的基础上,是通过对文本进行分析处理后完成的。

(3)适用的范围不同

反向最近邻数据检索往往是跟领域无关的,而反向最近邻数据抽取相关性比较强,只能抽取预先设定好的某些领域的反向最近邻数据。

2.反向最近邻数据查询优化的基本模式

反向最近邻数据查询优化的类型方式多种多样,根据原理的不同可以大致分为以下五类:

(1)基于自然语言的原理处理方式反向最近邻数据的查询优化

这类的反向最近邻数据查询优化主要是针对大量文本的情况,通过对自然语言处理技术的借鉴形成了一系列基于语法和语义的规则。目前papier、srv、whisk采取这种原理。这种方式查询优化来的文本需要大量的文本练习,利用形成的规则来进行处理的。

将君子教育理念渗透到智慧课堂模式是指在师生之间、生生之间的交流互动中注重文明礼仪、弘扬君子德操,行于礼、止于礼、互相尊重,团结协作,共同探究,这可从智慧课堂模式的各个环节中体现。

(2)基于包装器归纳方式的反向最近邻数据查询优化

采用这种方式的反向最近邻数据查询优化是根据事先标注的样本,使用机器学习方式的归纳算法,生成查询优化规则,这种查询优化规则是基于上下文语境的,即根据语义项的左右边界来定位语义项。目前stalke、softmealy和wien采取这种原理。这种包装器归纳方式的反向最近邻数据查询优化的主要特点是定位反向最近邻数据时是以上下文语义为参考标准的,语义约束也没有被使用。

(3)基于ontology方式的反向最近邻数据查询优化

这种方式的反向最近邻数据查询优化主要是依据自己的数据量反向最近邻数据来实现对反向最近邻数据的查询优化,这种方式对网页等外在因素依赖较少。目前BYU、quixote采取这种方式处理。

(4)基于html网页结构的反向最近邻数据查询优化

基于html网页结构的反向最近邻数据查询优化是根据网页的结构来进行反向最近邻数据的锁定,先把相关文档解析成为语法树,之后进行反向最近邻数据的查询优化,随之在自动或半自动化方式的基础上产生相对应的语法规则,从而通过实现对语法树的操作来完成反向最近邻数据查询优化。目前来看lixto、xwrap、roadrunner、w4f采用这种方式实现查询优化。

(5)基于web查询的反向最近邻数据查询优化

基于web查询的反向最近邻数据查询优化的主要特点是将转变web反向最近邻数据查询优化使之成为能使用标准查询语言的查询优化来实现对相关文档的查询。此种类型的查询方式具有通用性。目前web-oql系统和pqagen系统采用这种方式实现查询优化。以上五种反向最近邻数据查询优化方式各有优缺点,对不同的网页有着不同的查询优化效率。因此需要根据实际情况来进行选择。

三、总结

空间数据库设计中断句在文本中出现次数较多,很少有完整的句子出现。基于文档的这两个显著特点,那些采用传统方式的自然语言处理技术已经不适用了。但是,经过分析,网页还是有一定的规律可循的。例如:web页面可分为标题、正文、超文本、网页间的链接四个部分。

1.标题

在网页中〈Title〉〈/Title〉之间的文字部分。值得注意的是,标题中的内容往往是概括性质的内容。

2.正文

很多情况下,我们都用自然语言的方式来书写网站的正文。统计关键词一般也是对其在正文中出现的次数来进行统计分析的。

3.超文本性质标签

在标签中反向最近邻数据的作用主要体现在:在文中同一位置的关键重要性不同,标签表示的性质也不同。当在网页中出现我们所需的重要词时,我们可以利用标签对其出现的次数进行简单加权统计,从而能够有效利用标签里的重要反向最近邻数据。

4.网页之间的链接

是否存在链接,这是网页和普通文档的一个重要区别。在网页中,链接是呈网状结构的,它们之间有相关性。研究人员曾在web文本特征、相关查询优化知识、相关算法等方面做了大量的工作。

[1]覃开贤,胡宝清,谢黎黎,田涛.区域土地利用与优化调控决策支持系统[J].安徽农业科学,2011(29):12-13.

[2]谢黎黎,胡宝清,田毅清.县域РRЕD信息系统数据库设计及实现[J].地理空间信息,2010(04):18-19.

[3]林巧莺.基于GIS的校园房产信息管理系统的构建[J].高师理科学刊,2011(06):21-22.

[4]耿泽飞,胡飞虎,陈慧敏.基于GIS的灾害应急管理系统的数据集成研究[J].计算机应用与软件,2012(01):27-28.

[5]陈慧敏,胡飞虎,耿泽飞,张智.基于GIS的灾害应急管理系统业务数据和空间数据的集成[J].自然灾害学报,2011(01):31-32.

The optimization of spatial database reverse nearest neighbor data model

Shang Xiao-li1,2, Song Guang-jun2, Bao Xiang-hui1

(1.Suihua University, Suihua Heilongjiang, 152061, China; 2.Qiqihar University, Qigihar Heilongjiang, 161006, China)

The reverse nearest neighbor query optimization in a nutshell is required to remove the fact reverse nearest neighbor data from a specific text. Its application can be expressed in many aspects. For example, in the news reports from the company's website query optimization, query optimization product pictures from comic website etc.. The reverse nearest neighbor optimization of data information, improve information extraction and query capabilities.

spatial database; reverse nearest neighbor; data model

G250.74

A

1000-9795(2014)03-0303-02

[责任编辑:刘丽杰]

2014-01-15

尚晓丽(1980-),女,黑龙江齐齐哈尔人,讲师,从事计算机应用技术和特殊教育研究。

宋广军,黑龙江齐齐哈尔人,教授,从事空间数据库方向的研究。

包向辉,黑龙江讷河人,讲师,从事计算机应用技术方向的研究。

猜你喜欢
数据检索齐齐哈尔结构化
齐齐哈尔老年大学校歌
高速公路省级清分结算平台高效数据检索应用探究
齐齐哈尔地区一例鹅圆环病毒的PCR诊断
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
The benefits and drawbacks of AI
A Study of Blended-teaching Model in Medical English
本刊进入的国内外数据检索/文献服务机构
本刊进入的国内外数据检索/文献服务机构