王颖 李建敏
[摘 要] 本文从非结构化数据库技术出发,分析了网络环境下数据库应用现状,探讨了网络数据库的建设、非结构化数据的分析,并以一个具体应用实例进行了说明。
[关键词] 网络;非结构化数据库;应用
[中图分类号] G434 [文献标识码] A 文章编号:1671-0037(2015)06-68-3
Application Research on Unstructured Database in the Network
Wang Ying1 Li Jianmin2
(1. Management Service Center of Henan Research and Production and Test Base, Zhengzhou 450008; 2. Changyuan Science &Technology and Industrial Informatization Bureau in Henan Province, Changyuan Henan 453400)
Abstract:Based on unstructured database technology, this paper analyzes the current situation of database application in the network environment, discusses the construction of network databases, analysis of unstructured data, and an application example is used for explanation.
Keywords:network;unstructured database;application
1 引言
非结构化数据库和传统的结构化数据库相比,其字段长度可变,字段记录又可以包含重复或不可重复的子字段。非结构化数据库不仅可以处理诸如数字、符号等信息,而且更适合处理全文本、图像、声音、影视、超媒体等信息。它突破了关系数据库结构定义相对固定、字段长度受限等缺陷,具有字段重复、变长字段的特点,对变长数据可以进行有效管理,在处理连续信息和非结构信息中有着传统关系型数据库所无法比拟的优势。
同时,网络技术的快速发展与应用,使得网络环境中的数据量飞速增长,这些数据有两个特点,一是类型复杂多变、除傳统的文本信息外,还包含各种超文本文档以及多媒体信息;二是数据量极大,从存储空间看,已从TB级向PB级发展。对这些信息资源的处理问题,已成为网络环境下数据库技术新的应用点。
2 网络环境数据库应用分析
2.1 结构化数据库的局限性
随着网络的发展,各种新的应用模式,如网络搜索、云服务等不断涌现,对网络数据处理提出了更多的需求,如对海量数据的高效存储与访问、高可用性和高扩展性、非结构化数据以及高并发的数据处理等,基于结构化数据的传统关系,数据库呈现出越来越大的局限性和不足。由于传统结构化数据库结构模型和技术基础等原因,结构化数据库与网络结合的问题一直没有得到有效的解决,多数情况下需要采用在网络与数据库之间加入中间件的解决方案,由此带来的是由于频繁交互,出现在应用服务器端与数据库之间的网络瓶颈,使得系统应用整体上效率降低、应用服务器端产生阻塞、难度加大、成本增加。同时,对于网络环境下的大量非结构化信息和多媒体资源,结构化数据库也无法完成分析和检索需求。虽然随着网络应用需求的快速增长和数据库技术的进步,关系数据库也做出了一些改进,如为了复杂的数据类型,增加对象成分。但是,网络环境下最为重要的检索效率和全文检索问题一直没有得到解决[1-2],非结构化数据库的应用已成为网络数据处理发展的必然。
2.2 非结构化数据库的优势和特点
结构化数据库的建立是基于数据表,要求有固定的表结构,数据库模型相对来说,比较简单,对于复杂的嵌套问题,表达困难。而非结构化数据库的基础是基于数据建立的模型,支持子字段、多值字段,而且字段长度可变,字段格式、类型也可根据需要设置和调整;在底层存储机制上,比起结构化数据库有了根本的变革。
非结构化数据库的索引技术以倒排档技术为基础,因而对于海量文献,可以快速实现全文检索,同时支持多种字段限定检索。对于网络环境下大量的多媒体信息,在存储和管理方面,非结构化数据库系统采用外部文件技术,和结构化数据库二进制字段存储的方式相比,效率提高而且管理方便[3]。
2.2.1 数据结构和数据类型的优化
传统结构化数据库的基础是包含若干字段、固定格式的二维表,这些二维表中的每个字段属性需要事先定义,字段中不支持子字段。表中的每一行对应着一条数据记录,每一记录中的字段名不能重复,数据以一条条记录的方式存储,表和表之间的关系通过关系连接体现。
非结构化数据库也定义了二维表,但非结构化数据库中,表的概念已经不能用关系数据库的范式来描述。其中,表的结构以及每个列的内容是可变的,它支持重复字段,字段内部可以包含下级层次的子字段。这种支持重复字段、子字段的多值和包含子项的特性使得非结构化数据库可以在记录中实现二维嵌套,一个非结构化数据库字段可以包含结构化数据库的一张数据表,从而避免了结构化数据库中由于表之间的关系链接引起的性能下降。
早期的结构化数据库的支持的数据类型是字符型和数值型数据,在数据库中可以对这两类数据直接进行读写和检索。随着数据库技术的发展,结构化数据库开始逐渐支持超长文本、图像、声音等多媒体等数据,但是,不能在数据库中对这些数据直接操作。
非结构化数据库扩充了数据类型,支持网络环境下的各种文件类型,如超长文本、图像、声音等,同时采用外部文件技术,使得可以处理的数据覆盖了多类型文档应用领域内几乎所有的文献数据类型。
2.2.2 强大、高效的检索功能
数据库系统核心的问题之一是数据检索,而检索的基础是建立严密、完备的索引机制,在此基础上,数据库的检索功能才能充分体现。数据库的索引建立机制往往决定着数据库检索的效率、实用性和准确性。各种数据库的检索方式和检索能力的高低是由數据库索引机制决定。对于结构化数据库来说,索引机制只限于单字段和复合索引,检索一般用基于结构化查询语言(SQL)来实现。需要检索数据时,用户在其构造的SQL查询表达式中根据需要,具体设置查询条件,实现检索。由于结构化数据库的索引机制受限,在处理较为复杂的数据类型时,其检索能力和效率比较低。
网络环境下的数据有两个基本特点,一是和传统计算机应用相比,有大量用户群;二是瞬时产生的大量并发数据。这些特点对数据查询和检索效率提出了更高的要求
非结构化数据库由于其数据结构和索引方式的特点,完全可以满足网络环境的检索要求。非结构化数据库除支持结构化数据库字段索引外,还支持子字段索引、全文索引,还可以实现人工标引索引和中、英文混合索引。外部文件支持能力使非结构化数据库对于二次文献,也可实现挂接全文的功能。
非结构化数据库基于倒排档索引技术,使其支持的检索方式大大高于结构化数据库。除字段查询外,还支持子字段、全文任意词的组配检索。由于其内嵌的全文检索技术,非结构化数据库对中文的全文检索效率有了质的飞跃。同时,由于对于基于人工智能的自然语言处理技术的采用,非结构化数据库大大提高了系统的查全率和查准率[4]。
2.2.3 对大数据环境的支持
传统的结构化数据库的检索速度会随着数据量的增加而下降,而非结构化数据库检索速度则不受影响,因此,非常适合网络环境下的海量数据。以某一非结构化数据库为例,数据库支持的记录数在1 000万条以上,记录长度可达32 000个汉字,可包含800个字段。
3 网络数据库建设方案
网络的迅猛发展使数据库应用环境发生了巨大的变化。网络上各类应用一般都以数据库为基础,都需要数据库技术的支持。
网络数据库建设有各种形式,但大多采用三种方案:一是传统的结构化数据库建设方案;二是非结构化网络数据库建设方案;三是二者的结合,即结构化数据库和非结构化网络数据库融合方案。传统的结构化数据库技术成熟,应用经验丰富,在事务处理和数值计算仍有一席之地。但是,其数据结构单一,检索方式简单,网络应用时需要加入中间件,所以结构化数据库方案不适合大型网络应用系统。
非结构化数据库的网络应用是建立在基于因特网的数据库结构模型之上。一般在单一平台上融合数据库服务器和应用服务器,使二者紧密结合。系统架构也在传统的客户机/服务器扩展,结合网络特点,形成浏览器/Web服务器+应用服务器/数据库服务的三层或多层体系架构。这种架构的优势在于数据库系统不是作为独立于网络之外的组件,而是网络应用的组成部分,而且,由于这种架构减少了硬件投入和中间件以及系统集成的支出,大大提高了开发效率,节约了硬件成本和开发成本。在全文检索方面,非结构化数据库方案由于其高效的全文检索技术,也具有结构化数据不可比拟的优势。因此,对于大型网络应用,应把非结构化网络数据库列为建设方案的首选方案。
网络应用千差万别,对于那些以结构化数据为基础,不需要全文检索或仅仅需要部分非结构化数据库功能的网络应用,可以采用二者结合的建设方案,在同一系统中集成结构化数据库和非结构化数据库,充分发挥各自的优势,实现优劣互补。
4 应用实例
以某公司的基于云服务的养老信息管理平台为例,说明非结构化数据库的应用。该项目以方便老龄人群,提高民政管理部门工作效率为出发点,对老人服务申请办理业务进行流程优化,形成省、市老龄办、乡(镇、办事处)、村(居)民委员会各层次的老年人口动态管理数据库,为养老机构的动态管理、各级政府部门养老事务管理与资金管理、老龄人群的养老服务等提供一个云服务平台。
该数据库兼容各种主流结构化数据库的格式,共支持8种索引方式,包括结构化数据库所提供的所有检索方式,以及非结构化数据库独具的检索方式。该数据库不仅可以处理TXT类型的文本、Office办公软件的字处理DOC文档、电子表格的EXCEL文档、幻灯片PPT文档以及电子阅读PDF文档等类型数据,还可以对各类多媒体资源进行编目和数字化处理。项目开发实践表明,采用非结构化数据库,大大降低了开发成本,高效解决了各类复杂数据的检索问题,完全达到了设计目标。
参考文献:
[1] 吴建新.浅议网络环境下档案信息资源的开发利用[J].科技情报开发与经济,2011(26).
[2] 李晓叶.论网络环境下档案信息资源的开发利用[J].信息系统工程,2011(7).
[3] 李珊珊.档案信息资源价值实现的基本路径[J].黑龙江档案,2011(4).
[4] 杨芳.高校档案信息资源的开发利用[J].河南科技,2011(13).
[5] 孙治国,李令臣.基于XML的非结构化数据管理[J].中小企业管理与科技(下旬刊),2011(9).
[6] 曹金山,张泽滨.非结构化数据的ETL设计[J].现代电子技术,2011(4).
[7] 吕元智.国家档案信息资源“云”共享服务模式研究[J].档案学研究,2011(3).