特色知识库构建及其实现技术

2009-09-02 06:43肖瑞兰
河南图书馆学刊 2009年3期
关键词:资源开发网络

肖瑞兰

关键词:资源开发;实现技术;网络

摘 要:信息资源建设就是运用最新的科学技术对我国资源的一次数字勘探。资源数字化过程的背后,不仅可能发生“产权转移”,而且可能发生“基因变异”,是一次知识的创新。将改变“中国是一个资源贫乏国家”的传统观念,有资格成为世界独一无二的资源大国。

中图分类号:G250文献标识码:A 文章编号:1003-1588(2009)03-0002-04

Characteristic Resources Bank Construction Implementation Technology

XIAO Rui-lan

(Henan Provincial Institute of Scientific& Technical Information,Zhengzhou 450003,China)

Key words: developement of resources;implementation technology;network

Abstract: The information resources construction is a digital exploration of the resource of our country, which is by the use of the latest science and technology. Just like the fact that development of modern information technology avails scientists to describe the human biological gene atlas, it also avails modern culture, science and technology and anthropologists to describe the cultural gene atlas of nationality. In the cyberspace, the modern's culture gene is loaded by bit. Behind the process of the resource digitalization, not only the the property rights transfering, but also the genetic mutation will probably take place, which is an innovation of knowledge. The 5000-year-long Chinese history becomes 5000 years' investment and wealth. It will change the traditional concept that China is a poor country of resources. However, China will become a unique great country with plenty of resources.

过去,人们觉得信息匮乏,是因为获取信息的手段有限。今天,人们仍然觉得信息匮乏,是因为信息过于泛滥。从经济的角度思维,垃圾邮件、垃圾信息占用了人们的有效经济运动时间,浪费了大量精力,降低了工作效率。随着技术应用和传播介质的变化,信息资源开发利用已经从过去的传统信息资料检索,跨越到网络环境下的海量信息精确搜索、信息互动,以及围绕信息展开各种业务的变革。由此产生的数字化、信息化生存意识,已成为时代的主旋律。

1 搭建系统平台

在我国,网络信息资源开发滞后于应用,动态数据库存在低层次重复建设问题。交流共享、信息服务、知识战略储备等意识处于较低水平。相关软件产品的规划能力、设计水平不足,存在零散、价值较低的信息孤岛,导致相当部分重要信息流失等现象依然存在。作为知识经济的重要载体,高校数字化资源是基础设施重要组成部分,已成为评价一个学校信息基础水平的重要标志和本世纪我国教育系统文化科技竞争的焦点之一。

1.1 特征内容

资源开发要处理的信息量巨大,基本在TB甚至PB数量级,良莠并存,且更新变化迅速;信息来源不同,格式多样,非结构化的或者半结构化的数据,包括文本数据和多媒体数据,地理位置分布广泛;访问的用户多,信息需求多样化。核心问题是Internet为传播载体的TB甚至PB级超大规模数据为基础和面向需求各异的用户群实现高性能、高准确度的信息服务。

1.1.1 多种语言。作为文化产品的网络已经成为最大的信息资源集合,由220种语言写成、约40多亿公共页面,以及5500多亿深层次网络页面,已经成为读者寻找信息的第一所在。从图书情报部门发展趋势来看,一是数字化。即提供服务的文献载体、手段、方式是数字化、网络化的;二是结点化。以网站、网页及丰富的内容吸引更多用户的注意力和“点击率”;三是特色化。即特色的馆藏、专题数据库、个性化的服务,来满足用户特定的需求。诚然,数字图书馆的出现,并不意味着传统图书馆的消亡。对读者提供信息资源一致性的服务,要求不同文化背景、使用不同语言的读者,都可以在数字图书馆中访问到多种数据库和知识库,取得自己的目标文献资源。

1.1.2 智能检索。简单地使用传统的图书馆中惯用的检索手段如关键词、题名、布尔逻辑等查询方式,远远无法解决浩瀚的信息资源的查准和查全的问题。网络环境下海量多媒体信息需要有智能化的搜索引擎、交互式智能化而又简单易用的多媒体检索工具,让读者从系统的各种数据库和知识库中获取有组织、连续性的、真正所需的信息资源,让使用者不必预先了解或学习检索各种类型数据库的技术和方法,这就意味着必须有异构平台的统一检索界面的功能,并可根据读者的需求提供个性化的主动服务。在检索方法上的要求是以人工智能为基础。读者可以通过自己熟悉的自然语言,不断地与系统进行交互,逐步缩小搜索目标,并将检索结果予以知识化关联,最终获得确切的信息资源。

1.1.3存储媒体多样化。科技的发展,导致了人们对信息的需求与日俱增,反之社会的进步促使信息生产量飞速增长,网络的普及和电子出版物等新型手段使得信息的发布和使用更便利。对图书馆、情报及科研部门来说信息的收集量、处理量和存储量相应地不断增大。存储介质亦由传统的纸质转变为多种媒体,数字信号可以处理多种媒体的信息,如文字、声音、图象、动画、三维体、虚拟空间等。对于这些不同的媒体可以采用不同的文件存储格式和压缩方式。这些媒体信息仅数字化是远远不够的,需专业人员对信息内容再加工,根据各种媒体的特性进行标引、加工、限制、缩放等。使媒体信息间存在相互关连,如内容、事件、形状、次序、色彩、音调等,方便用户快捷查找电子资源。

1.1.4 传播与服务。数字化资源服务平台是一个将收藏、服务和人集成在一起的一个环境,支持数字化数据、信息和知识的整个生命周期的活动,包括生成、发布、传播、利用和保存。它所提供的服务却是主动的,随时发布和广播各种信息资源的消息,并及时提供导航式和个性化服务。服务模式由被动转变为主动式服务,从根本上改变未来教育的模式和方法。

1.2 网络环境

数字信息的存取已突破数字信息存放的地点的限制,一个良好的、高速的网络运行环境以及空间安全,是系统运行的基础。

1.2.1 网络主干。网络主干选择合理与否直接影响数据中心的经济性、可扩充性。主干网设计要考虑诸多因素,如可用性、可靠性、性能价格比以及网络安全性、灵活性、可扩充性。在园区主干网常采用FDDI光纤网,ATM信元交换网,快速以太网和交换式以太网。这四种方案均可实现100Mbps及以上的传输速率。

在管理信息系统网络中,交换机是肩负着所有局域网互连、交换处理的重要设备,资源库系统主干亦选用1000M交换式以太网技术,以第三层交换机为中心,传输介质采用光纤,连接外围子网。网络核心交换机选型应注意:(1)是否支持纯链路交换,具备高速的背板交换总线,巨大的数据包吞吐量和稳定的结构;(2)支持多种标准局域网协议;(3)支持标准的网络管理;(4)是否同时支持直通式和存储转发式两种数据包处理方式;(5)具有较低的帧的丢失率和较小的网络延迟;(6)在桥接表中可维持大量的活动的MAC地址;(7)VLAN具有控制网络上的广播风暴、增加网络的安全性、集中化的管理控制等优势。利用交换机与路由器的结合,可以构成虚拟网络技术。

1.2.2 服务器。选型原则:(1)强大的系统性能。包括整数及浮点运算速度、存储能力等;(2)开放性。采用世界主流操作系统及符合国际标准的网络连接等;(3)延续性。从低端的工作站产品到高端的服务器产品应保持从操作系统到硬件结构的高度一致性及兼容性;(4)选择市场占有率大的产品。获得更多的应用软件和应用技术上的支持;(5)系统的性能/价格比。至于操作系统,依据标准及现有设备情况,兼顾UNIX高可靠性和Windows NT易扩展性和易开发性,可同时采用UNIX和Windows NT,构成混合式的网络操作平台。 1.2.3 相关标准。资源库作为一个数据服务中心,其建设包含局域网、广域网连接及与其它网络的联通,标准化至关重要。相关标准如:(1)标准通用置标语言SGML及其相关标准;(2)扩展的置标语言(XML);(3)资源描述框架(RDF)模型与句法(W3C标准);(4)信息检索:应用服务定义和协议技术规范:ANSI/NISO Z.39.50;(5)RL:统一资源特征;(6)通用多八位编码字符集(UCS):ISO/IEC10646;(7)都柏林核心元素集等。

2 资源库开发实现技术

现代高新技术所支持的资源库系统的多项支撑技术,如数据采集与导入、自动分类、数据管理、全文检索、元数据检索、信息发布、版权保护、信息定制与推送、对象资源调度、网络与系统管理等是一个跨学科的综合研究课题,涉及近30个学科和分支。消除信息孤岛,推进信息资源开发利用,搭建一流的数字化资源服务平台,都需加以重视和逐步解决。

2.1 信息获取技术

指从网络收集数据的过程。分主动获取和被动获取。被动获取通常是将设备接入网络的特定部位进行获取。主动获取是指基于Web的信息采集直接从Web上采集或下载信息。如Google、百度、天网等搜索引擎后台都采用了并行体系结构,来保证采集过程的通畅。基于主题的信息采集,只采集相关的信息,来降低采集的代价。与主题采集不同的个性化信息采集,是针对某个用户,即使对同一主题,个性化的信息采集系统对不同用户也可能返回不同结果。

2.2 内容分析技术

内容主要是指非结构化的或者半结构化的数据,包括文本数据和多媒体数据。获取数据后,对数据进行格式处理、编码处理、意义分析等相关的处理。主要有词法分析、句法分析和语义分析等。

2.2.1 词法分析

词法分析是对自然语言的形态进行分析,判定词的结构、类别和性质的过程,包括形态分析、中文的分词及词性标注。英文形态分析技术采用自动机的方法,技术比较成熟。

中文分词方法有两大类:基于机械匹配的分词方法及基于概率统计的分词方法。前者通过对已有词典的机械匹配来得到分词结果。后者不需要任何词典就可以得到分词结果,或者对粗切分结果进行基于概率统计的处理来得到最终的分词结果。中文分词技术面临的两个最大问题是切分歧义和未定义词问题。前者要解决在上下文环境下不同切分结果的选择;后者要解决词典中未收录词(如人名、地名、机构名等)的识别。目前比较主流的方法是通过对真实文本的概率统计来求解切分歧义和未定义词问题。

词性标注的根本目的是对某个具有多个可能词性的词,在确定的上下文中多里挑一。国外20世纪60年代就开始自动词性标注的研究,经历了从规则方法到统计方法的过程。使用规则方法可达77%的正确率。后来,一些学者采用基于概率统计的方法,将词性自动标注的正确率提高到96%~97%,在性能上也进一步优化,使得自动词性标注达到了实用水平。

2.2.2 句法分析。句法分析是将线性的词序列转变成某种句法结构(常见的是短语结构树)的过程。实现时,句法分析系统通常由短语规则和具体算法组成。短语规则指出了从词到短语、从短语到句子结合的规律。句法分析的主要目标也是多里挑一来消除句法歧义。

2.2.3 语义分析。语义分析的目标有两个:一是确定每个语言单位在文中的某种语义类,即根据上下文从语言单位可能的多个语义中选择最恰当的语义;二是确定这些语言单位之间的语义关系,常被称为语义分析。语义分析需要语义词典的支持,中文语义词典有HowNet、同义词词林等。

2.3 聚分类技术

聚类、分类技术是模式识别的基本技术,是文本处理最常用的两项技术。两者都是将未知文本归入某个类别的过程。包括特征选择、信息表示、相似度计算及分组算法等。不论是聚类还是分类,其结果都能降低大规模文本处理的复杂性。

2.4 字符编码集

每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国扩展的ASCII码、中国的GB2312-80、日本的JIS等,作为该国家(区域)信息处理的基础,有着统一编码的重要作用。由于各本地字符集代码范围重叠,相互间信息交换困难,软件本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,做一致性处理,将特殊的本地化处理内容降低到最少,这就是所谓的国际化。各种语言信息被规范为本地信息,而底层字符集采用包含了所有字符的Unicode。例如,对于不同的数据库如SQL Server,Oracle,Mysql,Sybase等,字符集的选择很重要。如果考虑多语言版本,数据库的字符集就应该统一采用ISO8859-1,需要输出的时候在不同的字符集之间做转换就可以了。国际标准组织Unicode提供有:GB和Unicode转换表;BIG5和Unicode转换表;JIS和Unicode转换表;KSC和Unicode转换表。由于GBK不是国家标准,只是采用Microsoft的CodePage版本。

字符内码是用来代表字符的内码。我们在输入和存储文档时都要使用内码,内码分为单字节内码和双字节内码。单字节内码(SBCS),支持256个字符编码;双字节内码(DBCS),支持65000个字符编码,主要用来对大字符集的东方文字进行编码。

GB2312-80是在国内计算机汉字信息技术发展初始阶段制订的,包含常用的一、二级汉字和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,是最基本的中文字符集。GBK是GB2312-80的扩展,向上兼容,包含20902个汉字,编码范围是0x8140~0xFEFE。GBK2K在GBK的基础上扩展了汉字,增加了藏、蒙等少数民族的文字。GBK2K从根本上解决了字位不够、字形不足导致从数据库读出字段显示中文乱码的问题。Java提供了对GBK字符集的支持。

3 浏览与Web检索技术

管理信息系统的核心是对数据库进行包括添加、修改和查询等操作。由用户界面、网络通讯、资源库、管理和检索系统及咨询系统组成,浏览器/服务器(B/S)模式。微软公司推出新品的ASP语言后,这种模式发展更加迅猛。

3.1 信息过滤技术

对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,并根据用户的操作不断调整过滤策略。如果把信息检索称为一种典型的“拉”的方式(用户主动,系统被动服务)的话,那么信息过滤则可以称为“推”方式(用户被动,系统主动服务)。

信息过滤分两种:①基于内容的信息过滤。通常采用某种方式来表示用户的兴趣模型和信息资源模型。实现时,可以采用各种分类技术。内容过滤的最主要工作之一是对用户兴趣的不断学习和反馈,以保证在任一时刻过滤的文本和当前用户兴趣相吻合;②基于合作的信息过滤。是从用户相似度的角度出发。假设是经常访问相似资源的用户兴趣相似,相似兴趣的用户又会访问相似的资源。因此,通过对相似兴趣用户的判定,来确定某个用户对某一未知资源是否感兴趣。合作过滤常常和内容过滤方法配合使用。

3.2 在线浏览技术

在线浏览系统包括在线浏览器(阅读器)、对象数据装载、元数据导入和应用服务器四个子系统。浏览器实现对文本等格式的浏览和网页浏览;对象数据装载子系统将文件装载到对象服务器;元数据导入是将基本信息、对象数据标识信息、分类信息及目录信息导入到网上数据库,以保证为读者提供最新的数据;应用服务器程序完成接收客户端请求、数据库访问和数据传输等功能。对读者来讲只需要下载一个小的软件就可以通过通用浏览器IE、Netscape Navigator等上网阅读。

3.3 Web检索技术

所谓Web检索是指以检索查询方式从Web中挑选出和用户需求最相关的页面。Web检索的关键是将用户的需求和网页进行匹配。

3.3.1 基于内容的检索。大多情况下,用户习惯通过概念来提交查询。概念查询的一种实现是基于文本式的描述,用关键词、关键词逻辑组合或自然语言来表达查询的概念。基于内容的检索是指根据媒体对象的语义、特征进行检索。如根据页面所提供的内容,可以是标题、正文、锚文本或URL本身。突破了原来文本处理机械匹配的模式,实现了智能化的信息处理,具备对信息进行自动分类和筛选的功能。不但会帮助扫描网络上所有信息,还可以进行信息的分类和筛选,其目的不是为用户抓到1万个信息,而是提供50个有用的信息。包括三种主要模型:布尔模型、向量空间模型及概率模型。最著名的概率检索原型系统是伦敦城市大学的OKAPI。其他的概率检索模型还包括基于神经网络的概率模型、基于语言学模型的检索模型。

3.3.2 基于结构的检索。Web检索的对象是Web,而Web的最大特征是互联。Web中各页面之间的链接关系是一可利用的重要信息。基于这一信息的技术称为链接分析技术。链接分析方法常常和基于内容的检索方法相结合。链接分析方法能够反映Web社会的一些最自然的属性,能够在大规模真实环境下提高检索结果。Google搜索引擎中就成功地应用了PageRank算法。

3.3.3 基于日志的检索。Web日志记录了用户访问Web的历史信息。根据该历史信息可以挖掘出许多对提高检索效果有用的信息,从而可以改进检索的结果。通过分析用户的历史请求,可以获得用户的兴趣爱好,从而提供最符合用户兴趣的结果。通过分析用户浏览结果记录,也可以获得用户的兴趣爱好和行为方式,从而指导检索过程。其他用户的访问和浏览信息(如访问频度、用户查询聚类、用户浏览结果聚类等)同样对提高单个特定用户的检索结果有帮助。利用日志信息提高检索结果是当前商用搜索引擎的一个发展趋势。

信息资源库建设,是对中国传统文化进行一次数字勘探和开发,如同现代信息技术的发展使科学家能够描绘人类的生物基因图谱一样,现代信息技术的发展也使现代文化科技和人类学家能够描绘一个民族的“文化基因图谱”。实际是一次知识的创新,目的就是要使5000年文化由包袱变成财富,改变“中国是一个资源贫乏国家”的传统观念。中国将再一次有资格成为“资源大国”,而且是世界上独一无二的资源大国。

参考文献:

[1] 徐文伯.中国数字图书馆[M].北京:人民出版社,2002.

[2] 张军.网络信息链的动力与动态演化[J].图书馆学研究,2009,(4).

[3] 王斌.内容为王[J].计算机世界,2004,(37).

猜你喜欢
资源开发网络
川北大木偶旅游文化资源开发分析
数字媒体技术介入地方性博物馆资源开发讨论
徐州饮食文化旅游资源开发研究
计算机网络管理技术探析
刍议计算机网络信息化管理
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
新形势下地市报如何运用新媒体走好群众路线
河南新县红色旅游资源开发存在的问题和对策