孙建华, 林德强, 刘元红, 李 媛
(北京联合大学应用文理学院,北京100191)
如何存储、调度、管理海量信息,以及如何从海量信息中查找和提取所需要的信息是迫切需要解决的问题,也是最为棘手的问题。同样,在办公信息化建设日益深入的进程中,国内高校几乎无一例外的从单一的管理系统开始建设,如:教学管理系统,人事管理系统,资产管理系统,科研管理系统,网络学堂,以及专用的教学资源管理和实验教学模拟系统等。各个专业信息系统的建立使得终端用户的使用非常繁琐,即使建设了统一的一次性登录的网络管理平台,但是信息的检索,特别是教学资源的全文检索没有一个方便的访问平台。
实现对业务应用系统,业务网站以及办公系统进行统一全文检索、查询和共享成为网络资源使用者的共同需求。特别是在多校区环境下,实现业务系统,业务网站,OA办公系统中,邮件系统,多媒体等资源统一平台的全文检索、查询、共享和应用的需求尤为迫切。现在也有一些应用云平台的解决方案。云平台的应用对于新系统的建设是个不错的方案,但是对于原系统整合、已有数据的迁移,还存在一些有待解决的问题。
我校设有14个学院,分布在13个校区,校区分布在北京的6个城区,形成了以校本部为中心,集中与分散相结合的办学布局。学校已经建成各种办公业务系统,邮件系统,国家级特色专业建设点、服务外包基地、应用文科综合实验教学示范中心建设单位网站以及教学资源系统等。作为国家级示范实验中心建设单位,应用文科综合实验教学中心面向北京联合大学分布在13个校区的14个学院的全体师生提供服务。因此,实现统一的资源检索、共享和管理平台势在必行。
除了上述教学、科研系统的各类信息的全文检索外,还有大量的办公多媒体信息的管理。目前,国家正在大力推进办公信息化和电子政务,政府机关和企事业单位越来越多地利用和依赖互联网与计算机,绝大多数纸质公文和文件都来自于电子文件,许多文件则直接采用电子文件形式。任何一个机构的各种办公业务、邮件,网站以及教学资源系统等资源大致分为几类:各种多媒体信息,如:doc、docx、jpg、pdf、xls,xlsx等;网页;邮件,如:outlook,foxmail等。
大量的电子文件存储在各个部门相关工作人员所使用的电脑中。有些电子文件包括重要数据信息,其中既有可公开使用公用的信息,也有需要严格或局部保密的非公开信息。现阶段对于办公、工程建设、教学相关的纸质文件都是每年整理存放于学校档案室,这类文件的检索非常麻烦,检索效率低。对现有电子资源的整合优化是非常必要,也是今后发展趋势。
通常,当领导需要查找具体信息和数据时,一般的做法是:领导→主管部门→办事人员→在电脑中查找或翻阅档案→找出相关的多个文件→逐个文件阅读→可能查到,也可能查不到→找到后,上报给领导→领导拿到相关文件后,可能是需要的,也可能是不需要的→如果是需要的,当感觉内容不符合需求时,还需要再查找→新的循环开始。
然而,对于校区多、办学分散的环境,上述问题就更加突出。现已广泛使用的关系数据库难以实现海量信息的高速全文检索。
目前在全球广泛使用的非结构化数据库有很多,目前欧美在新闻出版行业和情报研究机构广泛使用,具备高效检索效果的TRIP数据库具有很好的应用前景[1]。TRIP是最早最成熟的全文检索系统之一。TRIP最初是瑞典Paralog AB的产品,它源于瑞典皇家工学院图书馆1972年开发的、面向非结构化数据处理的图书情报检索专用软件3RIP,这可谓是世界上最早、最成熟的全文检索系统。自1985年在3RIP的基础上开发成为TRIP后,已在图书情报界外,尤其是在企业、公共机关中找到了更多的用户。应用最多的领域是化学、化工公司、医药公司、政法部门、议会、海关、警厅、报业、交通、电信、广播、保险等[2-3]。系统需求的应用模型见图1所示。
图1 资源共享系统的应用模型
TRIP是一种面向对象的全文数据库系统,更准确地说,TRIP是一种具有非常快速查找功能的信息档案管理系统,最适用于在公网Internet上或局网Intranet上管理、检索、出版像法律法规、合同文本、技术文件、来往书信、报刊杂志、备忘录、报告、图书馆系统等任意规格的文本数据,以及照片、图像、图表等二进制数据。TRIP系统也同样擅长处理像日期、时间、数值(实数、虚数)、人名、地名等一般关系型数据库所擅长处理的规格化数据[4-5]。
本系统通过对现有电子资源进行分类、整合,采用TRIP全文数据库技术,存储文本、OFFICE文档、工程制图文件及各种多媒体文件,提供对各类资源的多样化全文检索;为用户备份、共享、管理各类资源提供支持。通过摘要算法对资源的存储和检索进行优化,不存在随着数据记录的增大而降低检索效率的问题。从而改变了传统信息的查找方法。
系统实现了关系数据库不易实现的数据库和系统程序的分离,可以对建立的Trip数据库进行拆分、合并和移动。Trip数据库的跨平台数据存储机制,可以实现在各种系统平台下建立的数据库,如:Windows、Linux、Unix等,可以按需拆分,合并,迁移和复原。
系统的最大特点:跨平台的数据库任意拆分组合;对各类文档全文检索,又能够实现文档备份与管理,有利于对于历史文件的查询;高效全文检索;各种媒体资源统一检索平台,如:在图2中所示的各种文件,包括图片,邮件和网页等;分布式的资源访问策略。
针对学校校区的特点,系统采用集中控制,分层分布式应用管理的模式。中心控制部分采用双机热备以保障系统提供不间断服务,分层分布式是指在各个校区设二级管理功能对分布在各个校区的分服务器进行本校区的资源管理和总校区资源共享的授权。
图2 系统总体架构
整个系统由多媒体资源管理、网站信息资源管理、电子邮件资源管理和身份管理4个模块构成。
(1)多媒体资源管理。针对200多种电子文档进行管理。用户通过B/S或C/S模式访问服务器。包括数据库管理、权限或属性管理、资源全文检索和日志管理。资源进入数据库有两种方式:①批量入库,只需设定文件夹或盘符即可将路境内的所有资源批量入库。②逐一入库,通过浏览器页面逐条编辑入库[6-8]。属性管理:所有资源都有自身的属性,属性类别包括:公共、私有和群组。任何人不得越权查看没有权限查看的资源。资源全文检索:所有多媒体资源的检索结果均可在浏览器中播放显示[9]。
(2)网站资源管理(WPMS)。模块提供Web资源检索,包括:读取网站对象信息,抓取进程管理,抓取网页信息,解析网站内容,日志文件信息记录,信息入库等模块。还提供自定义数据库结构的功能,包括定义数据库模板和创建数据库。用户在创建数据库之前都需要对数据库的字段类型、名称和备注等信息进行设计[10]。最终数据库会根据用户所设计的数据库结构进行创建。为减少应用的复杂性,引入数据库模板。
(3)电子邮件资源检索。实现动态读取用户邮箱,并进行资源的抓取。从而实现对邮件的本地备份和对邮件内容全文检索功能。电子邮箱资源检索的全文检索与网站资源检索类似。模块启用之前首先要设定邮箱,理论上可以设定任意多个邮箱,系统定时在邮件服务器抓取信件内容以备检索之用。邮箱的安全也是系统安全的重要内容之一,使用者只能依据权限访问相关内容,否则不能查看任何内容。
(4)一体化的检索平台。系统不仅提供了上述三个模块的检索功能,还可在授权的前提下在上述三个资源数据库中进行一次性一体化检索。方便使用。用户权限的核心功能分为两个方面:用户管理和权限管理。用户管理可以通过添加、删除、修改和查询实现;权限管理从两个方面进行控制:功能模块的使用和资源的访问。优先级为功能模块、资源。权限类别有公共、群组和私有[11-13]。
系统考虑到多校区,分布式校园网络的拓扑结构和应用需求,设计实现资源的分布式访问和控制策略。通常的分布式策略:划分式(partitioned),全重复方式(fully replicated)和部分重复方式 (partially replicated)。划分式,数据来源及用途,将数据分布于不同结点,彼此间没有任何重复。划分式在共享部分较多时,事务的分布式执行也就越多,会使性能下降。全重复方式,每一个结点拥有全部数据的一个复本。全重复方式对只读事务,可做到完全本地访问,但对更新操作,则需要访问每一个结点。部分重复方式,根据应用的需要,将有些数据只分布在一个结点上,有些数据分布在多个结点上,这种分布方式应用比较广泛。3种分布式策略的复杂性,灵活性和引发问题的比较见表1。本系统采用部分重复式资源分布部署策略。将面向特定校区或面向局部人群的资源置于一个节点,而面向多个校区或共享范围较大的资源置于多个特定节点。
表1 3种分布式策略比较
系统安全性要求是指对整个系统(包括系统硬件、软件、使用、保障及有关人员)和系统全寿命期的各阶段(包括论证、设计、研制、使用、维护及报废)的所有活动,都要贯彻安全方面的需求,逐项、全面地识别系统中存在的危害,采取保证安全的工程和管理措施,达到消除风险或者将风险控制到可以接受的水平,以防止灾难的发生[14]。系统安全主要包括:
(1)物理安全。物理安全主要包括环境安全、设备安全、媒体安全等方面。处理秘密信息的系统中心机房应采用有效的技术防范措施。
(2)运行安全。运行安全主要包括备份与恢复、病毒的检测与消除、电磁兼容等。涉密系统的主要设备、软件、数据、电源等应有备份,并具有在较短时间内恢复系统运行的能力。应采用国家有关主管部门批准的查毒杀毒软件适时查毒杀毒,包括服务器和客户端的查毒杀毒。
(3)信息安全。确保信息的保密性、完整性、可用性和抗抵赖性是信息安全保密的中心任务。对于涉及个人知识产权的资源设置密级,只有得到授权才可以访问。
(4)安全保密管理。涉密计算机信息系统的安全保密管理包括各级管理组织机构、管理制度和管理技术三个方面。要通过组建完整的安全管理组织机构,设置安全保密管理人员,制定严格的安全保密管理制度,利用先进的安全保密管理技术对整个涉密计算机信息系统进行管理。在设计时,要尽最大努力将安全方面的需求与其他方面的需求作整体考虑,从而达到设计上的优化[15]。
总之,由于网络和资源的特殊性质,决定了信息共享和信息安全问题的客观存在。因此,真正解决这一矛盾,仅靠技术手段是不够的。还应从法制上,提高公民的法律意识,从管理上提高管理者的法律意识和执政能力。
[1] 杨小莉.国内常见全文检索系统比较[J].图书与情报,2006(2):94-96.
[2] 徐 飞.基于TRIP数据库的公文电子化管理系统的设计与实现[J].中原工学院学报,2012(5):14-16.
[3] 战小漪.TRIP中英文全文数据库管理系统新华社综合数据库的应用与开发[J].中国新闻科技,1998(5):21-22.
[4] 杨恒宇.基于TRIP的全文检索系统的应用及研究[J].电脑知识与技术,2012(25):25-26.
[5] 程传鹏.基于Trip数据库的档案管理系统的设计与实现[J].中原工学院学报,2012(1):44-45.
[6] 陈金水.非结构化数据存储管理的实用化方法[J].计算机与现代化,2006(8):25-26.
[7] 张德政.非结构化信息管理[J].微计算机信息,2006(9):218-220.
[8] 韦 琳.E-learning非结构化数据管理系统的构建与实现[J].中国科学技术大学学报,2010(6):14-16.
[9] 冯 宇.非结构化数据管理平台研究与建设[J].电力信息化,2012(2):69-71.
[10] 文永革.基于Web的非结构化数据管理方法的研究与实践[J].计算机系统应用,2008(5):101-104.
[11] 张志军.分布式数据库在信息化管理系统中的应用[J].无线互联科技,2012(2):26-28.
[12] 王春晓.分布式数据库数据复制技术的研究[J].中山大学学报,2009(S1):366-368.
[13] 孙碧燕.非结构化档案信息管理对策分析[J].企业研究,2010(6):72-74.
[14] 何淑娟.非结构化数据库及其应用分析[J].信息系统工程,2009(7):49-51.
[15] 吴广印.非结构化网络数据库在图书情报服务中的应用[J].图书情报工作,2000(9):52-56.