文/曾祥瑞
数图吹响开源集结号(二)
文/曾祥瑞
编者按:华中科技大学数字图书馆体系的门户系统和统一检索平台自刊登以来,受到读者的广泛关注。本栏目推荐其个性化服务系统、搜索引擎、单点登录系统、目录检索平台和文献资源共享平台,以供建设参考。
用户寻求个性化服务
由于数字化信息的庞大和复杂多样,每个用户需求的个性化和多样化,不同用户的学科背景、阅览习惯、性格偏好等方面的差异,导致所需要的资源和信息不同。满足用户个性化的需求,让人们方便快捷地找到自己所需要的内容,这正是个性化服务应用系统模型要实现的目标。它以用户为核心、以个性化选择为界面的新型的图书馆信息资源搜集与表达方式,可根据用户个性特征提供数字化信息服务,对个人信息寻求行为进行分析,推送有用的信息,并据此有效组织资源,还可与用户进行网上实时交流,提供优质服务。
提出MyLibrary系统
个性化服务应用系统是信息门户认证、Web OPAC服务、集成检索和个性化服务的展示平台。我们可以通过称为MyLibrary的系统来实现具体的表现形式。
MyLibrary的提出和建立,是受到类似MyYahoo、MyAmazon等商业网站的个性化服务潮流的影响。MyLibrary建立的目的是想从图书馆的立场寻找一种个性化的视角,以解决信息过量和管理负担过重的问题,并且提供比当前商业站点具有更强的人工参与和指导的深层次服务。作为数字图书馆个性化服务的一个解决方案,最早建立MyLibrary的有美国北卡罗莱纳州立大学、康奈尔大学、犹他大学、纽约大学等。另一个具有代表性的是MyLibrary@Cornell系统,它基于ASP/CGI的Web三层结构设计。
Mylibrary@HUST系统结构
Mylibrary@HUST中的20多个模块,可分多页进行布置,用户可以根据自己的需要和爱好,选择各个风格的布局及颜色。它与以往MyLibrary系统的最大区别在于,各个模块用户不仅可以根据需要进行内容编辑处理,还可根据各自不同的需求选择自己相关的模块,页面上无关的模块可以像电源开关一样自由开关。
系统可以根据用户的需求和特征向他们提供经过图书馆和系统挑选、推荐的上述信息,从而简化用户的信息寻求行为,同时用户可以决定他们自己页面的风格和功能模块,并对一些功能模块中的内容进行加工处理。
系统采用Microsoft .NET技术及架构。选择.NET框架的原因是它展示出了一个标准的.NET企业级应用程序所应该具有的特点。基于此开发的Mylibrary@HUST系统具有技术的前瞻性。
华中科技大学图书馆
通用的搜索引擎虽然功能强大,但对于具有很多子网站的企业门户网站来说,搜索的响应速度慢,索引范围不全。而Lucene是一个强大的全文索引引擎工具包,可以快速地开发一个搜索引擎,且优于通用搜索引擎。
Lucene的出现,极大地推动了全文检索技术在各个行业或领域中的深层次应用。Lucene本身只是一个组件,而非一个完整的应用,所以若想让Lucene运行,还得在Lucene基础上进行必要的二次开发。
特点
Lucene的特点是应用范围广、开放源代码、功能强大、有多种语言的版本、结构很清晰,其7个程序“各司其职”:Search负责检索,Index进行索引,Analysis是用来切词的,QueryParser查询分析,Document存储结构中数据的基本描述,Store实现底层I/O存储结构,Util建立一些公用的数据结构。Lucene的主要动作都采用了抽象类,扩展起来十分方便。相对于一些商业化全文检索,Lucene的入库速度更快,因为它的存储采取分步合并的方法:先建立小索引,待时机成熟才把小索引合并到大索引树上。因此,在操作应用数据时可以同步进行全文检索库的操作而不会(或许很少)影响系统的效能。
数字图书馆中的海量信息,使人们在检索信息时遇到很多问题,而专业搜索引擎并不能有效地揭示专业网站内部信息;有的无域名专业网站或有限制的网站,也使专业搜索引擎无法收录到信息,因而也就无法检索。随着各类图书馆门户网站的推出,专业搜索引擎的受限制也更多,也就更加不能有效揭示图书馆专业网站内容。
Lucene性能稳定,使用简单,而且开源免费,有Apache基金做支撑,资金和技术力量雄厚,这两年一直稳步更新。
在数字图书馆门户系统的建设中,由于整合的资源来源广,分属于许多不同的认证系统中,统一认证就显得很重要。当前最重要的Web2.0应用支持工具就是身份识别管理系统,从微软的Passport到Liberty,再到 Shibboleth。
对于统一认证,人们常用的方法是:IP限制、用户名与密码、匿名访问、PKI/CA数字证书认证、时间段认证、访问次数认证。这些方法都是把用户的认证模块放在资源提供方,这会加大资源提供方的负载。而Shibboleth是将论证模块放在访问者端,资源提供方只需从ORIGIN端获取用户的身份信息即可。
优势
Shibboleth能减少管理可访问受保护资源的时间,共享机构之间的数据,管理大量账户;增加安全,基于SAML协议以相似标准解决方案间的互操作。
Shibboleth 被设计并部署到一个以浏览器为中心的世界中。Shibboleth 属性服务可以用于更多的 Web 服务和面向应用的部署。客户机不仅仅是浏览器;它们包括 Web 服务客户机,可以与跨管理域的应用服务进行交互,这些应用服务再回调客户机的Shibboleth 服务,从而获取可用于访问控制授权需求的属性。它会充分利用 Shibboleth已经开展的工作,并将它们呈现在一个基于 Web 服务的社区中。
Shibboleth认证系统允许用户安全地从一个网站跳到另一个网站,而只需登录一次就可以了。这样的系统可以保护用户的隐私、网上交易以及提供网上服务的其他机构。它是大学与研究机构使用的一种开放标准的用户身份联合认证系统,是下一代互联网计划的一部分。
应用
现在全世界有500多家网站都在使用Shibboleth系统,其中包括美国、澳大利亚、比利时、英国、芬兰、丹麦、德国、瑞士、荷兰以及中国的教育系统。
在具体应用中,Shibboleth可用于大型门户系统和联盟系统。从国内外SSO建设的现状以及开发认证系统的实践来看,Shibboleth正成为研究应用的重点,它为用户共享网上信息资源服务提供了技术支撑,使项目的建设更趋完善。采用Shibboleth进行统一身份认证,成为数字图书馆SSO的技术方案的主要选择。
Z39.50协议是一个基于C/S结构的网络应用层协议,它通过对编码方式和内容语义的标准化来实现不同系统间的互操作。Z39.50协议数据单元通过ASN.1进行定义,并以基本编码方式(BER)对ASN.1序列化,它屏蔽了数据库间的异构性,与软硬件平台、数据库接口及查询语言无关。Z39.50是一个信息界广泛接受的标准协议。
但Z39.50是一个庞大复杂的标准,实现起来比较困难;而且Z39.50要求各数据库在字段级别实现统一,灵活性差。Z39.550是基于TCP/IP的底层协议,传输层协议基于TCP/UDP的编程,不提供HTTP的支持,不能在WWW 上实现。
ZING(Z39.50 International Next Generation)是Z39.50的改进版,提供了互操作基于HTTP实现的Web支持。
基于API的网络服务(Web Servicesbased APIs)的xISBN、thingISBN、Open Library API、DLF ILS DI Technical Recommendation、SRU和OpenSearch、OAIPMH和OAI-ORE、RSS和Atom等都可以被称为Web Services应用编程接口(API)。API是计算机与计算机之间交互应用,能够明确地共享数据,图书馆界发明的Z39.50是一种典型示范。
特点
利用 Z39.50 API(YAZ Z39.50 toolkit工具包)开发Z39.50客户端系统,能够实现Z39.50客户端所要达到的一般功能,它简单易用、灵活方便、快捷高效、无需非常专业的Z39.50协议知识,这些都降低了开发的难度,缩减了开发时间,增大了开发的可行性。此外,这种基于YAZ工具包开发实现Z39.50系统的技术,实现了与应用系统的无缝集成,将极大地推动Z39.50协议在其他更广泛领域的应用。
我们构造了能利用国内外开放Z39.50接口的图书馆图书目录综合搜索,已经可以检索的对象图书馆达到了上百家。
内涵
域内资源整合系统(Domain Resource Integration System,简称DRIS)是一种分层的分布式互联网信息检索系统,提供了从底层到应用层的一整套互联网信息资源整合利用方案。
我们在组织级别上建立了一种可以整合各个单位内部各类文献资源的异构资源统一检索平台,在此基础上,“域内资源整合系统”也提供了一套完整的单位组织间的信息资源协调管理和共享方案,然后将其进一步扩展成对整个互联网信息管理系统基础结构的研究,为实现数字图书馆的基本定义“下一代互联网的信息管理模式”进行积极探索。
结构
DRIS采用和DNS系统类似的基本体系结构,是一个分层的信息资源管理系统。DRIS能够将互联网分为独立的模块“域(Domain)”,每个域内建立一个信息中心节点,将本域内的所有信息资源进行索引。
以CERNET为例,具体如下所述:
1. 第三层:校内资源整合。DRIS的第三层即三级域一般对应于某个组织,而在我们的试验系统内(CERNET)则对应于不同的大学。此层的DRIS服务器将建立可以整合一个校园网内所有资源的检索平台。
2. 第二层:校际资源整合。DRIS的第二层一般对应于各个主干网,这里讨论包括国内所有大学的CERNET。目前各个高校之间的信息资源共享整合一直没有一个很好的解决方案,而此层的DRIS服务器则恰恰可以解决此问题。
3. 第一层:国内Internet资源整合。DRIS作为文献资源共享整合平台的应用方法,被应用于湖北省科技文献共享平台的建设中,整合了湖北省内8所重点大学的教育资源,取得了很好的效果。
利用开源软件来架构数字图书馆的体系结构,有其简单通用、容易推广的一面,但是要真正推广开源软件的应用还是受到一些因素的制约:1.信息的共享方面,人们受到观念、体制的限制;2.在信息的利用上,图书馆内部人员受技术水平和机制的制约;3.信息的传播方面,又有知识产权等困扰;4.相关厂商并没有积极的意愿,一方面是开源软件的利用还只是有益于建设方,而对他们的利益造成了冲击,另一方面,图书馆的独立性增强,对数字图书馆的开发商来说,失去了一些技术优势。因此,图书馆必须充实信息技术人员,并让其牢固掌握业务知识,这样才能使有用的开源软件得到更好的利用。
(作者单位为华中科技大学图书馆)
曙光龙芯刀片服务器赠玉树
本刊讯 4月23日,曙光推出了具有完全自主化的服务器产品——龙芯刀片服务器及云计算产品。
龙芯刀片服务器产品不仅具有安全、绿色、高效节能等特性,而且具有通用性的CPU和OS,可以无缝平滑地运行X86 CPU和LinuxOS上的应用程序。其中,曙光龙芯刀片服务器的主板由曙光公司设计,CPU则采用中国独立自主研制的LoongSon3ACPU,BIOS采用曙光基于PMON的二次独立开发的曙光龙芯BIOS,操作系统采用红旗公司的Red Flag Linux。总而言之,它是一款包括基础架构、通用处理器和操作系统软件都具有完全自主知识产权的服务器产品。
在发布会上,曙光总裁历军宣布,将首次实现全线自主化目标的曙光龙芯刀片服务器作为赈灾物资捐献给玉树灾区。他说:“曙光成立15年来,一直坚持自主创新与民族责任感的融合。作为有民族责任感的高科技企业,我们愿意用实际行动支持玉树灾区群众抗震救灾。今天曙光向玉树地震灾区捐赠龙芯刀片服务器,就是希望灾区的信息化平台能够尽快恢复,为灾后重建贡献一个民族企业应尽的社会责任。”