刘学平
(潍坊学院,山东 潍坊 261061)
馆藏数字资源聚合理论体系研究探赜
刘学平
(潍坊学院,山东 潍坊 261061)
探赜馆藏数字资源聚合理论的目的在于,使其形成完整的理论体系,为聚合实践提供强有力的指导。在分析馆藏数字资源聚合概念内涵、概念理论分析框架、多学科视角下概念理论的基础上,认为馆藏数字资源聚合要以共享理论、集群理论、共生理论、长尾理论、认知语言学理论、评价学理论为基础引导,以网络分析方法理论、分众分类方法理论、计量学方法理论、本体方法理论、关联数据分析方法理论、共现分析方法理论为理论分析工具,融合关联数据发布理论、语义聚焦爬虫理论、网页抓取理论、索引理论、语义网理论、聚合机制理论的技术理论支撑,实现资源超网络语义模式、资源类型模式、资源作者合作模式、资源元数据互操作模式、资源选题模式等聚合模式理论的实践展现,凸显理论引进与本土化、理论新理念与研究新视觉、理论催生性与相关性发展的理论超越。
馆藏数字资源;聚合理论体系;理论发展超越
数字时代,读者在被馆藏数字资源里的科学实验数据、统计数据、元数据等“大数据”包围的同时,又处在自然信息、社会信息、新生信息、老化信息等信息的“海洋”之中。尽管如此,读者仍苦于难觅想要的资源。尽管检索系统为读者提供了搜寻的手段,互联网为检索提供了更大的平台,数据融合、信息资源整合为检索提供了更多的内容,但读者仍是疲于应对数字资源的快速增长。[1]因而以满足读者对快速增长馆藏数字资源需求而发展起来的资源整合,已从传统的文献层面、记录层面转向更加碎片化的知识间关联聚合的高级层面。实践证明,资源聚合成为数据融合、资源整合等研究的延伸,是未来资源研究的发展方向。学者对此研究与馆藏数字资源聚合的实践探索相比,其理论建构远远落后于人们对实践的热衷。众所周知,馆藏数字资源的聚合,一方面,聚合的实践需要理论指引。没有理论指导的聚合实践,只能是一种低层次的重复劳动,无法实现突破、创新和发展。同时,理论研究滞后于聚合的实践,则会制约聚合实践的发展,因而,聚合要进行突破和创新,就必须用相关的理论作支撑。另一方面,聚合理论的发展需要理论体系。当前,聚合理论研究的分散、不成体系,使聚合实践活动受到了来自各方面的质疑。因而,聚合理论的完善和发展已成为一个不可回避的关键问题,迫切需要从理论提升的高度,对源自各个方面、各种类型和各种层次的聚合理论加以概括、总结、凝练和上升,形成完善的聚合理论体系。[2]至此,从多理论视角探索馆藏数字资源聚合理论,提出其发展的理论体系,用以指导馆藏数字资源聚合的实践,使其产生质的飞跃,显得十分必要和及时。
1.概念内涵。聚合是指两个或多个个体通过某种联系形成聚合体的过程,馆藏数字资源(数据库资源——书目数据库、学术论文数据库、特色数据库、专业数据库图片数据库等;外采资源——CNKI、ACS、IEEE等;流动网络资源——新闻、消息以及定期管理和更新的政务、服务信息等[3]聚合是一种创造性的融合和重组资源的过程,它不同于传统信息组织与物理的资源整合,它有语义关联之意,是在数字资源内部与资源之间建立有针对性的、适宜的语义关联标签,通过此标签的内容反映出特定资源的语义关联特征,实现计算机对特定资源特征的识别与信息内容的理解,并通过本体、关联数据、分众分类法、社会网络分析、计量学等方法和技术,[4]对其从时间上聚合过去、现在及未来,从空间上聚合不同区域和不同专业领域馆藏资源,使分散无序、相对独立的馆藏数字资源重新组织为一个新的有机整体,以满足读者对资源语义关联的需求。它在使资源具备交互性、专业性、层次性、复合性、关联性等特点的同时,凸显资源“归于整,理为序、求其真”的聚合功效。
2.概念理论分析框架。由于馆藏数字资源聚合涵盖数据融合、资源整合集成等内容,因而在理论上存在一个多序列、多层级的概念体系,实践上受到本体性因素和条件性因素的制约,由此建构出包括本体论、领域论、条件论和发展论的理论分析框架为:本体论主要研究馆藏数字资源聚合概念的内涵、起源、性质、特征、作用等;领域论主要探讨馆藏数字资源聚合的种类、范围;条件论主要讨论馆藏数字资源聚合的制约因素;发展论主要研究馆藏数字资源聚合的运行状况、成功经验、存在问题及其规律。把握馆藏数字资源聚合理论分析框架,将为其聚合实践提供理论指导基础。
3.多学科视角下的概念理论。概念内涵决定其理论不能单纯归属某个学科,它以多学科理论的综合体,对其运行的特征、演变规律和聚合模型进行指引,它在契合馆藏数字资源分布式、多元化、智能化发展趋势的同时,对其实用性与前瞻性进行预测和指导。[5]体现为:生态学关注聚合资源的生态环境与生态系统平衡;组织学关注资源与资源之间的关联与组织;方法论关注资源的多样性、完整性和系统性;系统论关注资源的整体与部分、结构与功能之间关系的处理与融合;哲学终极关怀关注能为读者获取数字资源提供多大的空间自由度;伦理学关注资源聚合的版权利益平衡;社会学关注为读者提供普遍服务;经济学关注资源聚合的成本与效益保障;服务学关注读者能否参入到资源聚合过程;法学关注资源聚合法律制度的保障与实现。这为我们从多个侧面认知馆藏数字资源聚合提供了理论来源。
聚合的理论来源和创造性融合与资源重组的聚合过程,决定馆藏数字资源聚合涉及的基础理论是一个综合交叉的理论体系。
1.共享理论。共享理论实质是资源的共建、共知、共享,共建与共知是共享基础,共享又能很好地引导共建,同时共享需要多种形式来实现,聚合便是其中一种。首先,馆藏数字资源聚合是基于资源共享理念形成和发展的。资源共享理念是资源聚合产生的动机。资源共享能使图书馆原来的仓储积累、备用资源的基本结构转变为选择积累、目标资源的提供模式,而在资源聚合框架里这种模式可得以实现。所以说,由资源共享理念推生的资源聚合是对馆藏数字资源建设的最大贡献。其次,馆藏数字资源聚合是实现资源共享的有效组织方式。数字资源的异质异构,形成了资源之间的差异,资源聚合是建立在资源的优化组合与合理配置基础之上的聚合形式,它借助资源优势互补,使得资源获得某种质和量的放大效应,[6]从而形成一种资源扩充效果。
2.集群理论。集群理论是通过互联网和合作协议,把数字资源的机构与组织按照一定模式集中在特定虚拟区域内,对各资源机构中分散独立的数字资源进行统一处理和逻辑聚合,用统一的界面,为用户提供一站式集成服务。而馆藏数字资源聚合是在资源整合的基础上,对资源数据进行深度挖掘,提取出隐藏在资源数据之中的新资源,在聚合中融入知识和智慧,产生知识溢出效应。它谋求资源之间聚合,以弥补资源自身的不足,强调资源高度集中、重视新技术应用、实现资源增值。凸显资源1+1>2的协同效应。[7]它与资源集群理论指导思想正适切。
3.共生理论。共生理论源于生物学,意指“不同种属的生物按某种物质联系共同生活”。它由共生单元、共生模式和共生环境三要素构成,共同进化、共同适应、共同发展是共生的本质。共生的过程是共生单元采取合作性竞争的方式,通过同类资源的共享和异类资源的互补实现共生单元功能的重新分工和定位,最终达到一体化共生的理想模式。[8]而这个模式正好与馆藏数字资源聚合共享的理念相一致。在馆藏数字资源聚合中,如果把层次不同和类型异构馆藏数字资源共享看成一个共生体时,那么,各个资源就成为一个个的共生单元。根据共生理论,一方面,共生单元之间必定存在一个联系的纽带,不同馆藏资源之间的这种联系纽带主要体现在资源之间的隐性关联和互补两个方面。另一方面,共生关系形成过程中,共生伙伴的选择并不是随机的,而是表现出一定的规律性,任何共生单元都会优先选择能力强、匹配性好的共生单元作为共生对象。这一规律为馆藏数字资源聚合的路径提供了依据;共生模式是指共生单元之间相互作用的方式,“一体化共生、多样化组合”是馆藏数字资源聚合共生模式。一体化共生是为实现各资源自身优势,借助共生界面,通过资源之间的隐性联系,对资源采取全方位聚合合,实现资源的自由流动以及信息和品牌共享的基础。多样化组合是指馆藏数字资源尽可能多样化,在差异的资源之间实现资源组合的互补性,增强资源的吸引力。创造整体竞争优势,获得1+1=∞的效果;共生环境是共生单元以外的一切影响因素的总和,是共生关系存在发展的外生条件。馆藏数字资源聚合的共生环境是指为促进数字资源聚合所推出的政策、投入的资金、制定的制度以及建立的机制等。
4.长尾理论。馆藏数字资源的长尾现象表现在10%的资源占全馆90%资源使用率,80%的读者只利用了全馆20%的资源等。资源聚合对长尾现象不能采用传统的“取头截尾”做法,因为处在分布后面的80%的资源以其庞大的总量对总体起着不可低估的作用,完全忽略是不合理的。为了不丢弃“尾部”,长尾理论主张应有尽有,但考虑成本、空间等限制,做到数字资源完全聚合是不可能的。权威数据库收集的资源虽然多,但价格昂贵。既然做不到“全盘照收”,根据长尾理论对尾部信息总量优势的重要性论断,[1]资源聚合要从中提取有用的知识,努力做到信息提炼“简而不漏”,即简化信息但不丢失重要信息。
5.认知语言学理论。认知语言学是一门研究语言的普遍原则和人的认知规律之间关系的语言学流派,主要研究领域包括认知语义学和认知语法。将认知语言学作为馆藏资源聚合语义化理论体系中的一部分,是因为语义化的目标是希望机器能够识别人们说话的深层语义,而不是字义,认知语言学则提供了从字、词开始解剖的语义。它涉及概念结构、语义结构、语义表征、语义构建、体验性、概念化这6个概念,这6个概念完整地体现了馆藏资源聚合语义化的全过程,即构建概念、构建关系、构建概念关系、形式化。[2]也就是说,认知语言学理论为馆藏资源聚合语义化构建过程提供了理论基础。
6.评价学理论。评价学是一门实践科学,其理论体系包括基于学科(针对评价学本身)的理论体系、基于应用(针对评价学的应用领域)的理论体系和基于过程的理论体系。而这三种理论正好贯穿于馆藏数字资源聚合的全过程,因为一次完整的聚合过程至少需要经过资源分类效果是否良好、资源提取效果是否良好、资源关联效果是否良好、聚合形式效果是否良好4次评价过程,每一次评价都需要设计一套评价体系,即为馆藏数字资源聚合质量评价方案。而后进行的评价信息收集、评价结果分析、评价过程控制,只需按照评价学基本方法和技术逐步进行即可。[2]因此,评价学理论为馆藏数字资源聚合质量提供了理论保障。
按照聚合过程数字资源再组织动态演化所体现出的资源因需而由大变小、语义化程度由弱到强、形态在语法、语义和语用之间转化、不同知识单元之间的多元化关联、关联的方式是直接的还是间接的、是显现的还是潜在的等特征,[4]馆藏数字资源聚合主要方法理论如下:
1.网络分析方法理论。网络分析的目标是用机器来处理海量资源,最终形成一个资源关联的强强网络,基本原理是让计算机能够理解资源,解决计算机与读者间的资源沟通问题。馆藏资源聚合的最终目的也是实现网络分析,因此,网络分析资源组织原理是馆藏资源聚合最核心的理论。按照此理论,可将资源网络看成是由知识单元(知识关联网络中的知识节点)、知识关联(知识节点之间的关联关系)、知识群落(依据关联关系划分的知识单元的集合,而不同知识群落之间的交叉关联则构成多维立体的知识关联网络体系)构成的三元组。网络分析法在聚合过程中主要是围绕资源网络的中心性、群聚性、关联性三个维度展开。中心性主要用于衡量节点在整个资源网络中的地位和影响力;群聚性主要用于实现节点分类和定位,用于资源网络结构和层级划分;关联性主要用于判断资源网络节点间关系以及节点的重要程度。[9]通过这三个维度,将不同资源的关联特征或不同资源间建立的网络进行整合、提取,并按读者的需求组织资源,主要体现在以馆藏数字资源的内、外部特征(如关键词、作者、主题、出版机构)为基础,通过作者互引关系分析、作者合作关系分析、作者-关键词分析等关系分析,[10]实现相关资源的聚合。
2.分众分类方法理论。分众分类法是“以读者为中心基于大众一致意见而产生的分类体系”,用户依据知识结构、情感体验、个人喜好等赋予数字资源特征标识,研究人员通过标识规范、统计和聚类等挖掘数字资源之间的关联关系,从而扩大读者标注和检索的范围。分众分类法的主体主要是互联网普通读者,在数字资源聚合过程中,用户不需要借助专业人员、技术或工具的帮助,就可独立完成数字资源聚合任务。分众分类法“以读者为中心”,从三个维度“读者、资源和标签”对资源进行划分,采用标签过滤技术、标签分类技术、标签推荐技术,依托R语言、Wordle、tagCloud发生器、ImageChef等工具,[4]实现数字资源的再组织与聚合。
3.计量学方法理论。计量学包括文献计量学、信息计量学、知识计量学。文献计量是利用数理统计等方法对相关文献的数量特征进行统计,通过数据描述的方式揭示文献资源的分布特征及变化规律的定性和定量相结合的数字资源聚合方法。[4]信息计量学是采用数学、统计学等各种定量方法,对资源信息在交流过程中的信息进行组织、存储、分布、传递、利用等定量描述和统计;知识计量学是对知识存量和流量、知识分配与转移、知识生产和应用、知识投入和产出、知识价值和价格等方面进行的计量研究。[2]馆藏数字资源聚合过程,需要多次用到计量学理论和方法。文献是馆藏资源的一种,文献计量学的研究对象就是文献,馆藏资源聚合的对象同样包括文献,这种联系造成了文献计量学成为馆藏资源聚合的一部分。用信息计量学方法得到的词频、著者数、出版者数、被引频次等测度数字,也是馆藏资源聚合能够使用的量化结果。用知识计量学方法得到的资源深层语义信息和信息之间的定量关系,则是馆藏资源聚合时可利用的重要内容。可见,在馆藏数字资源聚合过程中,计量学的理论和方法为聚合提供的不仅仅是聚合的对象,还提供了定量资源关系的确切方法和手段,为馆藏资源的深度聚合提供了量化支撑。
4.本体方法理论。本体是指对共享概念模型的规范化、形式化和明确化的说明,其强调领域中的本质概念以及概念之间的关联关系。[4]在本体中,概念之间、实例对象之间存在着各种复杂语义关系,如等级关系、等同关系、相似关系、相关关系、互操作关系等。通过对不同领域的资源集合构建领域本体,利用语义映射机制实现异构资源和系统之间的语义关联,就可以实现异构的、不同类型资源的深度聚合[9]。本体是构建数字资源关联最理想的方法之一。
5.关联数据分析方法理论。关联数据是指共享、连接各类数据、信息和知识的一种资源组织方式,它克服了本体的领域局限性,实现了各类数据的无缝链接。其本质在于为各类分布的、异构的数据建立语义关联,[9]表现为:基于机构资源的关联、基于学者资源的关联、基于主题资源的关联、基于知识资源的关联、基于文献资源的关联、基于读者需求资源的关联以及研究主体(机构学者等)、研究客体(主题知识点)、研究载体(文献、期刊)交叉资源的关联等。这些关联,从单一维度到多元维度,使得数字资源再组织的新体系能够根据读者不同的资源需求设定出与之相适应的维度[4],拓宽了传统意义上资源再组织的视角,更易满足读者的多样化需求。它在对分布式异构资源进行组织、集成、关联并提供关联访问的同时,为馆藏数字资源聚合提供了得天独厚的优势。
6.共现分析方法理论。共现分析理论是一种时空相关分析方法,是采用定量化的方法来分析资源中因特征项的共同出现所产生的文献之间的内容关联。一般而言,共现的特征项之间一定存在着某种关联,关联程度可用共现频次来测度。通过共现分析可以从多个维度挖掘和揭示隐含在资源中的各类知识信息单元的内容关联和逻辑关联。共现分析通常包括共词分析、耦合分析、同被引分析和合作分析等。目前,研究较多的是二重共现,即两个文献特征项的共现。[9]如果将共现现象扩展到三重或者更多,则其揭示的关联关系和逻辑联系会更加丰富,其价值也会更大。
聚合的方法需要与之匹配技术作支持,主要的技术理论如下:
1.关联数据发布技术理论。关联数据发布技术是一种先进且简单易行的数据组织与发布技术,技术优势是:统一资源标识符;标识名称标准化;提供标准格式的有用信息;提供相互关联的标识名称。[3]此技术是实现馆藏数字资源聚合中书目数据关联化、资源关联服务、关联结构化查询、资源智能检索等聚合的关键技术。
2.语义聚焦爬虫技术理论。此技术分为资源目标的定义和描述、策略的分析与制定、页面语义标注和分析三步完成。首先以事先遴选好的URL作为种子样本来决定爬行的起点,从而达到对爬虫为发现新目标页面URL而进行漫游的深度控制和引导。其次采用传统的深度优先、广度优先和启发式搜索等策略,对提取到的URL列表进行链接排序和下载,得到不含任何语义关联信息的数据和相关的元数据。最后对得到的资源进行分析和分类,从语义化的网页或文件格式中如URL文件、OWL文件、XTM文件、XML文件、嵌入相关语义标记如RDFa、Microdata的HTML和XHTML文件中提取和分离出语义标注信息。常采用的方法是编写自定义的解析程序或者采用语义分离器RDF API等。对非语义化标注的网页文档,则通过一些自动化语义标注软件或人工辅助标注方式补充语义信息,[11]实现对获取到相关实体数据和元数据语义标注的完善,最终根据语义标注信息完成发现新知识的资源聚合。
3.网页抓取技术理论。由于馆藏数字资源主要以网页的形式存在,所以页面资源的抓取至关重要。网页抓取主要是html页面的抓取和分析,配合htmlconnector即网页连接器一起使用,抓取双层链接并保存页面内容。常见的抓取方法有三种,一是url地址中包含分页信息;二是通过asp.net开发的网站分页控件,通过post方式提交分页信息到后台代码;三是翻页过程中找不到页码信息,[12]只能用代码模拟手动翻页,然后抓取。
4.索引技术理论。索引技术贯穿于资源聚合的整个过程,包括结构索引和内容索引。结构索引:以网页中的页面和链接作为索引的节点和边的有向图,有了节点和边的有向图就可以对超链接创建索引。内容索引:内容索引主要是web页面的文本资源,[12]是在资源挖掘时查询内容相关度的主要方法。
5.语义网技术理论。语义网技术是解决数字资源语义描述、构建资源之间语义关联关系的技术。馆藏数字资源聚合所涉及的语义网技术主要包括语义描述标准和本体。语义描述标准规定了网络资源的语义描述方式,为资源间的聚合提供了统一的语义接口,包括 RDF、RDFS等模式,SKOS、LCSH等公共词表以及XML、OWL等置标语言。本体主要用于对馆藏内外部资源进行语义重组,其中,对内部资源进行语义描述的本体有 MarcOnt、BIBO、OAI-ORE、FRBR等。对外部资源进行语义描述的本体有FOAF、EVENT、DBpedia Ontology等。[13]
6.聚合机制技术理论。馆藏数字资源聚合机制技术主要包括数据仓库聚合机制技术、封装器聚合机制技术、A-gent聚合机制技术等。数据仓库聚合机制技术是将海量的馆藏网络数字资源按主题、学科的方式建模并存储在同一数据仓库内进行集中管理,从而将分散异构数据库进行无缝链接,剔除相关数据库内的重复信息后,给读者提供一站式地访问馆藏数字资源的平台。此技术是一种物理集成的聚合技术,它通过一致的方式将异质异构的资源统一集中存储起来,有利于实施更加深人、复杂的数据挖掘、资源发现等资源聚合;封装器聚合机制技术是一种虚拟的资源聚合技术,此技术无需真正存储需要聚合资源,同时又能很好地解决资源聚合问题,它能克服异质异构资源难以集中存储的不利因素,以统一的形式将聚合过的结果提供给读者,更加适应馆藏数字资源信息量大、更新快等特点,[14]它是目前提高馆藏数字资源聚合质量的主流技术;Agent聚合机制技术是将聚合框架中的主要功能模块封装为A-gent的技术,主要有读者A-gent技术、资源Agent技术和代理方Agent技术三种。读者Agent技术负责维护读者信息、方便读者与聚合系统进行交互,资源Agent技术将信息资源按照聚合系统的表示形式进行描述和转换,代理方Agent技术负责将从读者Agent发出的查询请求与所要查询的资源Agent进行匹配,各Agent之间进行通信、交互和合作,使聚合系统能更加适应馆藏数字资源异构性及分布性的特点,从而有效地实现资源聚合[14]。可见,以Agent作为核心模块,可以增强馆藏数字资聚合的灵活性。
聚合模式是使资源以什么样的方式呈现,它解决的是资源的采集与处理(资源问题)、资源基础设施(技术问题)、资源分析与应用(利用问题)三个核心问题。聚合模式包括多层次、多类型、多方式,主要有以下几种:
1.资源超网络语义聚合模式。超网络是由多个网络关联而成的网络,它可以同时描述同质事物以及异质事物间的联系。由于馆藏数字资源是由多个网络关联(超网络)而成的资源,因而可运用超网络聚合模式,对资源中涉及的人、知识、载体之间的语义关系(等级关系、属性关系、等同关系、相关关系、引用关系、论述关系等)进行分析,形成基于语义关系的数字资源聚合模式。此模式从下至上分为基础层、描述层、聚合层和应用层共4个层次,基础层是各种类型的文献数据、知识数据和读者数据,此层利用自动化语义标注系统进行自动标注,从中提取人、知识、载体等知识要素信息;描述层主要实现对不同类型的数字资源及知识要素的结构化描述和存储,采用XML语言描述数字资源超网络中各节点和要素间的语义关系,方便计算机之间的互操作和搜索引擎细粒度化的查找与匹配;聚合层通过语义关系提取,对数字资源超网络中人、知识和载体要素,从等级关系、等同关系、属性关系、相关关系、引用关系、论述关系等语义关系角度进行关联映射和资源聚合;应用层面向终端读者,读者通过简洁的检索界面输入查询项,系统自动分析查询项并进行语义计算和匹配,以可视化的方式将计算结果输出,[15]同时给出供读者控制的参数选项,方便读者调整和优化检索结果。
2.资源类型聚合模式。此模式包括数据聚合、信息聚合、知识聚合。数据聚合是对异质异构数据库资源在逻辑上或物理上有机地集中,提供统一的表示和操作,以解决多种异构数据资源的互联与共享。它分为网格聚合、跨库检索聚合、中介模式聚合三种方式;信息聚合是通过一定的标准和技术实现异构异质资源信息物理或逻辑上的集中与互联互通,实现多种资源的“一站式”检索,但并没有对资源对象之间的关系进行有效揭示和组织;知识聚合则是对资源中的内在概念及概念之间的关系进行表征。本体技术的发展,为知识聚合提供了强有力的工具,本体是知识聚合的核心。[16]知识聚合是资源聚合的高级阶段,也是资源聚合的最终目标。
3.资源作者合作聚合模式。此方式是通过对某一领域内资源作者合作进行分析,揭示该领域内的研究团体、核心作者以及研究的主题。分为作者合作关系聚合和机构合作关系聚合。作者合作关系聚合是把相关作者的知识信息聚合在一起,用网络分析法分析资源作者之间的关系,揭示资源网络中的主要成员和个体之间的复杂关系;机构合作关系聚合是利用网络分析法对相关资源信息进行挖掘。把具有合作关系的机构确认网络的节点,在此基础上确定资源机构合作的关系,构造机构合作的矩阵,对所呈现的机构合作网络进行相应的分析,[17]聚合成一个相互联系而产生不同影响的机构资源网络。此模式能够揭示作者合作交流的资源信息,向读者提供更加精准、全面的信息。
4.资源元数据互操作模式。元数据互操作方式有:映射、复用与集成、互操作协议、关联数据等。映射是指两个元数据标准的元素之间直接转换,通过一对一、一对多、多对一及多对多等多种映射方式解决语义互换及统一检索问题;复用与集成:当映射模式无法有效满足已赋值的元数据互操作需求时,就需要借助复用与集成等方式实现不同文化机构的元数据记录的整合。复用与集成的实现途径以METS和RDF两种方式为主、多种方式并用;互操作协议:要实现对参建机构分布式异构平台的跨库检索,可以借助元数据互操作协议方式来实现。目前被广泛应用的元数据互操作协议有OAI-PMH,Z39.50,ZING等;关联数据:关联数据是将数字资源的每个元素用RDF三元组的形式表示,聚合时只需在两个系统的元数据之间建立匹配点,[18]实现不同数据集之间的关联,实现异构系统之间的元数据互操作。
5.资源选题聚合模式。资源选题聚合模式是针对资源某一领域内的选题进行聚合,包括多题选做、专题精做、旧题新做、一题多做。多题选做是对资源选题进行取舍,“取”哪些与读者需求相契合、有传承价值、学术价值的资源选题。“舍”哪些与读者需求相背离、一般性的、重复性的平庸化资源选题;专题精做是实施精品战略,在资源选题的精度和深度上狠下功夫,集中优势力量对某个专业领域的资源选题进行精耕细作,打造出一批不可被替代的或替代程度很低的资源,从而获得“人无我有,人有我精”的资源独特竞争优势;旧题新做是回头看,聚合挖掘旧的资源选题,赋予旧资源以新意义,使其重新焕发出活力和生命力,赢得读者的认可;一题多做是以资源聚合为依托,对同一资源选题进行不同媒介形式如网页、影品、游戏互动、专业数据库等方向的延伸开发,[19]形成资源选题的多次开发、多媒体互动发展的综合效应。
在大数据和云计算背景下,馆藏数字资源突破了传统的资源整合、集成等研究局限,出现了突破和创新,向数字资源的聚合方向发展,因而其理论发展也凸显出超越性。
1.聚合理论的引进与本土化研究的结合。资源聚合的出现,虽然带有很深的西方移植痕迹,但其发展的方向是本土化研究,因而学者对西方研究成果的引进,是在在系统总结西方主要聚合理论的基础上,结合中国的实际,引进了西方一些诸如聚合资源说、聚合资源关系说、聚合资源差异说等资源聚合理论研究成果,并指出这些理论的共性在于:视资源聚合为一种现存的状况。其差异性在于:对资源聚合概念的理解、对资源聚合对象的把握与资源聚合的价值取向等方面存在分歧与差异。引进理论与土化研究的有机结合是馆藏数字资源聚合理论发展超越的关键所在。
2.聚合理论新理念的出现与研究视觉的创新。馆藏数字资源聚合是一种主观体验、社会制度、现实状态和理想追求,是大数据时代特有的现象。随着研究的不断深入,出现了理论创新:社会资本理论。由大数据时代引发而出现的社会资本新理论,将馆藏数字资源聚合理论融入了一个全新理念。该理论从新的角度引导馆藏数字资源聚合理论研究的新内容,出现了诸如资源聚合成本节约、资源聚合信任、资源聚合嵌入等理论研究新视野;生产组织形式理论。馆藏数字资源聚合不仅仅是一种资源重组织现象,更是一种社会生产组织形式。我们知道,一种新的社会生产组织形式的产生和发展,必然带来整个社会整体结构和观念的变迁。笔者认为,馆藏数字资源聚合正是这样一种新的社会生产组织形式,它需要更宽广的理论作支撑;负面影响理论。目前对馆藏数字资源聚合的论述几乎都是正面的,对于它的负面影响关注不够,这是不正够的。因此,未来研究需要拓展广度和深度,明确聚合理论的发展与馆藏数字资源聚合之间是否存在着负面影响,如果存在,存在的条件是什么、具体的作用机制是什么、理论依据又是什么。[6]这些问题有待于以后进一步研究。
3.聚合理论催生性的凸显。由聚合理论创新引导的馆藏数字资源聚合,由于其具有的特殊性,将催生一批适应馆藏数字资源聚合发展的专业技术人才,如资源数据分析师、图书数据分析师等。分析师的出现,将馆藏数字资源聚合从基础性分析、推测性分析提高到更加成熟的预测性分析上。推测性分析是根据资源的连贯性、概率性、相关类推原则等对资源发展进行定性推测,目前馆藏数字资源聚合大多采用这种定性推测。预测性分析则是分析馆藏数字资源集合以识别其趋势,并通过建立模型进行预测,发现资源之间的相关关系,[20]从而准确预测资源发展方向,及时为聚合提供解决问题方案。
4.聚合理论相关性的超越。尽管馆藏数字资源聚合涉及很多理论,但这些理论并不是孤立的指导资源聚合,他们之间有相关性。“相关性”是指两个或者两个以上变量的取值之间存在某种规律性。这就是说,如果找到某个现象的良好关联物,相关关系就可以帮助我们捕捉现在和预测未来。这种通过洞察细理论之间相关性的分析方法,为馆藏数字资源聚合理论打开了一扇新窗户。按照这样的思路,未来馆藏资源聚合可以在常规理论指导下,结合理论之间的相关关系,从原有的静态理论指导向动态理论拓展,提供更加精准的理论跟踪。[20]聚合理论的相关性将成为今后馆藏数字资源聚合理论研究的新领域,它能帮助我们走出对直觉、经验、常规逻辑推断、因果关系分析等传统思维路径的依赖,将思维拓展飞跃到从众多指导馆藏数字资源聚合理论中不断发现新指导理论的视野。
馆藏数字资源聚合理论,不仅引领着聚合的路径和发展方向,而且在其实践研究中呈现出理论整合与理论创新,形成新的理论研究领域,指导馆藏数字资源聚合形态丰富多彩,立体化多层面地为读者提供多角度多层次服务。本文在学者研究的基础上,对馆藏数字资源聚合的理论体系进行了分析与构建,旨在为其理论研究的继续和深入提供新思路、新视角,真正将馆藏数字资源聚合的理论研究推向多学科、多领域、多维度、多视角、多方法的交叉融合。本文只是初步研究的尝试,相信随着学者研究的深入,馆藏数字资源聚合理论的研究必将出现质的飞跃。
[1]牛奉髙.数字文献资源高维聚合模型研究[D].武汉:武汉大学, 2014.
[2]楼雯馆.藏资源语义化理论体系研究[J].图书馆学研究,2015,(2): 35-40.
[3]陈德容.基于关联数据的图书馆数据发布及数据服务[J].图书馆工作与研究,2015,(2):25-27,43.
[4]毕强,尹长余,滕广青等.数字资源聚合的理论基础及其方法体系建构[J].情报科学,2015,33(1):9-14,24.
[5]贺兴,艾芊,余志文等.电力生态系统视角下的电网演变及电力系统聚合理论[J].电力系统保护与控制,2014,42(22):100-107.
[6]刘学平.理论视野内多类型集群图书馆发展的理性认识[J].图书馆理论与实践,2012,(2):52-57.
[7]肖希明,李硕.信息集群理论和公共数字文化资源整合[J].图书馆,2015,(1):1-4,11.
[8]董渊,孙红莉,程结晶.基于共生理论的高校数字化教学资源共享策略研究[J].南昌教育学院学报,2014,(4):52-55.
[9]陈兰杰,侯鹏娟.数字文献资源关联关系揭示方法研究[J].图书馆,2015,(2):41-45.
[10]王雨.基于社会网络分析的数字图书馆资源聚合研究[D].长春:吉林大学,2014.
[11]王思丽,刘巍,祝忠明等.语义化的知识资源发现方法探析[J].图书馆学研究,2014,(9):2-6.
[12]许微.基于知识发现机制的企业决策支持系统构建研究[D].湖南:湘潭大学,2013.
[13]刘晓娟,黄海晶,尤斌.语义网技术在图书馆数字资源深度聚合中的应用[J].图书馆杂志,2015,(6):76-82.
[14]伏琰.基于云计算的数字资源整合技术研究[J].农业图书情报学刊,2015,27(4):21-24.
[15]毕强,王传清,李洁.基于语义的数字资源超网络聚合研究[J].情报科学,2015,33(3):8-12.
[16]肖希明,唐义.国外多领域数字资源整合研究进展[J].中国图书馆学报,2013,(4):26-35.
[17]李星星.馆藏资源深度聚合及应用研究[D].武汉:华中师范大学信息管理学院,2013.
[18]肖希明,田蓉.国外公共数字文化资源整合的现状与发展趋势[J].国家图书馆学刊,2014,(5):48-56.
[19]周乾隆.中小出版社选题资源整合四种模式[N].中国新闻出版报,2015-04-01(4).
[20]吴敏慧.大数据与图书馆信息服务新构想[J].图书馆理论与实践,2015,(2):14-16.
On the Theoretical System of Library Digital Resources Aggregation
Liu Xue-ping
(Library of Weifang University,Weifang 261061)
Study on Library Digital Resources aggregation theory aims to,form a complete theoretical system,and provide strongguidance for the practice of polymerization.Byanalyzingthe concept ofthe collection ofdigital resources,conceptual framework,concept theoryfrommulti discipline perspective,we think the collection ofdigital resources should be basicallyguided bysharingtheory,cluster theory,symbiosis theory,the longtail theory,cognitive linguistics theory and evaluation theory,use etwork analysis method,theory of classification method,theory of measurement method,ontology method theory,correlation data analysis method and the theory of Co-occurrence analysis method for theoretical analysis tools,and be supported byFusion elated data publishingtheory,semantic focused crawler theory,web crawling theory,index theory,semantic web theory,and aggregation mechanism theory,so as to put the theory of aggregation pattern such as resource super network semantic pattern,resource type mode,resource author cooperation mode,resource metadata interoperabilitymodel,resource selection model intopractice and tohighlight theoretical introduction and localization,newideas and research on the theoryofnewvision,theoretical birth and correlation theoretical transcendence ofdevelopment.
collection ofdigital resources;aggregation theory;theoretical development
G251
A
1671-4288(2016)03-0111-06
责任编辑:孙延波
2016-04-23
山东省社科规划项目“数字图书馆资源语义关联可视化实现研究”(15CTQJ01);山东省文化厅项目“图书馆服务公共数字文化的创新模式研究”(1506327);潍坊市科学技术发展计划软科学项目“生态理念下潍坊文化生态发展路径研究”(项目号:2015RKX049)阶段性成果。
刘学平(1964-),男,山东诸城人,潍坊学院图书馆副研究馆员。