王志红
语义网及Mashup、RSS等网络应用程序催生了对聚合的关注与研究[1],产生了信息聚合、知识聚合、资源聚合、结果聚合、聚合搜索等概念。相关研究项目陆续开展,国外如美国北卡罗莱纳大学Arguello、以色列理工学院Baram-Tsabari、英国格拉斯哥大学Lalmas等均主持相应课题;国内相关课题数量多,截至2017年国家自然科学基金和社会科学基金批准项目数量超过16个。部分论文论述了该领域的研究进展,国内侧重于从信息组织的角度阐述聚合的概念与模式、方法与技术体系、研究主题与热点[2-6];国外侧重在信息检索方面[7-10],主要从聚合搜索过程视角反思已有研究和展望研究趋势。
观察国内外图情领域的聚合研究,对聚合概念的使用较为混乱,对聚合研究进展的梳理从比较单一或片面的视角出发,不够全面,不利于准确把握及深入开展信息聚合研究。因此,本文尝试从一种综合性的视角出发,对图情领域中聚合一词进行词义分析之后,从信息组织与检索全流程的角度,包括聚合对象的描述及其关联、聚合结果的呈现与交互、信息聚合服务与应用及相关问题三个方面,厘清信息组织与检索领域中与聚合相关的已有研究,较为深入地调查与分析该领域的研究进展,以期通过明晰聚合的涵义为该研究领域奠定坚实的基础,帮助研究者们把握研究的现状与趋势,从而推动聚合研究的发展与完善。
本文以期刊论文、会议论文和学位论文作为文献来源,检索工具和数据库为LISA、Web of Science、Ebsco、ACM、CNKI(领域分面中排除化学、生物医学等自然科学)、Proquest、CNKI学位论文数据库、百度学术等,并利用文献回溯法进行补充,主题词为“aggregat*”和“聚合”,以获得所有与聚合相关的文献,检索时间为2017年3-5月。本文在检索时没有考虑使用“整合”“融合”等关键词的原因在于,一方面,这些词与聚合之间存在一定的差异,且相对比较成熟并已独立成相应的研究领域,如数据融合和知识融合,如若使用融合一词作为关键词将检索到大量的文献,不仅会超出作者的处理能力,而且会引起概念之间的进一步混淆;另一方面,文献的关键词或主题词是作者或标引者对文献本身研究内容认知的外化形式,代表了作者或专家对这一领域的认知状态,符合本文的研究目的。
“聚合”一词较早出现于我国古代文学作品中,如《红楼梦》。《汉语知识辞典》指出,聚合是指具有某种共同特点的一群单位构成的集合,各成员具有可替代性特点;也可指聚合的形成方式或过程。聚合所对应的英文翻译有aggregate(ion)和polymerization,前者是一个较为通俗的用语,或常用于社会科学领域;后者多用于高分子化学、生物医学和土木建筑领域,用来指称由低分子化合物合成高分子化合物的化学反应的一种专业性用语,因此此处应译为aggregate(ion)。根据《牛津大学词典》《朗曼词典》《韦氏词典》等的解释,aggregate主要有名词、动词两种词性,作为名词,主要指将多个尤其是分散、异质或有差别的元素结合形成的整体或混合体;作为动词,既可以解释为总计、合计等,也可意指形成或组合成一个类或聚类的过程。进一步查阅图情领域英汉词典,发现国内对中英文形式聚合一词的解释与翻译各不相同。例如,《图书馆学情报学大辞典》将聚合解释为一个或多个信息源整合起来的网站或网络应用,对应的英文则翻译为mashup;而《英汉图书馆情报学词汇》中则将aggregate和aggregation分别译为多主题聚集以及聚集、现象或作用。可见,图书情报学等社会学科领域中的聚合是由文学作品中的通俗含义应用与演变而来,并非来自化学等工程领域,对应的英文翻译为aggregate。该词的基本含义是强调多个异质或有差别的单一构件以某种方式组合形成的整体或形成该整体的过程。后文将继续通过追溯并深入分析聚合在信息计量学、信息组织和信息检索这三个图书情报学分支领域中的涵义,明晰其科学意义。
信息计量学引入聚合一词来描述通过计量关系关联汇集之后形成的结果,最早是由Garfield在1972年载于《科学》的论文中使用了该词的通俗意义[11]。之后Carpenter等指出聚合是聚类形成过程中的基本工具与技术[12]。渐渐地,研究者开始在标题等论文重要部分中使用聚合或聚合集(Aggregates)概念[13],甚至专门讨论计算期刊影响时的聚合问题[14]。Leydesdorff提出了期刊-期刊引用聚合(Aggregated Journal-Journal Citation)的概念,用于表示期刊与期刊之间通过引用关系形成的连接与汇集[15]。可见,在信息计量学领域,聚合是与依据对象之间的相似性程度进行聚类密切相关的。随后,相关数据库服务商也开始使用Aggregator来专门指代提供摘要、索引及文献检索服务的数据库提供商,即聚合器或聚合服务提供商。比如,Dennis等指出聚合服务提供商数据库是将各来源的大量不同资源进行聚合,为用户提供类似一站式购物的形式[16]。Kathleen认为电子期刊时代,聚合服务提供商的任务是从多个出版商汇集或聚合数字期刊,并为终端用户获取图书馆数字期刊提供单一的入口[17]。Moghaddam等在探讨Aggregator对图书馆的重要性时,指出聚合是指通过将单件放在一起获得的总量,即将分散的信息源合并成一个连贯资源集[18]。Agenjo等[19]将收割元数据的收割器称为聚合器,同时指出聚合是指许多相互关联的资源组成的集合中的资源本身,数字聚合体则是根据特定作者聚集的数据和数字信息资源集合。
信息组织领域对聚合的使用与研究稍晚于信息计量学领域,但是相对而言信息组织领域对该词的界定与解释更为深入与清晰。
1.2.1 信息分类与概念建模
依据分类思想建立的模型是对现实世界的一种简化,任何一个系统的建设包括信息组织系统,都需要在抽象层次上对系统所表征的现实世界或信息对象进行建模。1986年,AT&T贝尔实验室Fishburn等提出,分类问题就是如何将具有特定属性的部分聚合成相互之间构成等价关系的类的整体集[20]。这表明,聚合是一种分类问题,是面向对象建模中的重要内容。随着面向对象建模领域的发展,研究者们对聚合的含义由模糊不清[21]变得逐渐清晰,认为聚合指使用一组基本组件或基元组合系统的过程[22],并开始以聚合关系基础进行建模。在后续发展出来的统一建模语言(UML)中,聚合直接表示为连接概念与概念之间的一种重要关联关系,其中代表整体的概念被称为聚合体,代表部分的概念称为要素,且聚合体与要素之间相互独立[23]。后来,Svenonius在《信息组织的知识基础》中提出的聚合与概念建模领域一脉相承,他提出聚合是一种部分与整体的关系,包括信息内容和物理描述两个层面,前者可以是作品之间或版本组件和版本整体之间的关系,后者主要与文档而不是作品或语言相关[24]。
1.2.2 传统书目信息组织
书目描述中的概念及其抽象化也需要解决概念之间的关联与聚合关系以及聚合所对应的概念层次问题。为此,2005年IFLA成立了一个关于聚合集的FRBR工作小组(FRBRWorkingGroup on Aggregates),调查FRBR模型应用到聚合集时出现的困难和不一致性问题,并提出相应的解决方案。初期,该小组成员针对聚合集所表现的实体层次这一问题提出了多个方案,包括从载体表现的层面来定义聚合集(AggregatesasManifestations)[25]和从作品的层面来定义聚合集(AggregatesasWorks)[26]两种,前者认为聚合集是体现多种内容表达的一个载体表现,包括独立作品集、增补集和平行集三种形式;后者提出聚合集是由许多单个作品组成的一个作品。报告最终采用了前一个方案,认为聚合实体(Aggregate Entity)是指包含两个或多个构件的整体/部分关系中的整体,将单元实体称为组件实体(Component Entities)[27]。调查表明,常见的聚合集类型为单个作品的集合和以增补形式如插图等形成的增补集,并且存在由于定义不清等难以精确地识别和定量化聚合集的问题[28-29]。可知,在传统信息组织中主要是使用聚合集来表示FRBR模型中的第一组实体(分别为作品、内容表达、载体表现、单件)所形成的整体及其整体与部分关系。但是,对于FRBR模型中的第三组实体(概念、实物、事件、地点)如何形成整体与部分关系并依据这种关系进行聚合的研究与探讨则较少。
信息检索领域中的聚合同样来自于概念建模,并被不断应用到数据库及系统设计当中。数据库相关的早期研究认为,聚合主要是指组成高阶对象的诸个对象之间的一种关系[30]。也有研究者认为高度结构化的文档蕴含了一般性框架和聚合层级以及文档内和文档间各种类型的交叉引用[31]。在信息检索领域早期,以ATOM/RSS等为代表的网络应用程序是实现信息聚合的一种重要技术或方法[32-33],通过这种方法将诸如新闻头条、博客等网络信息聚合到单一地点以方便用户浏览。但是,RSS只是通过订阅来有效并及时将各个来源和类型的信息简单汇集之后推送给用户,其依据的是用户主动表达的需求。另一个早期探索的结果是Mashup,它是将分散来源的网络资源内容、表现或应用功能综合起来产生新的应用或服务[34]。然而,该词的主要含义是混搭,强调的只是对不同类型资源之间的混合式呈现。可见,这两种方式均不涉及到分解与组合的过程,并不是完全意义上的信息聚合方法或技术。相关研究还指出另一个比较容易与聚合混淆的概念是聚类,聚类是指根据文档或信息对象之间的主题相似性特征进行聚集,而聚合可以按照各种关系特征,对各种类型、各种粒度信息进行组合排列后通过单一的结果进行呈现[35]。随着信息检索领域的发展,聚合搜索被正式提出[36],并成为一种新的信息检索范式,强调的是分解组合以及排列之后所返回的结果的呈现方式[37]。
聚合对象是聚合所作用的信息对象,聚合前与聚合后的信息对象之间构成部分与整体的关系,这里所指聚合对象即为聚合前的信息对象,即聚合单元或聚合元素。对于聚合对象的描述及其关联关系的揭示,主要包括内容描述和物理描述两个层面,此外也有依据多元聚合关系以及用户与聚合对象之间的关系。
信息的内容层面,依据认知语言学可划分为词汇、语义、句法和语用四个层次。词汇层次强调词汇本身的含义,可对应情报检索语言中的分类法、主题法、叙词法等。例如,王学东等[38]、Ou和Khoo[39]分别对以主题分类和概念为基础的聚合进行了实证研究。语义层次主要是词汇在语义上的指称关系,如能指与所指,以解决相应的语义指称问题,对应的情报检索语言为本体、关联数据等。多数研究者均认为语义聚合是信息聚合发展的新趋势[40],相关研究较多,如毕强等[41]、孙建军等[42]、邱彦涛[43]均从语义网、关联数据、深度标引等角度梳理和构建了聚合的方法和模型框架;仝召娟等[44]、彭佳等[45]分别基于关联数据和本体实现了非物质文化遗产等特色资源的深度聚合;Palmonari等[46]提出并证明了面向数据和服务的聚合搜索的语义方法;Nanas等[47]开发了一个基于内容过滤的用户文档模型,实现了个性化的新闻和论文聚合。句法层次主要是从句子内部结构出发进行语言学研究,如文本挖掘领域中的依存句法分析就应用了语言学句法层次的相关理论与技术,但是目前还未发现以该方法为基础的信息聚合相关研究。语用层次强调的是语言使用和出现的环境,主要为上下文关系,如信息计量领域中的引文内容分析,就是希望通过加入引文上下文关系提升基于引文关系聚合的效果。作为一个较新的研究领域,引文内容分析目前多是探讨技术方面的问题,很少有利用引文上下文关系来提升文献聚合效果等方面的研究。
信息的物理描述层面,是对信息的外部特征以及人与信息之间的交互关系进行描述。随着人与信息之间交互性的增加,信息的物理描述层面逐渐成为信息聚合的重要视角与方法。这一层面的特征或关系包括信息计量学中的引用或耦合等关系、社会网络关系、交互与外部情境特征等。通过传统的信息计量学中文献之间的各种关系,如引用、耦合等关系是当前相关研究最丰富的一个领域。邱均平等进行了大量针对馆藏资源及学术信息资源的聚合相关研究,如基于引文关系[48]、耦合关系[49]、共现关系[50]、作者共被引[51]等关系的文献聚合。相比于传统文献关系,社会网络关系更适合用来表征社会化网络环境下信息资源之间的松散关系。例如,赵蓉英等[52]、姜毓锋等[53]、孙中秋等[54]、商宪丽等[55]、王雨[56]均对以社会网络关系为基础的聚合方法进行了研究;Bessaimechmache等[57]利用INEX数据集,验证了基于概率网络的结构化信息检索模型的聚合搜索的有效性;Le等[58]提出了基于关系的图表数据库聚合搜索方法。此外,随着情境感知在信息系统中的重要性日渐凸显,捕捉和表征用户或信息所处的情境也逐渐成为聚合的一种重要方式。Pepe等[59]以科学研究生命周期中出版文献、数据和研究情境信息的关系为基础,从细粒度层面对科学研究过程中产生的各种信息进行描述和关联;Zavalina等[60]探索馆藏级元数据在数字聚合信息检索中的作用;Palmer等[61]构建了面向学术利用的数字聚合情境集;李敏等[62]分析和构建了面向移动信息个性化服务的用户情境类库,并提出了基于用户情境类聚合的移动信息服务框架。由于元数据既可以描述信息的内容层面,也可以描述信息的物理层面,作为重要的信息组织方法,不少学者关注元数据在信息聚合中的适用性和应用,如曹树金等[63]、黄文碧[64]、Hahn 等[65]、Wijesundara 等[66]分别利用元数据描述各领域的资源并进行了聚合。
聚合往往需要从多维度、多视角来描述和揭示信息对象,部分研究探讨了结合多种关系和维度的多元聚合关系和方法。如杨萌等[67]结合元数据、标签、受控词表、本体等知识组织相关理论及形式概念分析、社会网络分析等,提出多维度的社会化标注系统资源聚合思路和机理;曹进军[68]提出了以不同评价分析标准、符合良好用户体验标准与分类的多个维度对信息资源进行切分,从而对信息资源进行聚合和重构的方式;张赛男[69]从物化资源聚合、人际网络聚合、生成性资源聚合(包括添加笔记、评价资源、填写书签等)的角度,提出基于集体智慧的开放学习资源聚合方法;夏立新等[70]构建了面向内容信息、结构信息、使用信息和全网络资源的多维度网络资源聚合与知识发现框架;王伟等[71]实现了综合关联数据和分众分类对徽州文化数字资源的多维度聚合;周珊珊[72]通过实证研究验证了基于分众分类法与复杂网络分析的数字资源聚合的多维度理论框架;牛奉高[73]根据潜在语义和VSM模型提出共现潜在语义向量空间模型,提出了基于该模型的文献聚合方法,并利用实证研究进行了检验;马翠嫦等[74]采用分面分析方法构建了聚合单元的一般分面和基本属性分面,不仅包括物理特征、语言功能特征、划分方式和关系特征,还包括评价特征、计算属性、用户感知属性。
不管是聚合对象的内容描述层面还是物理描述层面,或是综合多元聚合关系进行描述,均只是从信息对象本身的视角出发提供信息聚合的依据,却没有考虑到不同情境下用户对于信息对象的相关性判断的多维度性及动态性。相对于信息组织而言,信息聚合更强调用户视角下对信息对象的充分描述以及重新拆分与组合,因此,只有从用户视角出发,增加用户与信息对象之间的关联关系才能更好地满足用户的信息需求。也就是说,用户视角下的用户与聚合对象之间的关系成为另一种重要的聚合依据。用户与聚合对象的关系,往往是通过用户的主观能动性,以用户对信息对象的感知与评估为基础建立,即用户在信息搜寻过程中的相关性判断所依据的维度或特征。已有研究提出了基于多准则相关性判据的聚合,如Pereira等[75]提出了面向相关性评估的多准则聚合模型,其中考虑的文档相关性评估准则包括主题相关性、覆盖范围、合适性和可靠性,并应用实验法进行了证明;Moulahi等[76]提出了基于模糊集运算的多维度相关性聚合方法,并在推特搜索任务试验中对该方法进行了验证。
信息对象之间的关联关系总是需要通过系统界面将聚合后的结果呈现给用户,促进用户与信息之间的交互。聚合结果的呈现与交互的相关研究主要集中在界面导航与可视化、垂直领域排序与呈现以及聚合界面交互与评估等方面。
系统界面的导航及可视化是信息聚合结果呈现与交互部分的重要内容之一,也是已有研究重点探讨的问题。张玉峰等[77]探讨和验证了层次信息可视化方法在表达和呈现海量馆藏资源聚合结果时的有效性;张云中等[78]采用形式概念分析方法构建了tax-folk混合导航模型的六个模块;李士平等[79]提炼出了自主聚合与可视化导航相融合的资源重构方式及具体实现方式;李洁[80]构建了馆藏数字资源知识聚合可视化模型;陈路明等[81]利用开源工具Viewshare对费尔法克斯县历史明信片馆藏资源进行了可视化实现;黄珊珊[82]针对微博信息聚合设计和实现了基于用户行为的可视化系统;Kaptein等[83]以荷兰国会会议官方记录中的大规模半结构化数据集为基础,探索了利用文档结构和内容可视化方法以及搜索结果分组、分面搜索等技术进行结果聚合与呈现的方法;Bron等[84]采用三角测量的方法,利用历时研究和实验室研究分析了学生在多会话搜索任务中对标签式和嵌入式呈现的偏好和使用行为。
垂直领域对应的是垂直搜索引擎,它是在查全率与查准率无法两全的悖论之下,从综合性搜索引擎发展而来,目的是针对某一个特定领域或需求提供专深精的信息服务[85]。然而这种方式逐渐暴露出的弊端再次催生了综合和聚集众多垂直领域的需求。因此,在多样化的聚合结果呈现时,面临着垂直领域选择、比较与排序等问题。Santos等[86]调查网络、图片、新闻和产品搜索四种不同垂直领域的多样性需求,提出利用概率论方法来解决满足不同垂直领域中多种信息需求任务所需的聚合搜索结果多样性问题;Chuklin等[87]对聚合搜索的不同交叉呈现方法进行了比较和分析,并基于Team-Draft交叉方法和优化交叉框架提出了两种垂直感知的方法;Arguello等[88-90]对聚合搜索一致性进行了一系列研究,包括垂直领域不同排序和呈现方式对搜索结果一致性及其对搜索行为的影响等。
从用户角度调查和分析聚合界面结果呈现中的交互性,以及从交互性角度对聚合界面进行评估,有助于验证聚合关系和方法的有效性和科学性,优化聚合系统交互功能的开发与设计。已有研究包括Sushmita[91]通过分析日志数据和开展用户实验,研究了聚合搜索的结果呈现与交互,包括用户点击行为、结果偏好与信息需求类型、来源相关性和搜索意图的动态性,提出了相应的界面设计指南;Arguello等[92]调查了任务复杂度和不同结果呈现方式对垂直内容使用的影响;Turpin等[93]通过实验调查了认知能力如何影响用户对聚合搜索界面的使用和评估;Kopliku[94]从关系聚合搜索和交叉垂直聚合搜索两个方面研究了聚合搜索实施和评估的方法;Zhou等[95]从可靠性和直觉性对评估聚合搜索结果页面指标的属性进行了比较和分析。
聚合作为提高服务效果的一种有效技术手段,其最终目的是提升用户信息查寻与获取的效率和效果。目前,学科信息聚合与舆情信息聚合是两个应用相对较早的领域。在学科信息聚合服务方面,最早是由各数据库商依据期刊、作者等文献特征进行聚合并提供相应的聚合服务,后来逐渐扩展到其他信息类型和系统中,如书评网络资源聚合[96]、视频聚合系统[97]、地方志资源知识聚合服务系统[98]、学科信息聚合服务[99]、社区知识聚合服务[100]等。在舆情信息聚合服务方面,从传统媒体时代到新媒体时代,经历了以主题为主要维度的聚合到注重用户个体兴趣、习惯等以及多媒体化组织与呈现的特征,如社会化推荐聚合服务[101]、基于用户兴趣[102]及个性化[103]的信息聚合服务、突发事件情报资源动态聚合[104]等。信息聚合也已广泛应用于其他各个领域,如空间信息[105]、教育信息[106]、农业信息[107]、企业信息[108]等不同类型信息的聚合与服务以及智能环境下的信息聚合[109],有研究者还开展了针对儿童等特殊用户群体的聚合搜索信息服务的研究[110]。
在提供信息聚合服务的过程中,引起了许多其他需要谨慎对待和考虑的问题。其中,信息聚合中的知识产权问题是最重要的问题之一,已有相关研究结合司法判决等法学领域探讨了信息聚合服务或平台中的著作权或版权[111]、法律责任问题[112]、敏感信息隐私与风险问题[113]等。如曹树金等指出,聚合过程中可能存在法律争议的行为包括超链接及深层链接是否构成信息网络传播权侵权,摘要和图片是否构成复制权侵权,聚合结果的呈现是否构成改编权、演绎权侵权,以及内容聚合是否构成不正当竞争[114]。另外,也有研究从聚合前视角的可聚合性出发,研究复用政策[115]、聚合数据质量与一致性问题[116],以及从图书馆员视角重新审视知识聚合趋势下图书馆员作为数据监护者的角色[117]。
本文综合利用多个数据库及多种文献检索方法,系统地检索并获得了与聚合相关的文献,从综合的视角出发,对聚合一词的涵义进行了分析与溯源,并从聚合对象的描述及其关联、聚合结果的呈现与交互、信息聚合服务与应用及相关问题三个方面梳理了信息聚合相关研究的进展。
在聚合的词义方面,研究发现,首先,图情领域中的聚合并非来自化学领域[118],而是经历了从最初的通俗意义发展到如今具有特定科学意义的过程。其次,在不同领域中聚合的含义既存在共性,也有些微差异。该词的基本涵义是指多个异质或有差别的单一构件以某种方式组合形成整体或形成这一整体的过程。不同领域之间的差别在于,信息计量学中的聚合主要是指通过传统的文献资源之间的引用关系等进行关联,并依此衍生出了提供相应服务的聚合服务数据库提供商。信息组织与信息检索领域中的聚合均来源于分类与概念建模领域,前者偏重于指一种部分与整体的关系,以及由这种关系形成的聚合集,后者则偏重于基于聚合关系的结果呈现和获取方式。未来研究可通过进一步整合不同的分支领域以及区分不同的聚合对象,从而提出信息聚合研究的统一框架。
在信息聚合的研究进展方面,国内外研究存在一定的差异,具体表现为:国内研究强调的是聚合关系的发现,对于垂直领域排序与呈现、聚合界面交互与评估等聚合结果呈现与交互方面的研究较少;国外研究中在这三个部分均有涉及,但更多的是关注聚合结果的呈现与交互。从总体来看,国内外研究均缺乏对多来源、多类型和多粒度层级的聚合对象之间关联关系的挖掘以及情境信息的表征与揭示,此外对于信息聚合需求与行为等方面的关注也较少,并且没有充分考虑聚合前或聚合过程中可能出现的协同或冗余效应等问题[119]。对此,未来研究可以首先应用跨文档结构理论、互文性、多文档文摘等理论与技术,深入挖掘多个不同信息对象之间各种复杂的关联关系,并关注如何保留信息片段所处的整体情境,帮助用户更好地作出选择和判断;其次,将聚合行为置于人类信息搜寻过程之中,调查和明晰这一阶段中用户与系统的不同任务与角色,促进人类与系统之间的交互,提升人类在信息搜寻过程中信息查寻和获取的有效性;最后,进一步重视聚合前信息对象的质量与一致性问题,尤其是聚合前信息对象的筛选与评估问题,以及知识或信息聚合可能带来信息量的增加或减少的问题,关注从用户角度出发来使这种异质性组成部分的关联效用达到最大化。