王志红 ,曹树金 ,刘奕群
(1. 清华大学计算机科学与技术系,北京 100084;2. 北京信息科学与技术国家研究中心,北京 100084;3. 中山大学信息管理学院,广州 510006)
过程可以认为是事件或活动在时间维度上的一种表现。任何事件或活动都可以描述为一个过程,如完成某个任务、制订一个计划、做出某个决策等[1-3]。信息交互,包括信息搜索在内,是一种与信息有关的复杂人类活动,也会在时间维度上表现出相应的特点[4-5]。特别是,在当前泛在化的智能环境下,用户越来越习惯于依赖各种智能设备和系统,在日常生活、工作和学习等各种场景下获取解决问题的可用信息。因此,在工作任务驱动的复杂信息需求下,用户通常需要与信息系统开展多轮交互才能满足其信息需求,并且解决当前所遇到的问题。在这种多轮交互中,用户会开展各种各样的信息活动,如信息搜索、信息加工、信息分析与综合等。其中,信息搜索本身就是一个多阶段过程[6];信息交互更是涉及两个或两个以上主体的信息交换活动,与过程存在密切的关联关系,其关键特点是迭代式周期和反馈循环[7]。例如,Toms[8]将信息交互定义为整合用户、内容和系统三个方面,以便将内容传递给用户的复杂过程。虽然已有研究或隐性或显性地认识到信息交互(包括信息搜索在内)的过程性特点,但是信息行为领域知名学者Savolainen[9]曾指出这一过程的本质仍然有待挖掘。
从当前信息行为领域的成果来看,经过半个多世纪的发展,研究者们已经提出了大量信息行为理论或模型。在社会科学中,理论一般可以分为两种类型,即变量理论(variance theory) 和过程理论(process theory)[10-11]。变量理论关注的是各因素或概念之间相互关系的理论,通常是使用少数几个变量来解释某个现象,适用于预测不受自变量时间顺序影响的特定结果;过程理论关注的是事件产生、发展以及消退等变化模式和机制,强调的是事件在时间维度上的发展序列以及事件变化的概率性[12],可以进一步分为生命周期理论、目的式理论(teleological)、辩证式理论(dialectical)和演化模型[13]等不同类型。利用过程理论,不仅可以分析事件发展过后形成的最终结果,还可以分析事件发展过程中产生的实时结果和中间结果[14-15]。因此,构建过程理论所依赖的数据具备高时空流动性、高度复杂的情境因素以及界限模糊、多层次的分析单元等[16]特点,可以通过测量和分析不同的事件模式对不同类型结果的影响,解释更加复杂的社会现象以及预测变化的一般性模式。在信息行为领域中,信息交互正是这样一种受时间影响的复杂现象。虽然有研究者已经从过程理论这一视角出发来开展研究并构建相应的模型,如Kuhlthau[17]和Marchionini[18]的信息搜寻过程理论可以直接从名称看出其包含过程思想,但是鲜有研究者明确指出其理论是属于变量理论还是过程理论;且几乎未有研究对这些过程导向的理论或模型进行系统性梳理,并从不同角度对这些理论或模型进行分析和比较。而对这些过程导向下的信息交互理论或模型进行比较和综合,有利于从过程理论的视角对信息交互行为进行更加深入和综合的理解,对信息系统开发和设计提供更加具体和精细化的启示或指导。
因此,本文将以过程法为出发点,借鉴过程哲学、管理学、工程管理等领域中对过程法及过程研究的解释,首先厘清我们对于过程本质及组成要素的理解;然后,通过系统查找和筛选面向过程的信息交互模型,对这些模型进行分类和梳理,并从一般性过程模型的组成要素,如阶段组成、阶段间关系、过程的输入输出要素以及约束因素等进行对比和讨论,对这些模型进行比较和分析;最后,从信息交互过程的时间维度、驱动因素以及系统评价方面提出一定的启示。
早在古希腊以及我国春秋战国时期,哲学著作中就存在大量与过程有关的描述,如“人不可能同时踏入两条河流”“子在川上曰,逝者如斯夫”等,也与恩格斯[19]在《费尔巴哈和德国古典哲学的终结》中论述的“世界不是既成事物的集合体,而是过程的集合体”等相吻合。在这种思想的强化之下,西方哲学逐渐形成了过程哲学思想体系。其基本观点认为,现实世界是一个过程,即现实实在或最终实在的“生成”(becoming)[20],主要关注的是生成的事物及生成方式。事物有两种生成方式,一种是现实实有本身的生成,另一种是从一种事物向另一种事物的转变。在现实实有从一个阶段到另一个阶段发展的过程中,每个阶段都是其后续阶段向该事物的完成发展中的实在基础[20]。事件发生的过程既会影响未来过程,也会受到过去和未来过程的影响[21]。
因此,过程可以理解为事物的一种时序式发展,并可根据其中各个阶段的时间结构性序列来分析[22]。这一界定包含两层要素,一个是时间的阶段性要素,另一个是时间的方向性要素。阶段性要素与事物生成的时空位置有关,但不一定与时间的方向性有关,比如,活动就没有考虑时间方向性。据此,过程可以分为活动式的非发展性过程与完成式的发展性过程,后者可以继续分为线性的阶段式过程和迭代性的循环式过程。在图书情报学领域,阮冈纳赞的名言,即图书馆是一个生长着的有机体[23],受到了研究者们的盛赞。可见,过程哲学思想一定程度上受到了本领域研究者们的认可。
过程法已被广泛应用于各个学科领域,如管理学、教育学、心理学等。在管理学领域,一个商业过程被定义为在一个特定的组织结构情境中,为实现某个商业或政策目标的相互关联的程序或活动集合[24]。更一般地,2015 年修订版ISO 标准(ISO 9001)[25]将过程解释为使用输入来产生目的性结果的相互关联或交互性的活动集合,其中输入和输出可以是有形的或无形的,如数据、信息或知识。通过对过程中的各种活动加以管理,可以更有效和高效地实现一致且可预测的结果[26]。教育学领域存在类似的定义,但是更强调过程中以特定次序发生的阶段或行动是有目的性的,而不是随机发生的[27]。在技术管理领域,一个过程包括识别、选择、获取、开发、保护等行动组成的循环[28]。在信息系统开发领域,Newman 等[29]提出过程模型需要强调项目开发中社会行动者之间的交互以及项目的情境因素。在信息行为研究领域,Savolainen[9]指出从过程法出发开展研究的两个重要方面,包括信息搜索过程中各个组成部分的出现次序及其发生的变化。在心理学领域,过程性被视为心理学的本质之一,如心智、感知、体验及动机等均是一个动态交互的过程[30]。例如,动机是一个复杂的决策、行动实施和控制过程,其过程模型包括行动前阶段、行动阶段和行动后阶段[31]。
在具体的学科应用中,过程法主要是用于解释一个实体如何发生、发展和变化的思维或方法,可以加以定义、管理、测量和控制[32]。参照上述定义,我们认为过程可以定义为在特定情境下,通过某些输入要素来产生目的性输出的相互关联的有序活动或事件序列集合。可见,过程的界定包含输入、输出和相互关联的事件序列三个要素。这与Newman 等[33]提出的过程模型图相一致,如图1 所示。根据事件起点和终点之间是否存在反馈循环,分为迭代性的循环式过程和线性的阶段式过程。除了事件的起点和终点之外,事件的发展过程中也可能存在各种反馈关系,图1 为了简便,只画出了事件起点和终点之间的连接关系。
由于现有的信息行为理论或模型中,很少有研究者明确指出该理论的提出采用的是过程法,因此,本文主要采用文献回溯法,辅以文献检索法来收集相关文献。首先,我们以信息行为领域的主要专著或综述作为起点,专著如Search User Interfaces[34]、Looking for Information:A Survey of Research on Information Seeking, Needs, and Behavior[35],相关综 述 如 Robson 等[36]、 Kundu[37]、 Dinet 等[38]、 Knight等[39]、Savolainen[9]等,从中收集和整理相关的理论或模型。通过这种引文回溯的方式,我们一共收集了50 个模型。进一步查找这些模型对应的原文,通过阅读摘要或者全文,根据模型纳入标准进行筛选,共得到15 个模型。本文的模型筛选标准包括:①理论或模型是否与信息交互这一问题有关,这里的信息交互采用较为广义的定义,即不仅包括信息搜索,还包括信息加工与处理等搜索后的信息交互活动;②理论或模型是否描述了信息交互的时序发展过程或者明确列出信息交互的具体阶段;③模型或理论是否为原创性的,或者在已有模型基础上做出了一些较大的改动。
其次,结合文献检索方法,利用数据库如LISA(Library and Information Science Abstracts)、 CNKI(China National Knowledge Infrastructure)以及Google学术搜索引擎等,进行更广泛的查找。其中,构建的检索策略为“process* or stage* or cycl* or temporal*” and “information behavior or information seeking or information search* or information retriev*”。通过导出检索结果并查看题录信息,发现大部分文献仍然是以信息交互中的经典理论或模型为基础进行研究的,如Kallehauge[40]以Wilson 的问题解决模型[3]为基础分析不确定性在基于阶段的信息搜寻过程中的减少;Taylor[41]以Kuhlthau 的信息搜寻过程模型[17]为基础调查不同阶段下相关性判断的变化。通过筛选之后,在第一阶段结果的基础上增加了8 个模型,如通过CNKI 检索新增1 个模型,即甘利人等[42]提出的模型,通过Google 学术检索获得了教育学、人机交互等其他领域的模型,如Rouet 等[43]提出的模型。最后,在开展研究的过程中也保持动态更新,随时补充可能相关的一些理论或模型。
由于信息交互的整体研究倾向为以行为为中心转向以认知为中心,从关注信息交互任务本身转向关注工作任务,行为和认知仍然是当前信息交互研究的两个重要层面[44]。此外,信息交互是嵌入在工作任务中的一个组成部分,正如Byström 等[45]提出的分层任务框架所指出的。可见,信息交互过程模型的提出也以行为过程、认知过程和工作任务过程为主要的研究指向。此外,Hearst[34]在书中对模型进行分类时将已有模型分为标准检索模型、认知模型、动态模型、阶段过程模型、策略过程模型及意义建构模型。这一划分方式的问题在于类别之间不具有互斥性,如认知模型和意义建构都是指认知层面。此外,划分的依据混淆了过程法的特点和信息交互的不同层面,如阶段过程模型和动态模型可以对应于过程理论的生命周期模型和演化模型,前者需要明确列出生命周期的具体阶段,后者只是描述由于内外部因素导致的事件或活动的变化过程;同时,这两类模型既可针对信息交互的认知层面也可以针对其行为层面。据此,我们主要以信息交互本身的研究层面为依据进行划分;当无法有效区分信息交互不同层面时,再以过程法的分类为基础进行划分。因此,我们将现有模型分为认知过程、行为过程以及工作任务过程三类。对于那些未从这些层面进行明确区分且没有提出过程的具体阶段组成,但是又在一定程度上阐释了信息交互的时序发展变化的模型,如Bates 的采莓模型[46],我们将其称为动态演化过程模型。需要指出的是,由于行为与认知之间界限的模糊性(从广义上看,认知可以视为行为的一个方面),划分认知过程和行为过程时我们主要考虑认知还是行为在模型中占主导。
3.2.1 采莓模型
基于对情报学中信息检索经典模型局限性的批判,Bates[46]提出了采莓模型(berry picking model)。该模型与经典模型之间的主要差别在于四个方面:查询式的本质、搜索过程的本质、搜索技术范围和实施搜索的信息域。在实际生活中,随着检索的不断开展,用户会不断从他们所检索到的信息中获得新的想法以及用于构建查询式的新概念,因而查询式本身是不断变化的,Bates[46]将这种搜索称为进化式搜索(evolving search)。因此,一个搜索过程是由许多对应于不同概念的查询式搜索阶段构成的,在每个阶段用户都可能会识别有用的信息,只有这一系列的选择行为才能满足用户的信息需求。Bates[46]用采莓来隐喻式地描述了这种一次选择一点信息(a bit-at-a-time)的搜索模式。采莓模型关注的重点是搜索者的行为序列,即信息搜索是由多个阶段组成的一系列行为过程,但是该模型仅是较为定性地描述了信息搜索的动态本质。
3.2.2 信息觅食理论
信息觅食理论(information foraging theory)是由Pirolli 和Card 提出的,从信息获取成本和价值的角度分析与信息获取有关的人类活动[47-48]。信息觅食是指通过优化信息搜寻者的注意力分配,提高单位时间内获取和抽取相关信息的适应性信息搜索。Pirolli 等[49]进一步从不同的时间跨度,包括微观认知范围(100 ms~10 s)和宏观行为范围(数分钟到数小时),提出了信息觅食的三个模式,包括信息批块模式(information patch model,也可译为信息斑块)、信息气味模式和信息饮食模式。在信息觅食中,觅食者首先需要确定觅食范围或批块(包括多个文献或单个文献的内容集合);然后通过信息气味或可获取的近端线索(如标题、摘要、关键词等)来评估信息相关性或价值,并决定具体的觅食对象;最后,信息饮食关注的是信息项选择和追踪的决策与活动。在信息气味模式中,随着觅食者逐渐获取各种线索,其状态会不断改变。此外,信息觅食中相关性的评估与其嵌入的任务情境有关,觅食信息的价值最终体现在任务效果的提升上。因此,信息觅食是一个循环过程,由信息搜索、过滤、阅读和抽取等活动组成。
3.3.1 问题解决视角
受已有研究[50]的启发,Wilson[3]围绕不确定性理论提出了信息搜索的问题解决过程模型,他指出,信息搜索是一个由个体所面临的问题引发的不确定性逐渐减少的过程,该过程包括四个阶段,分别为识别和提出问题、定义问题的本质、找到问题解决的方式以及解决方案声明,相邻阶段之间存在一个反馈式循环。Marchionini[51]认为,信息搜索作为一个迭代式的问题解决过程,包括识别和解释信息问题、构建搜索计划、执行搜索以及评估结果;随后,他从理解层面、计划和执行层面以及评估和利用三个层面进一步区分了信息搜索过程中的阶段[18]。理解层面包括三个阶段,分别为识别问题或需求、接受问题和定义问题;计划和执行层面包括选择信息源(如搜索系统)、构建查询式、执行查询式和检视结果;评估和利用层面包括检视、抽取信息、反思或迭代或停止;各子过程之间具有比较复杂的转换或递归关系。在后续研究中,他们对该过程的组成进行了细微的改进[52]。类似地,Sutcliffe 等[53]提出的信息搜索认知过程模型也以问题识别为第一个阶段,紧接其后的是信息需求表达、查询式构建或重构以及结果评估。
3.3.2 意义建构视角
有研究指出,信息搜索和利用是广义上意义建构过程的一个子过程[54-55]。意义建构是指面对现实世界时的一种内在的概念性表征行为及内在行为外化的过程,是信息搜索(包括环境扫描等)、解释或意义归属(meaning ascription)和行动三者的互惠性循环交互过程[56-57]。该过程具体包括信息收集、认知图式(schema)中信息表征形成、通过表征获得洞察、基于该洞察创造知识产品或影响行为四个阶段。在意义建构视角下,信息搜索可以分为自底向上和自顶向下两种过程。自底向上过程包括从外部数据源搜索、过滤和收集文献,阅读和抽取可用于进行推理、支持或否定理论的证据片段,利用已知图式来表征并组织抽取得到的证据片段,通过编辑和整理证据来构建理论或案例,以讲故事的方式展示或发表。自顶向下则是一个反向的过程,通过获得的反馈进行重新评估、搜索和检视信息中的证据及其关系等。特别地,当用户已有的认知图式不充分的情况下,为了构建一个结构化表征,用户的信息搜索过程包括形成表征结构、产生结构化信息需求、构建查询式、搜索以及探索、识别与抽取结构[58]。Cole[59]甚至提出信息本身就是一个过程(information as process),组成阶段包括信息过程的开始、产生表征性或认知活动、佐证所找到的证据、证据确认或证伪以及信息过程对知识结构改变的影响。
德尔文的意义建构理论是信息行为领域最经典的理论之一,其指出,信息搜索和利用行为是对时空变化情景下的一种动态性响应[60]。该理论隐性地揭示了信息搜索和利用行为的时序或过程特点。据此,有研究者将信息搜索和利用视为行动者感知情景的动态变化,提出了意义建构理论的过程化模型[61]。通过对审计师开展调查发现,信息搜索和利用过程中存在七种不同的情景,并归入五个阶段中,包括任务启动、焦点形成、想法形成、想法敲定和想法传递。其中,想法形成包括想法假设、想法确认和想法拒绝三种情景。
3.3.3 学习过程视角
随着图书情报学从传统书目范式向建构主义学习范式的转移,信息行为研究也从信息来源的获取过程扩展到包括搜索结果交互和利用的过程[62]。信息作为改变知识结构的东西[63],信息交互自然与学习具有密不可分的联系,体现在搜索是一个学习工具(如搜索以促进学习等)以及搜索本身是一个学习过程两个方面[64-67]。本文主要关注后者,也称为“搜索即学习”理论[68]。在该理论指导下,Vakkari[62]提出了信息搜索的四个阶段:搜索形成(包括信息需求表达和查询式构建)、搜索结果选择、搜索结果交互以及综合和呈现。这个过程就是一个通过不断收集和综合各种信息进行学习的迭代式、反思式和整合式过程。
实质上,意义建构也是一个学习的过程[69]。Zhang 等[55]结合学习理论和意义建构理论,提出了信息搜索和利用的认知过程,包括分析任务以识别鸿沟(包括实例鸿沟和知识结构鸿沟)、探索性信息搜索阶段(一般性信息)、焦点化信息搜索阶段(特定的信息)和更新知识表征或产生学习效果。具体而言,信息搜索进一步包括决定信息需求、制定搜索策略、构建概念性查询式、搜索和序化信息来源、针对特定来源构建查询式、执行搜索、检视结果、编辑结果以及评估结果的有益性。
3.3.4 焦点形成视角
Kuhlthau[17]提出的信息搜索过程模型也是信息行为领域中的经典模型之一。Kuhlthau[17]明确指出该模型的提出采用了一种过程方法,尽管没有提供充分的解释。Kuhlthau 模型包括六个阶段,分别为任务启动、主题选择、前期探索、焦点形成、信息收集和搜索结束,并从感觉、想法和行动三个维度对每个阶段进行了详细的论述。该模型虽然不算是纯粹的认知过程模型,但是由于焦点形成在该模型中起到重要的转折作用,因此我们将该模型归入焦点形成视角这一类。Kuhlthau[17]将这些阶段之间的关系描述为一种次序或线性关系,前一阶段的结果往往是下一阶段的驱动力。基于Kuhlthau 模型[17],Vakkari[70]通过一系列实证研究,构建并检验了基于任务的信息检索模型。在该模型中,Vakkari[70]根据焦点形成过程,将Kuhlthau 模型中的六个阶段简化为聚焦前、焦点形成、聚焦后。类似地,Kennedy等[71]根 据 Kuhlthau 模型 、MacMullin 和 Taylor 的 焦 点连续体[72]以及Harter 心理相关性[73],进行了相同的划分。Xie[74]也将聚焦前、焦点形成和聚焦后三个阶段视为工作任务过程维度下的表现,并开展了实证研究。
3.4.1 行为执行过程
一般的人类行为执行过程可划分为七个阶段,包括形成目标、计划行动、指明行为次序、执行行为次序、感知世界状态、阐释知觉、比较结果与目标[75]。在人机交互中,交互行为过程简化为四个阶段:期望目标或意图形成、行为选择、行为执行(如执行指令等)和结果评估(包括系统状态、意图、已执行的行动和结果等)[76]。当这一行为次序由目标所驱动时,称为目标驱动的行为;当行为循环由某些事件触发时,称为事件驱动或数据驱动的行为。特别是对于前者,其行为执行过程会涉及一定的认知行为(指人的心智活动,是一种广义上的行为),因此在行为过程模型这一类别中很少有只涉及行为(指可观察到的人类活动,狭义上的行为)而不涉及认知行为的模型。基于人机交互过程模型,Simon[77]提出了与决策相关的信息搜索过程,包括情报(intelligence)采集、设计、选择和评估。第一个阶段是收集和处理来自环境的原始数据来识别问题;在第二个阶段,行动者要澄清问题、评估潜在方案的可行性以及设计即将开展的行为过程;在第三个阶段,行动者需要选择和实施一个可行的解决方案;最后一个阶段就是对结果和过程进行评估。Wilson[78]通过整合Norman[76]和Simon[77]的模型,认为信息搜索过程包括情报采集、意图或目标形成、设计、选择、信息抽取和整合,以及评估这六个阶段。
3.4.2 信息交互的基本组成与模式
Ellis[79]认为,信息搜索是一些基本行为特征组合的活动模式,特定的模式对应着特定的基本行为特征的序化与组合。通过一系列研究,Ellis 等针对不同领域提出了相应的模型,如社会科学家[79]、化学家和物理学家[80]、工程师[81],他们经过进一步比较发现不同群体的行为模式不存在重大区别。一般而言,这些模式包括开始、引文链接、浏览或半导向式视觉搜索、区分或过滤、监控或跟踪最新进展、抽取或定位信息、结束[82]。尽管上述Ellis 模型并未明确提到采用了过程法,但是实际上这些模型描述的是信息搜索行为中相互关联的各个阶段[83]。为此,Wilson[3]通过考察基本行为特征的时序关系,提出了Ellis 模型的过程修订版本,如浏览、链接和监控是位于开始之后的同一个阶段的三种不同行为方式。同样Meho 等[84]也基于Ellis 模型,提出了四阶段模型,包括搜索(启动识别相关和潜在相关材料)、获取信息、加工处理(综合和分析收集到的信息)和结束。Makri 等[83]认为存在比基本信息行为特征更高阶的行为,可以概括为三个阶段,即识别与定位、获取、选择与加工处理,并且这些阶段分别对应不同的基本信息行为特征。
3.4.3 细粒度信息定位过程
基于教育心理学中的细粒度信息定位模型[85-88],Toms[8]提出了信息交互过程模型,包括启动、目标识别、类别选择(category selection)、线索注意(note cues)、阅读和信息抽取、信息整合、评估和结束。其中,目标识别阶段涉及表达细粒度信息发现的目标;类别是文献结构化特征组织中的重要维度,如报纸中的栏目、表格中的行或论文中的章节等,类别选择是通过发现文献的组织方式、可用的特征等来检视适当的信息类别;线索是指影响用户信息扫描方向的地标,类似于文本信号设备(signaling devices)、超文本文献的结构和链接等,文本线索会将用户注意力吸引至某一个信息类别上;信息抽取是从相应的类别中抽取有用的或相关的信息,如满足相应的目标或回答问题;整合是将抽取的信息与已获得的信息或已有知识进行整合,来综合与目标相关的所有概念;评估就是对过程和结果的评估,此时可能会重复前面的过程直到搜索任务完成。
3.5.1 双层任务嵌套过程
对于信息密集型的工作任务而言,信息任务嵌入在工作任务的整个过程中,与工作任务之间相互缠绕,难以明确分割。在已有研究中,仅有少数模型对工作任务和信息任务进行了区分。例如,国内学者甘利人等[42]将用户的信息搜索任务视为工作任务这一问题解决过程中的一部分,并对两者的组成阶段及其对应关系进行了详细的阐释,认为嵌入在工作任务下的信息搜索过程包括工作任务问题、搜索问题、搜索方案、搜索执行、搜索问题答案、问题方案决策、方案执行、课题问题答案。其中,搜索问题对应着信息搜索过程的概念分析阶段,搜索方案对应着信息源选择、搜索式选择,而搜索执行对应(题目/文摘/全文)浏览和结果选择,搜索问题答案对应结果确定。同样,Tanni 等[89]区分了学习任务和搜索任务,在学习任务层面,从学习目标产生到学习结果这一过程包括三个阶段:任务建构、任务执行和任务完成,在完成学习任务的过程中任何一个阶段都有可能产生感知需求,并驱动搜索过程的执行,以及利用搜索获得的信息推动学习任务的完成。
3.5.2 基于任务的信息交互模型
Järvelin 等[90]以项目理论为基础,提出了基于任务的信息交互(task-based information interaction,TBII)模型,该模型探讨了贯穿于整个工作任务过程中与信息交互有关的一般性行为和认知活动类型。该模型将这些活动划分四个阶段和一个贯穿这四个阶段的认知活动,并根据项目理论梳理了这些活动的输入、活动、输出和效果四个要素,前一阶段的输出是后一阶段的输入。根据信息交互对象类型,这四个阶段的行为活动可以分为信息来源交互和信息项交互两种,前者包括信息搜索和信息选择,后者包括加工处理信息项(阅读)、综合与报告(写作)。计划和评估活动则贯穿这四个阶段。每个阶段中包括一些更具体的活动,比如,信息搜索包括选择渠道或系统、构建和表达信息需求、瞄准信息对象(home in on objects);信息选择活动包括选择表示、检视表示以及决策;在加工处理活动中,经过阅读、比较和关联、扫描和浏览以及注释等过程,可以获得所识别的语义组件以及对信息项和任务的增强理解;在综合和报告中,行动者会通过计划、转移和回顾,产生文献或相应的表示,从而获得学习和任务效果。Song 等[91]应用TBII 理论进行研究时,将任务阶段划分为搜索、阅读和写作三个阶段。
针对互联网环境下的文本阅读理解,有研究者提出了一个以任务为导向、以相关性为核心的模型,称为基于任务的多文档相关性评估和内容抽取(multiple-document task-based relevance assessment and content extraction,MD-TRACE)模型[43]。该模型定义了该过程中的五个核心阶段,及其所需的外在物质资源和内在认知资源。这五个阶段分别为创建或更新任务模型,信息需求评估,文献信息的选择、加工处理和整合,创建或更新任务产品,产品质量的评估。其中,第三个阶段可以进一步细分为信息项相关性的评估、加工处理文本内容以及创建和更新文档模型。
3.5.3 工作任务中的信息实践
相比于信息行为,信息实践强调的是信息搜寻、使用和分享所嵌入的工作任务等情境因素及其作用[92]。在学术研究领域,不同工作任务存在一些共同的基本活动,称为学术基元(scholarly primitives),如关联、抽样、发现与呈现等[93]。Palmer等[94]指出,这些学术基元及所组成的信息活动可能出现在项目或研究中的任意阶段,如数据收集、分析和传播过程,并强调学术研究实施过程中信息的显性作用;他们调查发现,学术研究过程中涉及的五种核心信息活动包括搜索、收集、阅读、写作、合作;其中,搜索活动下的学术基元包括直接搜索、引文追踪、浏览、探查和访问,收集活动中的学术基元包括聚集和组织,阅读活动对应的学术基元包括扫读、评价和重读,写作活动则包括汇编、合著和传播三个基元。贯穿不同学术信息活动的交叉性基元包括跟踪最新进展、记笔记、转译和数据实践四种。
已有研究指出不同学科在学术信息实践和学术基元方面存在一定的差异[95]。例如,传播学研究中的信息活动包括启动或探索、汇集、分析和呈现阶段[96],历史学研究的信息活动包括确定所要查找的入口或来源、搜寻已知材料、构建情境知识以及识别相关的材料[97],人文学者的信息活动包括收集、数据预处理、组织文献、记笔记和注释、追溯(如搜索和定位文献来源及笔记、追踪文献间交叉参考等)[98]。可以发现,搜索、阅读和写作是学术研究等信息密集型工作任务中的重要组成阶段。Kavli等[99]指出,应该将Kuhlthau 模型[17]与写作过程相结合,提出了信息搜索与写作过程模型,该模型包括开始,获得概览,发现和组合关键词,搜索、评估、收集和写作,以及结束(包括质量控制、呈现和过程评价)。随着信息搜索中的主题选择、聚焦前探索、焦点形成到信息收集过程的进行,写作过程也逐渐从探索到孵化想法到撰写初稿,再到对初稿进行修改或重写(此时可能回到焦点形成阶段),最后通过质量控制等对终稿进行编辑和打磨。
从一般性过程模型的各个要素出发,我们对上述模型进行了总结和梳理(表1),包括模型的阶段组成、阶段数量、阶段间关系、输入和输出以及约束或影响因素等方面。在表1 中,是否为循环过程指的是最终阶段与初始阶段之间是否存在跳转关系;阶段间关系强调的是除初始和最终阶段之外,组成事件序列的其他各阶段间的转换关系。其中,顺序式前进和顺序式反馈是指阶段间不存在跨阶段跳转关系,两者的差别在于相邻两个阶段之间是否存在后向传播关系,顺序式反馈为后一个阶段跳回前一个阶段,否则为顺序式前进。跳转式反馈指的是后向传播可以跨越多个阶段,多方向跳转是指阶段间存在各种可能的跳转关系,没有特定的跳转模式。由于Bates 采莓模型[46]没有特别指出模型组成阶段,Palmer 模型[95]多是描述学术信息实践中发生的活动,没有提出流程化的框架,此外行为执行过程有关的模型虽然与信息交互有关但是比较一般化,因此这些模型将不纳入后续的比较中。从表1可见,不同模型之间具有一定的共性和差异,且差异大于共性,特别是不同类别的模型之间,而同一类别中的模型之间存在更多的相似性。
表1 不同模型在阶段组成、数量、关系及输入与输出方面的比较
续表
在这19 个模型中(表1),大多数模型的阶段数量集中在4(6,31.6%)和5(5,26.3%),最少为3(2,10.5%),最多为8(2,10.5%)。对各个类别内不同模型的阶段数量进行平均,发现任务嵌套过程这一类别下模型包含的阶段数量最多,这是因为模型涉及工作任务和信息交互两个层面,需要描述并结合不同层面的阶段组成。从是否为循环过程来看,大部分模型(12,63.2%) 为循环过程,少部分模型(7,36.8%) 为非循环过程。对于前者,当任务结果不满足任务要求时,行动者需要返回到初始阶段进行迭代。这一结果反映了大部分现有模型考虑到了信息交互过程的非线性或迭代性的特点。从阶段间关系来看,首先有将近一半(8,42.1%)的模型将阶段间关系描述为顺序式前进的模式,其中分别有一半的模型是可迭代的循环过程和不可迭代的非循环过程;其次,有较多的模型为跳转式反馈(6,31.6%),并且所有模型都是迭代性的循环过程,即这类模型认为信息交互过程存在包括内部和外部在内的双重循环;最后,有部分模型(4,21.0%)认为信息交互过程中的阶段之间存在多方向的跨越式跳转,相邻阶段之间不一定存在严格的顺序性,这类模型通常具有很强的灵活性。可见,仍然有较多的模型没有考虑阶段间的各种跳转关系,或者没有明确地指出这种关系。然而,已有实证研究发现,任务后期(如结束阶段)也有一定的概率会返回到前期阶段,且涉及各种信息交互活动[81]。
除了模型的阶段数量及阶段间关系之外,需要更具体地考察模型的内部组成,特别是模型的起始点。Cole[59]指出,信息需求和利用过程一定是有起点和终点的。从模型的起点来看,大部分模型均认为信息交互过程的起点是问题情境(工作任务问题或信息任务问题)或是由此产生的目标或意图,通过启动、识别、定义、分析或选择等认知或行为操作,产生相应的问题意识。例如,问题解决和学习过程视角下的信息交互过程起点几乎都是问题识别或任务启动。从模型的终点来看,除了结束(主要是在非循环过程模型,如焦点形成视角和行为基本组成两个类别下)之外,大多数模型以评估阶段作为结束。但是不同模型中的评估具有不同层次的含义,主要包括两个方面:对搜索结果的评估(评估搜索结果的相关性)和对任务完成过程及效果的评估。两者分别将信息交互行为限制在不同的范围内,前者主要关注人与检索系统之间的交互行为,即以检索结果检视和评估为标志来结束;后者是将信息交互行为嵌入在整个任务过程中。另外,这一差异也体现在信息交互模型中是否包括搜索之后的阅读、写作等阶段,因为信息搜索对应的结果主要是检索结果,而写作是一种与任务产出更加密切的行为,其结果更多的是任务产品。
经过对模型的仔细调查发现,在所有模型中,一半左右的模型完全没有提及信息交互过程的输入和 输 出 要 素 , 分 别 为 10 个 (52.6%) 和 8 个(42.1%),其他一些模型也仅是比较片面、笼统地提及该过程的输入或输出。从模型的输出来看,已有模型的输出主要包括认知更新和物理产品两个层面。进一步从阶段性来看,这两个层面都包括不同形式的中间性产品。由于认知是贯穿在整个过程中持续不断发生的,因此从认知层面的中间产品(包括从产生开始)到最终输出可以认为是较为连续的,主要表现为确定性减少(Wilson 问题解决模型[3])、知识表征更新 (Zhang 和 Soergel 模型[54-55])、学习效果(Tanni 和Sormunen 模型[89])以及对任务的理解(Järvelin 模型[90])等。在物理产品层面上,现有模型的最终输出主要概括为任务产品或结果,如某个决策或解决方案,任务产品会根据问题领域的不同而不同,中间性产品可能是书面交流、学习笔记等。Järvelin 等[90]的模型还特别指出,根据信息交互过程的推进,每个阶段获取的信息粒度将由粗到细,相关性也将由一般到具体,从而会产生不同的中间性产品,如搜索结果、相关信息项、语义组件等。通过与不同类型及不同粒度信息资源的交互,用户会在该过程中获得对任务和可用信息的强化理解,并在交互结束时获得任务与学习上的效果。
已有模型没有严格区分输入要素与影响因素,但是它们都提到了信息交互过程的各种约束或影响因素。通过将这些模型所提到的输入及影响因素中的相似因素进行逐步归类和综合,我们将这些因素总结为信息因素、情境因素、任务因素和个体因素四种。信息因素是指与外部信息环境以及可用信息对象有关的因素,其中提及最多的是信息源或数据源,如Cheuk 模型[61]提到的通用性信息源、Järvelin模型[90]的信息源、Rouet 模型[43]提到的搜索来源等;此外,还包括文本特征和文本内容,前者如文本组织方式、文本组织结构等。情境因素包括用户所处的时空场景和系统等外在情境因素,多个模型都提到了与系统有关的情境因素,但是说法不一,如Marchionini 模型[18]的搜索系统或者 Rouet 模型[43]提到的搜索设备、Sutcliffe 和Ennis 模型[53]提到的系统设施、Pirolli 和Card 模型[49]提到的工具或系统、Vakkari 模型[62]提到的支持工具、Meho 和 Tibbo 模型[84]提到的搜索或获取工具。任务因素主要分为三类,包括外部任务说明或作业、感知任务及需求、任务时间等,未见有模型提到任务的其他方面,如任务复杂度、困难度等。个体因素是模型提及最多的方面,具体包括用户知识(如领域知识、系统知识、常识知识等)、认知能力(如自我效能、自我调节技能、工作记忆能力等)、已有经验与技能(如任务经验、搜索技能、阅读技能等)、个体统计特征(如年龄等)等因素。在这些因素中,提到用户知识的模型是最多的,达12 个,其中有7 个仅提到了用户知识或已有知识。可见,信息交互的不同阶段可能具有不同的输入因素或者受到不同因素的影响;需要指出的是,除了Järvelin 模型[90]之外,其他模型几乎没有或只是相对零散地对每个阶段涉及的因素进行了分析。
5.1.1 信息交互过程的时间维度
尽管上述模型存在较大的差异,但是这些模型一致认为信息交互是一个动态过程。这个过程中用户的行为、认知及情感会发生各种各样的变化[100]。因此,时间维度在该过程中显得格外重要。在时间分类或者维度划分上,根据时间长短可以分为短时间片段(an episode)、具有明显起始点的较长时间间隔(an interval) 以及一段连续性的长时间段(an eon)[101]。更进一步地,信息交互中的时间可以划分为四个层次,包括问题解决时间、信息搜索时间、持续性搜索时间、检索时间[102],这些不同层次的时间具有不同的范围或跨度,对应不同的行为过程,通常前者的范围大于或包含后者。此外,有研究仅根据信息交互过程所需会话的数量将其划分为单会话和多会话两种,单个会话可以再简单地划分为前期、中期和后期三个阶段[103]。由此可见,由于信息交互具有多层次的特点(对应于任务的层次性),相应的时间维度也是多层次的。因此,在信息交互过程理论或模型构建之前,需要先界定所要考察的时间所对应的层次或者跨度范围,如果仅将信息交过程定位在信息检索时间(最低的层次)或者单会话过程,很可能会相对局限和片面,无法从整体的角度考察支持用户信息交互的系统对于整个任务或问题解决(最高层次)所起到的作用。
5.1.2 信息交互过程的驱动因素
一个系统的变化,通常会有一个驱动力或因素持续发生作用,现有模型几乎未考虑信息交互过程中的驱动因素。除了MD-TRACE 模型之外,大部分模型都只是非常隐式地提到并解释相关性在该过程中发生的作用。MD-TRACE 模型明确使用相关性命名模型,并且明确提出判断或评估信息项的相关性是该过程中的一个重要阶段,同时在模型的解释中具体提出了相关性判断依据的标准。由于部分相关性与不确定性存在一定的因果关系[104],Wilson 问题解决模型[3]也将部分相关性视为模型解释的基础,但是该模型仅提到不确定性的减少是一个重要的驱动因素,并未进一步阐述部分相关性是如何与之关联的。另外,Zhang 和Soergel 模型[54-55]中指出,相关性类型的划分能够为更好地揭示信息片段对于任务的有用性提供基础。Kuhlthau 模型[17]则较为明确地指出了在不同的信息交互阶段,用户所需要搜索和获得的相关信息是不一样的。在任务启动和主题选择阶段,用户想法较为模糊,需要识别背景性信息以及用于调查的一般性主题;到前期探索和焦点形成阶段,用户更希望搜索相关的信息来加深对主题的理解;在信息收集阶段,用户会更加全面地搜索可用的信息来源,获得更加切题(pertinent)或聚焦的信息。
由于信息交互过程属于自身体验信息世界的一种方式,可以借用舒茨的生命世界及相关性理论[105]来进行解释。舒茨认为,意义建构是对现实世界或生活世界中的事物进行类型化(typification),并将其应用于解释现实世界中新的刺激或体验的过程[105],其中相关性扮演着至关重要的作用;他提出,个体在进行类型化的过程中,需要依次评估现实世界事物的主题相关性、解释相关性(相对于个体认知能力)、动机相关性(相对于个体所处情景和兴趣)。由于个体处理能力有限,无法表征和建构现实世界中的所有刺激,所以该过程是一个与相关性有关的选择性注意过程。可见,信息交互从本质上来说是以相关性为基础的渐进式过程,其本质目的是通过不断地迭代式交互,获取对于任务有用的信息,以支持任务的完成。因此,任务完成中的信息交互过程受到不同类型相关性的影响。通过调查和研究相关性类型以及感知程度在信息交互过程中的变化,可以更好地解释信息交互过程的不同模式以及不同模式下的用户认知与行为特点。
5.1.3 面向过程的系统评价和优化
虽然信息系统评价一直以克兰菲尔德范式为主流,但是研究者们不断批判和改进传统系统导向下的评价指标,逐渐在评价指标中增加特定的用户行为假设[106],以更加真实有效的评价系统性能。例如,相比于仅考虑检索结果中相关结果的数量及其排序等方面,与效用有关的指标,如RBP(rank-biased precision),假设用户一定会按次序从上至下检验检索结果直至停止,且用户会按特定的概率检验某一结果等。目前,这些用户行为启发的评价指标基本上是以单会话搜索引擎结果页面(search engine results page,SERP)或检索结果上的用户行为模式作为基础,即限制在信息检索时间这一层次。由于研究者们愈加一致地认为信息检索系统应该是一个支持用户任务的智能信息获取工具,因此应该考虑将更大时间范围内的用户行为模式纳入系统评价指标设计中。例如,Vakkari 等[107]建议进一步使用信息利用有关的行为来反映检索系统的真实效能,并以此来设计和开发系统评价指标。
除了考虑不同时间跨度内的用户行为特点之外,还可以直接应用时间及其变体作为系统评价指标设计的基础。例如,Savolainen[108]通过系统回顾发现,与将时间作为评估信息交互过程的指标有关的研究较少,并且现有模型很少明确且详细地阐述时间的作用。对于会话搜索场景,如果将整个信息交互过程的持续时长作为评价指标的一部分,如作为对用户努力程度的评估,会取得较好的效果。此外,信息交互过程中不同指标的整合也是需要考虑的一个问题,包括考虑不同时间层次下的评价指标之间的优缺点并进行整合,或者对评价指标再进行评价,以选择适合于不同场景下的评价指标。
本文首先分析了过程法及过程研究在不同学科中的含义,总结了通用过程模型的组成要素,随后系统性地回顾了过程法导向下的信息交互模型,并将这些模型划分为四种类别,分别对这些类别下的各个模型及其内容进行了比较和分析,包括模型的阶段数量、模型起始阶段及阶段间的转换关系、模型的输入输出以及影响要素等方面。研究发现,大部分模型均认为信息交互过程是一个迭代性过程,一半以上模型认为阶段间不仅存在顺序式前进的关系,而且还存在前后向甚至是多方向的跳转关系。同时,大多数模型均认为信息交互过程的起点主要是问题情境或外部任务,但是终点取决于模型所设定的时间层次或跨度范围,包括检索结果的评估或对整个任务的评估。模型的输入与影响因素主要在于四个方面,即信息因素、情境因素、任务因素和个体因素,每个方面进一步包括多个具体的因素,特别是个体因素方面;模型的输出包括认知和实体产品两个层面,每个层面除了最终的产品之外,还涉及各种中间性产品。由于篇幅等方面的限制,本文没有进一步具体考察各个信息交互过程模型构建及验证所采用的具体方法,也没有回顾系统导向下的信息检索领域中应用时序分析或建模方法的研究,如自回归、马尔科夫决策过程等,及其所构建的相应模型。这些内容将留待未来工作中进一步展开研究。
致谢感谢中山大学信息管理学院肖鹏副教授在论文写作过程中提出的建议。