黄梦婷 刘伟成
关键词:扎根理论;信息检索;感知价值;影响因素
摘 要:为了优化用户检索行为,提高用户检索效率,设计一个更加高效的个性化文献推荐系统很有必要。从用户视角切入,探索用户在信息检索过程中的感知价值影响因素,从而设计解决方案,使推送内容更加精确,可以有效解决信息过载问题。文章选择26名有丰富检索经验的用户进行半结构化访谈,基于扎根理论对访谈内容进行三级编码,发现感知价值受到用户主观性、文献客观性和平台服务三方面的影响,并对感知价值影响因素的作用阶段进行分析,发现高效的个性化文献推荐系统需要实现对用户和文献的正确刻画。
中图分类号:G250文献标识码:A文章编号:1003-1588(2022)01-0082-07
Web2.0时代,学者们可以在浩如烟海的数字资源里通过检索获得有可能满足需求的数据。开放获取运动为学者们获取超过自身接收能力的文献数据提供了契机,但同时也带来了信息过载问题。解决信息过载问题的方案之一就是设计一个更加高效的个性化文献推荐系统,从而优化用户检索行为,提高用户检索效率。用户的文献检索行为以期望消除不确定性为起点,以不确定性得到消除而结束,中间通过与检索平台的互动逐渐消除不确定性。互动是检索流程中的关键部分,包括用户选择检索平台、用户输入检索词、平台响应并返回检索结果以及用户浏览平台返回的检索结果四个动作,当平台返回的检索结果不能消除用户的不确定性时,用户会重新输入检索词。也就是说,在检索过程中,用户会经历一系列的隐式选择并做出决策,如:从多種检索工具中进行选择、确定检索词、筛选有价值的文献等,这些逐步消除不确定性过程中的影响因素正是本研究的研究重点。
1 研究现状
用户相关性用于判断用户需求和文档的直接关系[1],也是用户在检索过程中做出决策的支撑。目前,面向用户相关性的研究主要有两个方向:一个是基于计算机视角展开算法层面的研究,或是探索用户相关性的测度方法[2-4],或是基于用户相关性的效果增强研究[5-7]。另一个则是基于用户实际展开理论层面的研究,国内近期研究成果较为丰富和全面的是周国民、王健团队,他们针对科学数据展开研究;张贵兰主要研究了科学数据的相关性标准,包括内涵和使用特征[8-9],韦草原倾向于研究感知价值,他基于多因素说分析了感知价值的概念模型[10],构建了基于感知价值的科学数据用户相关性模型[11]。此外,该团队还对相关性标准、线索和感知价值之间的关系展开了研究[12]。近年来,国外倾向于从计算机视角对用户相关性展开研究,理论方面的研究较少。Javier基于社会网络分析法分析了推特上极端分子行为与用户相关性之间的关系[13],Ameer提出了一种观察用户交互行为的方法[14]。与其他数据相比,文献数据的个性化程度较高。现有的用户相关性研究中关于文献数据的内容较少且与用户的联系不够紧密,因此,笔者基于扎根理论分析用户是如何在一次次隐式选择中做出决策的。
笔者认为,用户相关性取决于用户的感知价值,用户的感知价值越高,检索结果的相关性越高,因此,笔者将从感知价值的综合评价说角度展开研究,基于Kuhlthau的信息检索模型设置访谈提纲,为访谈对象虚构出一次检索的完整过程,接着利用扎根理论分析有检索经验的信息检索者的半结构化访谈内容,从而使隐含的用户主观选择显式化为一个个影响因素。
2 理论基础
2.1 感知价值
感知价值原本属于市场营销学的概念,因为用户对文献相关性的评估类似于对产品价值的评估,都是依靠用户的感受或体验判断的,所以被引入图情领域。目前,定义顾客感知价值主要从权衡说、多因素说和综合评价说这三个角度切入[15]。权衡说将感知价值类比为“利润”(获得收益与投入成本之间的差额),代表学者是Zeithaml,他指出感知价值是顾客在权衡感知利得和感知利失之后的整体评价[16];多因素说则认为顾客感知价值来自特定的价值维度,代表论述是Sheth的五要素学说(实用价值、认知价值、社会价值、情感价值和约束价值)[17],以及Sweeney和Soutar提出的四要素学说(质量价值、价格价值、社会价值、情感价值)[18];综合评价说认为顾客感知价值来源于顾客对产品属性、功能或作用等方面的偏好或反感,是对产品的综合评价,其代表学者Woodruff指出,情境是研究顾客感知价值必不可少的一个因素[19]。在信息检索中,用户的感知价值更多取决于感知利得,再加上笔者研究的重点是其影响因素,因此权衡说和多因素说不适合本研究,笔者将从综合评价说角度进行研究。
2.2 信息检索流程模型
Kuhlthau从用户角度对信息检索过程进行了研究,他认为信息检索是消除不确定性的过程,随着检索的推进,用户的不确定性逐渐消除,认知也由模糊走向具体,动作从探索相关的信息(Relevant)变为寻找相关文档(Pertinent),并将情感因素引入检索过程[20]。Kuhlthau建立了一个信息检索流程模型(Information Search Process,简称ISP),具体模型见图1。
本研究主要探索用户在信息检索过程中感知价值的影响因素,因此笔者以Kuhlthau的信息检索过程模型为基础,根据其对信息检索过程的划分,对以下六个流程进行深入调查:一是“开始”。即用户意识到自身缺乏知识或理解,产生了检索需求。二是“选择”。即用户预测每种选择的结果并选择最可能成功的操作,从而确定要调查的不确定领域或主题要采用的方法。三是“探索”。即用户通过不断地查找与浏览系统推送的内容获得新信息,逐渐形成研究的焦点或个人观点。四是“形成”。即用户从探索阶段获得的信息中确定研究焦点。五是“收集”。即用户收集与研究焦点相关的信息。六是“结束”。即用户解决了问题,消除了不确定性。
Kuhlthau的ISP模型展示了一次检索的完整过程,模型中的六个阶段按照逻辑和时间顺序进行推进和过渡,模拟出了用户从产生检索需求开始到检索过程中浏览、接收并转换信息直至满足需求的全过程,为本研究访谈提纲的设置提供了理论依据。
3 研究方法与过程
3.1 研究方法
本研究基于扎根理论探索信息检索过程中感知价值的影响因素。扎根理论采用自下而上的方法进行研究,对收集到的数据进行开放式编码、关联式编码和选择性编码,从访谈数据中挖掘和提炼检索过程中影响用户感知价值的影响因素。使用扎根理论进行研究的优势在于所有理论都是基于现实数据获得的,而非基于假设进行研究,减小了先入为主对研究结果的影响,避免了在研究过程中忽视假设之外的影响因素。
3.2 研究对象
为了保证访谈质量,需要邀请有资深检索经验的用户进行访谈,笔者共访谈了26名信息检索用户,包含3名教授,2名副教授,5名研究生,16位本科生。其中,教授和副教授都是信息管理与信息系统专业(以下简称信管)的教师,有丰富的科研经验和检索经历;研究生也都来自信管专业,已有两年左右的科研经历,调研活动增强了他们的信息检索能力;本科生人数最多,大部分具有信管的学科背景,他们接受过专业的课程指导,包括理论和实践;非信管专业的学生则选择了大三或大四发表过文章的学生。无论是哪个专业的学生,都具有相对丰富的检索经验。
3.3 研究过程
半结构化访谈是一种几乎无约束的访谈,是一种只需根据设置的提纲进行提问的开放式访谈,对时间、地点、提问和回答的方式没有具体要求。访谈根据提纲模拟的场景进行,访谈者会根据访谈对象的回答提出新的问题,深入挖掘现象背后隐藏的原因。本研究的访谈提纲源于Kuhlthau的ISP理论,将检索分为开始、选择、探索、形成、搜索和结束六个阶段,具体问题如下:
1.进行检索的目的?预期获得哪些信息?
2.如何确定和选择检索信息要采用的方法?
3.在检索的过程中,如何判断信息相关?
4.如何从与主题相关的繁杂数据中筛选出符合需求的信息?
5.最终是否获得了需要的信息?怎么判断出来的?
6.通过信息检索,获得了什么?付出了什么?
在正式访谈前,访谈者应先向对方做出如下声明:“在我们的访谈中,信息是广义上的信息,是用来消除随机不确定性的东西。信息的来源多种多样,包括但不限于搜索引擎、专业网站、出版书籍资料以及论文数据库。在访谈中,您需结合自身检索经历进行回答。另外,为了保护您的隐私,您在回答过程中可以用简单的词语或相关术语进行概括。”访谈过程中,访谈者一方面要为访谈对象模拟出从产生检索需求开始到检索过程中浏览、接收并转换信息直至满足需求的全过程,从而从不同访谈对象的回答中逐步探索出感知价值的影响因素;另一方面要保持轻松的访谈氛围,鼓励访谈对象分享个人的访谈经历。访谈结束后,笔者将音频文件转录成文字,借助NVivo软件进行编码分析。
4 编码分析
扎根理论方法把对资料分析和归类的过程称为编码,其将搜集的资料不断打碎、整理和重组,从而挖掘概念、提炼范畴[21]。笔者基于扎根理论进行了三级编码,分别是开放式编码、关联式编码和选择性编码,三者之间遵循严格的上下级关系,后者在前者的基础上进行。开放式编码借鉴彭伟、于小进等的定义,包括定义现象、发展概念和发掘范畴这三个步骤[22],笔者将收集的杂乱数据进行抽象、整理和命名,编码出有序而不重复的范畴;关联式编码和选择性编码则是对开放式编码得到的范畴进行聚类处理,即将具有联系的范畴划分到一个主范畴中;选择性编码需要从主范畴中提炼出核心范畴,进而梳理与描述主范畴和核心范畴之间的“故事线”。
4.1 开放式编码
在开放式编码过程中,笔者先将原始音频数据转换成的文字信息按照信息检索的流程定义现象,然后对定义的现象进行概念化和范畴化操作,再将相同范畴的概念、相同概念的现象进行分类,最后按检索流程推进的顺序进行排列。经过开放式编碼,笔者定义了54个现象、37个概念和18个范畴(分别是需求来源、需求强度、平台功能、数据可得性、数据获取方式、检索结果反馈、检索技巧、知识积累、研究经验、知识获得、文献主题、预期结果、学科背景、文献属性、知识结构、学术鉴赏力、学术敏感性和信息价值),开放式编码示例(部分)见表1。
4.2 关联式编码
关联式编码就是将开放式编码得到的范畴进行归类。笔者根据主体不同,将18个副范畴划分为3个主范畴,分别是用户主观性、文献客观性和平台服务,详见表2。
4.3 选择性编码
选择性编码就是对关联式编码得到的主范畴进行总结以得到核心范畴。本研究提炼出的核心范畴是“影响用户感知价值的影响因素”,分为三个主范畴,分别是用户相关性、文献客观性和平台服务。从编码结果可以看出,用户的感知价值主要来自两方面:一方面是用户获得数据的途径是否方便,这与文献的获取方式和平台服务有关;另一方面是用户通过检索获得了有价值的信息,这是用户与检索平台和文献之间交互产生的结果,是用户完成检索后基于获得了满足需求或符合预期结果的新知识这一结果得出的结论。详见下页图2。
4.4 理论饱和度检验
笔者完成编码后,基本不会再出现新的范畴。同时,笔者又对四名具有信息管理与信息系统学科背景和一定检索经验的研究生进行访谈,对访谈内容重新进行编码分析后没有出现新的范畴,说明本研究具有较好的理论饱和度。
5 结果分析
用户是否愿意接受个性化推荐系统与系统为用户提供的服务质量密切相关。目前,计算机无法完全理解自然语言,用户的检索行为实际上是一种相关性检索,即推荐系统根据用户的检索词推送可能满足用户需求的数据,用户经过对比与思考从检索结果中找到消除不确定性的信息。也就是说,要提高用户对文献推荐系统的满意度,必然需要考虑用户相关性这个问题,而用户在判断推荐结果是否相关又与感知价值密不可分。
Kuhlthau的ISP模型揭示了在信息检索不同阶段用户个体认知因素的变化,他认为用户的信息检索是一段动态的、主观的、易受影响的过程,其在不同阶段的不同选择都会对接下来的行为产生影响,研究该过程中影响感知价值的因素,能从用户视角对文献推荐系统进行优化,从而更加精准地推荐符合用户需求的文献,下页表3展示了信息检索过程中感知价值影响因素的作用阶段。
由表3可知,影响因素集中表现在探索和收集阶段,这也是用户和检索平台以及文献之间互动最多的阶段。在这两个阶段,用户都需要从检索平台获得“相关文献”,并基于自身需求、预期结果和个人综合能力判断文献的主题是否相关,同时根据文献的各属性判断其可信度并分析文献包含的价值。另外,形成阶段也是比较容易受影响的阶段,这一阶段的影响因素与用户主观性相关。开始阶段只受需求来源的影响。选择阶段是用户基于自身需求通过预测数据获取的便利性和平台的特色功能选择检索平台的过程。检索是否结束则与用户和文献都相关,当用户无法从文献中获得新的有价值的信息或获得了满足需求的信息时,检索结束。
笔者通过分析发现,要设计一个用户满意度较高的推荐系统,离不开对用户群体综合能力的评价和预期结果的预测,这些信息可以从登录账号获得;也离不开对文献特性的准确描述,这要求文献在录入数据库时正确标记;还离不开检索平台的功能优化。
文献数据库的检索用户一般来自高校、科研院所或学术组织,而这些机构都有能力获取用户的学科背景、研究经验和知识结构,因此,机构可以通过设置登录账号解决信息过载的问题。如果要求检索结果达到查全和查准的要求,设计检索式进行检索是最好的解决办法,但笔者通过访谈了解到大部分用户是通过检索主题、关键词和标题查找文献。当用户输入“病毒”时,计算机专业用户需要了解的是“计算机病毒”,医学专业用户想要了解的是“生物病毒”。通过用户登录账号中的学科信息可以帮助系统排除干扰信息,以高校学生为例,他们登录文献数据库的账号一般是学号,而学号中包含了学生的学历(本科在读、硕士研究生在读还是博士研究生在读)、学科背景和入学年份,系统能通过学历判断用户的研究经验,再结合入学年份和学生培养计划推测学生的知识结构。需要指出的是,推荐系统需要推荐学科相关,但不能只有学科相关,因为跨领域、跨学科的研究能给原领域带来新的研究点和研究方法,如:感知价值原本属于市场营销学的概念,引入图情领域之后就给用户相关性研究带来了新的研究方向。
数据库中的文献可以通过增加属性标识提升查准率。笔者通过访谈发现,用户最常使用的检索方式是一框式搜索,即直接在主页的搜索框中输入检索词,只要文献的标题、摘要或关键词中出现相同字符就会被作为检索结果推送给用户。例如,在万方数据库检索“用户相关性”,相关性排序下,标题为“基于空间相关性的大规模分布式用户光伏空间分群方法”的文献被排在第13位推送出来,该文献可以说与“用户相关性”毫不相干,但在数据库的视角下,该文献是高度相关的。这种现象可以通过赋予文献正确标记得到解决。
6 结论与启示
6.1 研究结论
笔者对26名具有检索经验的用户进行了半结构化访谈,访谈内容严格遵循提纲,同时在真实对话中插入了新问题,引导用户将隐式的决策过程显露出来,并对访谈内容进行了编码处理,探索出了信息检索过程中用户感知价值的影响因素,发现感知价值受到用户主观性、文献客观性和平台服务三方面的影响。笔者还对感知价值影响因素的作用阶段进行了分析,发现探索和收集阶段是用户和推荐系统交互较为频繁的阶段。在这两个阶段,用户需要通过表达需求从检索平台获得“相关文献”。研究发现,高效的文献推荐系统离不开对用户和文献的正确刻画。一方面,研究机构应充分发挥成员ID的作用,将检索用户的学科背景、知识积累、研究经验和知识结构等描述综合能力的因素纳入其中;另一方面,在收录文献时,研究机构还应要求作者和编辑共同填写文献的主题字段。
6.2 局限性与未来展望
本研究还存在一些不足,一是本研究访谈的人员虽包含教授、副教授、研究生及本科生,但大多数为检索经验相对丰富的本科生,后续研究中应尽可能选择具有多年科研经验的用户进行访谈。二是本研究基于扎根理论研究信息检索过程中感知价值的影响因素,但只做了定性分析,没有进行定量分析,未来可以调查各因素的权重,构建结构方程模型,這样既能反过来验证本研究的研究成果,又能调查出影响用户感知价值的重要因素,从而促进个性化推荐系统的发展,提高用户检索效率。三是对用户和文献的刻画目前只做了初步设想,未来可以进行深入分析,探索一种既不泄露用户隐私,又具有可行性的刻画方式。
参考文献:
[1] WANG P L, WHITE M D. A cognitive model of document use during a research project. Study II. Decisions at the reading and citing stages[J]. Journal Of the American Society for Information Science,1999(2):98-114.
[2] 徐红艳,王丹,王富海,等.融合潜在狄利克雷分布与元路径分析的用户相关性度量方法[J].计算机应用,2019(11):3288-3292.
[3] 赵小明,张群,岳昆.基于静电场理论和PageRank算法的微博用户相关性分析[J].云南大学学报(自然科学版),2015(2):207-214.
[4] TERESA A, JOSEP A, RAMON B, etal. Measuring user relevance in online debates through an argumentative model[J].Pattern Recognition Letters,2020(5):41-47.
[5] 任永功,王玉玲,刘洋,等.基于用户相关性的动态网络媒体数据无监督特征选择算法[J].计算机学报,2018(7):1-19.
[6] SAGAR U, YI S, DAWEI S, etal. Modeling Multidimensional User Relevance in IR using Vector Spaces[C]. The 41st Internatio0al ACM SIGIR Conference on Research & Development in Information Retrieval. New York: Associtiaon for Computing Machinery,2018:993-996.
[7] EERRANO W. Intelligent Recommender System for Big Data Applications Based on the Random Neural Network[J].Big Data and Cognitive Computing, 2019(1):15-43.
[8] 张贵兰,王健,周国民,等.科学数据用户相关性标准研究[J].图书情报工作,2019(4):112-121.
[9] 张贵兰,周国民,潘尧,等.科学数据相关性标准使用特征[J].图书情报工作,2020(10):56-65.
[10] 韦草原,王健,张贵兰,等.基于扎根理论的科学数据用户感知价值概念模型研究[J].情报杂志,2018(5):182-188.
[11] 韦草原.科学数据感知价值与用户相关性判断研究[D].北京:中国农业科学院,2018.
[12] 刘建平,王健,周国民,等.基于科学数据的用户相关性判断实证研究[J].数字图书馆论坛,2017(4):22-31.
[13] JAVIER T,ANGEL P L,GEMA B O, et al. Analyzing the relationship between relevance and extremist discourse in an alt-right network on Twitter[J]. Social Network Analysis Mining,2020(10):68-94.
[14] AMEER A. Dynamic Diversification for Interactive Complex Search[C]. European Conference on Information Retrieval 2019. Lecture Notes in Computer Science. Springer eBook: Springer Nature,2019:369-374.
[15] 倪渊,高宇东,杨露,等.网络平台环境下的顾客感知价值结构、影响因素及效应:基于文献计量视角[J].商业经济研究,2020(8):80-84.
[16] ZEITHAML V A.Consumer perceptions of price, quality, and value: a means-end model and synthesis of evidence[J]. Journal of Marketing,1988(3):2-22.
[17] SHETH J N,NEWMAN B I,GROSS B L. Why we buy what we buy: a theory of consumption values[J].Journal of Business Research,1991(2):159-170.
[18]SWEENEY J C,SOUTAR G N. Consumer perceived value: development of a multiple item scale[J]. Journal of Retailing,2001(2):203-220.
[19] WOODRUFF R B. Customer value: the next source for competitive advantage[J].Journal of the Academy of Marketing Science,1997(2):139-153.
[20] KUHLTHAU C C. A principle of uncertainty for information seeking[J].Journal of Documentation,1993(4):339-355.
[21] 姚延波,张丹,何蕾.旅游企业诚信概念及其结构维度:基于扎根理论的探索性研究[J].南开管理评论,2014(1):113-122.
[22] 彭伟,于小进,郑庆龄.基于扎根理论的社会创业企业资源拼湊策略研究[J].财经论丛,2019(1):81-90.
(编校:周雪芹)
1642501705299