科研人员判断科学数据质量和权威性的行为模式研究*

2023-11-10 11:53张文德陈汐包雪清孙玉艳
数字图书馆论坛 2023年9期
关键词:评价性预测性权威性

张文德 陈汐 包雪清 孙玉艳

(1. 福州大学信息管理研究所,福州 350108;2. 福州大学图书馆,福州 350108;3. 闽江学院图书馆,福州 350108)

随着科学研究进入数据密集型研究范式,科学数据成为科学研究的重要战略资源。一方面,科学数据的需求总量和规模总量呈指数级增长,科学数据共享成为发挥数据价值的重要途径。因此,各方都在推动建立健全科学数据管理机制,具体表现为:①在政策支持上,2018年3月,国务院办公厅正式出台《科学数据管理办法》[1],2019年又在《关于进一步弘扬科学家精神加强作风和学风建设的意见》[2]中明确“论文等科研成果发表后1个月内,要将所涉及的实验记录、实验数据等原始数据资料交所在单位统一管理、留存备查”的相关规定;②在平台建设上,有科学数据银行、国家基础学科公共科学数据中心和北京大学开放研究数据平台[3]等数据存储和管理平台。另一方面,用户如何在海量、多源和异构的开放科学数据集中发现符合自己需求的有效数据,也是事关有效开发和利用科学数据的重要研究课题。用户在进行信息查询和检索交互的过程中使用多元化的标准来判断相关性,这已经成为学界的共识。而不同情境下,用户对相关性标准的选择有许多相同之处[4]。已有研究一致认为质量和权威性是重要的判断依据。此外,目前我国仍未形成成熟的科学数据出版模式,数据出版平台侧重于数据的收集和存储,缺乏有效的数据版权确认机制[5],加上数据质量评估复杂和审核工作量大,具体实践中存在评议专家不足、缺乏被广泛认同的同行评议标准体系[6]等问题。总之,科学数据在快速发展的同时还面临着质量参差不齐、缺乏质量控制体系的挑战。因此,本文旨在研究用户如何在检索科学数据过程中判断数据的质量和权威性,同时探讨影响因素,从而在海量的科学数据中突出更多高质量和高可信度的数据,为用户选择和使用科学数据提供有效的参考。

1 相关研究概述

关于科学数据的概念,现有定义和诠释林林总总,目前还没有统一的定义。总的来说,科学数据又称研究数据或科研数据,来源于科研活动且服务于科研活动[7]。本文研究的是科学数据检索环境下科研人员对科学数据质量和权威性的认识和判断,针对这一背景,倾向于使用开放获取的科学数据定义。本文所指的科学数据为研究者收集、观察和创造的各类实验数据、观测数据、统计数据、仿真数据,既表现为能体现科学研究事实,用于分析验证研究结果的具有客观性、价值性与可重用性的原始数据,又包含在原始数据基础上衍生出的经过系统组织、加工、整理的二手数据,其中包括结构化数据及非结构化数据,例如问卷数据、图像、表格、音频视频资料等[8]。

随着21世纪网络检索的兴起和网络检索工具的普及,检索系统为用户提供更广泛、更丰富的网络资源,以满足他们的信息需求。但与此同时,网络信息资源缺乏有效的组织管理和质量控制,再加上互联网发布信息的自由性,网络信息资源呈现出无限、无序、优劣混杂的发展状态。用户要获得真正满足需求的检索结果,需要在检索过程中对信息进行评价和判断。用户在选择信息时所使用的评判依据一直以来都备受信息检索领域研究的关注。早期的研究主要关注“主题相关性”,即用户对信息对象主题维度的感知。然而,国内外大量的研究[9-11]已经证明,在进行信息查询和检索交互的过程中,用户使用主题之外的更多元的相关性评判依据,包括质量和可信度、权威性、时效性、个性化需求和兴趣、来源特征、用户体验和社交因素等。质量涵盖了信息的准确性[12]、深度[13]和真实性[14],权威性则涉及信息提供者或来源的专业性和可信度。总的来说,质量和权威性都是宽泛和主观的概念,评估质量和权威性的方法因人而异、因信息载体而异。

虽然对不同信息载体(如文献、网页、图像以及科学数据等)的相关性评判研究已经提及有关质量和权威性的评估标准,但是大多数研究仍集中于文献和网页等对象,对于其他信息载体,尤其是正处于起步阶段的科学数据,还缺乏细化研究。尽管国内学者[7,15-16]已经开始关注科学数据相关性判断这一新兴领域,但尚未有学者对科研人员在检索科学数据的过程中评判质量和权威性的行为进行详细研究。基于此,拟探讨以下几个研究问题,并根据研究成果提出对科学数据共享平台建设的建议。

RQ1:科研人员如何决定在哪个平台或网页上检索科学数据?

RQ2:对科学数据质量和权威性的判断在多大程度上影响用户的决策和选择行为?

RQ3:检索科学数据过程中,用户判断科学数据质量和权威性的依据有哪些?

2 研究设计

2.1 研究对象

使用科学数据的主体大多为科研人员,科学数据是科研人员在研究工作中产生的重要资源,也是验证科研成果的重要材料,科研人员对科学数据有强烈的信息需求,因此将研究对象局限于科研人员。此外,科学数据检索属于具有一定复杂性和专业性的特定领域检索行为,对用户的检索判断能力要求相对较高。因此,研究不适用随机抽样的方法,而是筛选符合相关要求的实验人员。通过微信发放被试招募通知,遴选接触过科学数据检索、信息检索能力较强、有不同学科背景的研究对象,最终招募了15名被试者参与实验,其中女性9名、男性6名。这些被试者多具有硕士研究生及以上学历,都接受过信息检索或文献检索的课程培训,查询和使用数据的经验较为丰富,有近87%的被试者对自己的检索技能评价为“较好”及以上。被试者在科研工作中都曾接触过或正在使用科学数据,每周检索科学数据者占比超过90%。被试者的专业涵盖了地质工程、自然地理学、图书情报学和护理学等。为激励被试者认真完成情境实验,研究人员为每位被试者发放了30元的津贴。

2.2 实验设计

基于真实具体的任务情境,构建了科研人员相关性判断场景,并进行了情境实验。实验分为3个部分:事前问卷、检索实验和事后访谈。事前问卷主要采集3个方面的信息,包括:①性别、学历和专业等个人基本信息;②个人检索经验和检索技能等相关信息;③科学数据检索频率、使用频率、检索平台等科学数据使用情况信息。在检索实验中设有3个检索任务,研究人员提供可以自由检索的环境,保证被试者能够进行出声思考,不受外界影响。被试者的检索时间为30分钟,通过录像设备记录被试者检索过程和出声思维数据。检索实验完成后,立刻进行访谈,访谈过程中研究人员与被试者共同观看被试者检索数据的全过程录像,访谈主要围绕被试者的决策、选择过程以及背后的判定依据。访谈全程录像,以便于后续的数据分析。

在检索任务方面,用户的信息需求决定着用户的信息检索行为。科研人员有着较为明确的信息需求(学术研究的需要,即检索任务),这是其区别于一般信息用户的特点[17]。借鉴Rieh[18]此前确定的信息质量的组成部分,即良好的、准确的、最新的、有用的和重要的,使用“准确可靠的”“最新的”和“有用的”等词语,将质量和权威性的维度嵌入检索任务。检索任务以书面形式给出,涉及的科学数据类型有观测数据、调查数据和统计数据等。采取仿真任务设计思路,结合上述设计需求,设计了专指型、一般型和抽象型3个检索任务,如表1所示。

表1 检索任务情况

检索实验依托于真实的科学数据检索环境和行为,在真实具体的任务情境下,被试者能根据真实情境描述检索过程,因此不提供指定的设备和平台,被试者将使用他们常用的设备,在任意网页或平台上进行检索。

2.3 数据采集

通过多渠道进行数据采集,包括检索实验前的问卷调查以及实验过程中的出声思维法(含录像)、搜索日志和检索实验后的情境再入式访谈,从而获得用户判断科学数据相关性的过程和行为模式的相关数据。

出声思维法将用户的思考过程外显化,要求用户在检索过程中口头表述其行为和思考过程。研究人员使用EV录屏软件记录检索过程。检索实验完成后,立刻进行访谈。在访谈中,被试者观看他们自己检索数据的视频,并回答关于如何查找数据、为何在特定位置查找、找到的数据是否相关、数据的准确性和真实性等方面的问题。访谈全程都被录制下来,以便进行后续数据分析。

2.4 数据分析

2.4.1 分析单元

各获得15份出声思维音频文件和实验后的访谈录音。经转录,得到超8万字的文本,将实验前的问卷和实验中的检索记录也整合到转录的文本材料中构成编码原始材料。将被试者浏览的网页作为分析单元,对口述内容进行转录分割和量化,最终进行编码的分析单元可以是字、词、短语或句子。

2.4.2 类目构建

类目构建基于用户的不同判断视角,类目划分为预测性判断和评价性判断:前者是被试者在查看网页之前做出的判断,后者是浏览查看网页后做出的判断。当被试者点击新的页面或跳转链接时,预测性判断内容就会被嵌入访谈提纲,如“为什么你第一反应是选择从这里开始?”评价性判断内容诸如“你认为你找到的数据是可靠的吗?”预测性判断回答了被试者去哪找数据的问题,评价性判断回答了被试者为什么选择这些数据的问题。具体访谈提纲如表2所示。

表2 主要访谈提纲

在研究中另外邀请编码员,共同进行样本编码和信度检验。使用霍尔斯蒂系数,随机抽取15份样本中的2份样本进行信度检验,约占总样本的13%。经过检验,得出复合信度系数为0.82(>0.8),这符合内容分析的信度要求,表明研究的类目编码具有可行性和可信度。

3 实验结果分析与讨论

3.1 选择与决策行为

本节重点关注RQ1:科研人员如何决定在哪个平台或网页上检索科学数据?研究设计使得研究人员可以观察到被试者完整的检索过程,包含分析检索内容、构建检索式、确定检索工具、阅读和评估检索结果等选择和决策行为。研究证实,在打开新页面之前,被试者会进行预测性判断;在打开页面后,会进行评价性判断。如果预测性判断与评价性判断结果不一致,被试者会打开新的网页或者返回原来的网页;如若一致,被试者将使用该页面的数据或者停留在该页面上。这一发现再次支持了Einhorn等[19]关于选择行为中的预测和评价判断的观点。

与此同时,无论是预测性判断还是评价性判断,用户采用的标准都是多维的。如表3所示,对用户在检索过程中对信息对象的反应进行了概念归类和编码,得到了质量、权威性、主题、个人知识经验、情感和外观等相关性判断标准。研究结果表明,用户在预测特定的信息对象(例如检索工具、网站和数据等)或最终决策信息对象时,都会对质量和权威性进行判断。个人知识经验方面的判断标准更容易在预测性判断阶段出现,而情感方面的标准在预测性判断阶段几乎不出现。

表3 部分编码实例

被试者的大部分检索行为可归类为探索式检索,这是一种交织着查找、学习、调查的交互过程[20]。特别是非专业领域的被试者,在面对专指型、一般型的检索任务时,由于对主题领域的知识不熟悉,难以构建合适的检索式来表述其信息需求。绝大部分被试者首选常用且资源丰富的搜索引擎,如百度和必应。根据系统提供的检索结果进行预测性判断,之后打开可能存在相关数据的页面以进一步判断。

尽管在面对相同任务的情境下被试者都有着共同的搜索意图(例如查询地震观测数据),但他们选择的检索词各不相同,涵盖了“地震数据”“地震观测数据”“地理”“七级地震”“观测实验报告”和“国家地震局”等。此外,一部分被试者利用学术数据库(如中国知网)来查找相关专业的研究人员在论文中汇报的数据来源,紧接着查找相应的科学数据,或直接获取文献提及的数据。还有一部分被试者利用问答平台(如知乎),在与任务相关的回答中继续发现新的线索。只有少数被试者明确检索任务所需的数据类型特点,直接访问数据共享平台(如中国科技资源共享网、国家地震科学数据中心)来查找数据。此外,在搜寻信息的过程中,学科背景会影响用户的选择和决策行为。观察用户的信息行为发现,自然地理专业的被试者在查询地震观测数据时会直接访问国家地震科学数据中心。在面对抽象型检索任务时,被试者会选择相对有学科专业特色的数据库或网页作为检索起点:来自管理学专业的被试者选择经管之家网站寻找数据,来自图书情报专业的被试者在访谈中表示访问GitHub网站是因为了解熟悉该网站,这说明个人知识经验是预测性判断阶段重要的标准之一。

3.2 相关性判断标准

本节重点关注RQ2:对科学数据质量和权威性的判断在多大程度上影响用户的决策和选择行为?编码结果详见图1和表4。在预测性判断和评价性判断阶段,被试者都认为质量、权威性和主题是较重要的判断标准。在331个预测性判断的编码实例中,质量(N=52,15.71%)和权威性(N=109,32.93%)较多被提及。在400个评价性判断实例中,有近2/3的实例与质量(N=130,32.50%)和权威性(N=124,31.00%)有关。被试者在判断过程中使用标准的分布情况符合著名的长尾定律:质量、权威性和主题占据了绝大部分份额,但其他标准也会影响相关性判断阶段。除了存在质量、权威性和主题的共性判断标准,不同的判断阶段有不同的特性标准。

图1 两个阶段中判断标准的提及频次占比情况

值得注意的是,被试者在预测性判断阶段更重视主题,主题的提及频次超过质量,而在评价性判断阶段更看重数据的质量。对这一结果可能的解释是,被试者在选择网页进行科学数据检索时,往往更倾向于选择信誉好的、官方的或主流的网页,例如中国知网、政府机构网站或高校图书馆的导航目录。他们很少在选择的过程中质疑数据的质量,而是将权威性与质量联系在一起,认为官方的数据是真实和准确的,更关注所选择的网页是否与检索任务相关。

表4还显示,被试者在不同的任务下变化其判断标准,尤其在抽象型任务中,用户的自由度较高,可以展现出个性化的需求。因此,在预测性判断中,他们可能会出于兴趣选择特定的网页。然而,相对于专指型和一般型任务,他们的选择和决策行为不受系统排序影响。在专指型和一般型任务中,被试者期望检索到的是数值型或事实型数据,他们的目标明确且特指性强。在评价性判断阶段,他们可能会有较强的情感反馈(例如失望、受挫、惊喜等)。因此,他们更关注主题和权威性。除此之外,被试者个人的研究领域可能也会产生影响。在抽象型任务中,被试者可能接触到的是自己熟悉的学科领域,因此在评价性判断阶段,他们对质量和权威性的关注程度与预测性判断阶段相对一致。

3.3 质量与权威性判断依据

本节重点关注RQ3:检索科学数据过程中,用户判断科学数据质量和权威性的依据有哪些?通过对出声思维法的口述记录和访谈记录的内容分析,识别出质量和权威性是多维度的概念。在评价性判断阶段,当问及有关质量和权威性的问题时,被试者以不同的措辞回答。排除与研究主题相关性较低和无意义的词汇,整理结果如图2所示,词频越高的词语会以越大的字体呈现。根据高频词,得出质量和权威性的评价框架,如表5所示。

图2 词云图

表5 质量和权威性的评价框架

研究结果表明,用户主要基于两个方面评价科学数据质量:一是数据固有质量,即数据本身的准确性和规范性;二是数据的效用价值,即数据对用户的有用程度。

用户从可靠性、可信性、官方性、学术性和权威性5个角度评价数据权威性。在本次实验中,用户通常会通过官方网站来查找数据,例如中国地震局和世界卫生组织等的官网,表现出对世界组织、国家机构数据源的信赖,原因有三:首先,官方机构通常是非营利性的,并且拥有公信力和良好的声誉;其次,用户认为官方机构的科学数据通常准确、规范和可靠;最后,官方数据具有公开性和透明性,这意味着可以受到研究者和公众的监督和核验。此外,用户还关注公众认可度较高的学术期刊网站、专业相关的数据集平台以及具有丰富知识和经验的学者或同行。被试者对于权威性的判断过程遵循信息行为理论中的“最省力原则”,即他们倾向于依赖官方网站或权威个体获取信息,因为这是检索到满足其需求数据的省力和便捷的途径。

4 结论与建议

4.1 研究结论

(1)科研人员的相关性判断过程分为预测性和评价性判断两个阶段。预测性判断影响了用户的选择行为,评价性判断影响了用户的决策行为。这一发现再次验证了Einhorn等[19]的决策判断模型。

(2)科研人员的相关性判断是多标准决策认知过程。研究识别了预测性和评价性判断的判断标准,明确质量、主题和权威性是用户选择和使用科学数据最重要的依据。然而,这些标准在两个阶段存在一些差异。在预测性判断阶段,用户更加关注数据本身是否与检索要求相符,即主题相关性。而在评价性判断阶段,用户更加注重数据的质量。与前人基于文献[13,21-23]、网页[12,24-25]、图像[26]、音乐[27]和视频[28-29]等信息载体展开的相关性判断研究比较可知,科学数据与网页承载信息的方式极为一致,且都基于文献,因此这些信息载体的相关性判据高度一致。但本质上文献承载的是知识,科学数据承载的是事实,加上科学数据的专业性、目的性和针对性强的特点,科研人员尤为看重是否能够获得和使用数据,不能获得的数据在他们看来缺乏价值,因此相比其他信息载体,用户对数据可获得性的要求更高。

(3)数据质量和权威性是多维度的概念。科研人员评价数据质量时,考虑了准确性、时效性、有用性、规范性、可访问和可比性等6个方面的因素。其中,规范性和可比性是其他信息载体研究鲜少提及的因素,这可能是因为规范性和可比性影响着数据的共享和利用。在数据的权威性方面,科学数据用户从可靠性、可信性、官方性、学术性和权威性等5个方面进行评价,其中官方性是最重要的。科学数据领域未有相对完善的评价体系,因此用户评价数据权威性的线索相对较少,通常从数据来源入手。

4.2 实践启示

(1)搭建交互式检索平台。研究发现,在科学数据检索过程中,用户通常面临模糊的检索目标和广泛的检索范围,需要通过探索、学习和反复尝试来获取最相关的检索结果。这一情况主要受到两方面因素的影响:一方面,用户自身的信息素养不足,无法准确表达对科学数据的需求,还不知道去哪检索、怎么检索,因此会在反复的检索和阅读过程中产生新的检索意图[30];另一方面,目前国内科学数据共享平台的检索功能相对简单,还停留在一框式检索的阶段。因此,为了改善用户体验,建议科学数据共享平台构建基于用户体验的交互式检索环境,以建立个性化用户检索空间和提供多样化的检索功能。例如,可以研发自动分类用户检索行为、为模糊输入提供人性化提醒以及在错误提示后提供备选项[31]等功能。

(2)开展可信赖评估认证工作。研究发现,科研人员倾向于通过简单的线索来评估数据的质量和权威性,如将官方数据来源视为数据准确性和规范性的保证。这反映出我国目前缺乏相应的科学数据共享平台可信赖性的评估标准、工具以及可信赖性认证体系,导致用户仅能依赖简单、表面的线索来进行数据评估。因此,建议采取以下措施:首先,借鉴国外经验,科学数据共享平台积极对接国家和国际数据标准,制定适合我国国情的可信赖认证标准和工具[32];其次,择优遴选,从已建立的科学数据共享平台中遴选较为优秀的进行重点建设,投入资金、技术等资源,帮助其获得CoreTrustSeal认证,逐步扩展建设一批高质量的科学数据共享平台;最后,依托国家科学数据中心体系,构建国际化的科学数据产权认证、登记和引用体系[33],增强引用数据的可信性。

(3)大力宣传科学数据共享平台。研究发现,尽管绝大部分被试者在访谈中表示对科学数据共享有一定了解,但在实际检索任务中更倾向于使用通用的、大型的搜索引擎(如百度和必应)或常用的学术数据库(如中国知网)而非专业的科学数据平台。这表明用户对科学数据共享平台的认知率和使用率相对较低,科学数据共享平台的宣传和普及程度还相对较低。因此,建议科学数据共享平台与高校图书馆加强合作,高校图书馆官网提供科学数据共享平台的导航链接。此外,还可以在第三方权威数据仓储注册信息或与搜索引擎合作,提升科学数据共享平台的曝光度,提高数据信息的可发现性[34]。

猜你喜欢
评价性预测性权威性
权威的证成困境及其解决——对《法律的权威性:基于实践哲学的研究》的评析
学术语篇的评价性分析
哲学百科全书的经典之作
“全媒体”语境下党报更应坚守权威性
网络舆情诱因信息及预测性研判探析
小学语文教材中的评价性内容分析
词汇量测试对语言水平的预测性的实证研究
安全评价性检查在企业安全生产管理工作中的应用
传记资料之预测性研究综述
“请您回答”2010年第7期答案: