高校社科用户数据检索能力差异调查

2019-08-29 08:12魏园婷李婷婷
山东图书馆学刊 2019年4期
关键词:数据源检索身份

魏园婷 魏 静 李婷婷

(1,3西安理工大学图书馆,陕西西安 710048;2西安电子科技大学图书馆,陕西西安 710071)

1 引言

随着研究范式的转变,研究者在数据发现与获取、管理与组织等方面都面临着问题,数据素养成为了科学研究者们必备的素养之一[1]。秦建认为数据素养是指具备在科学研究中收集、加工、管理、评价和利用数据的知识和能力[2]。Carlson从数据生命周期的角度出发,提出数据素养是指具备数据收集、组织、分析、可视化、再利用的数据基本能力[3]。美国数据质量运动(Data Quality Campaign)指出数据素养是指从可访问的数据源中搜寻、遴选、收集数据;整合、分析数据等[4]。由此可知,数据检索能力是数据素养的必要条件。这些问题也受到社会科学研究者的重视,故本研究以社会科学用户为研究对象,从数据需求入手,调查用户的数据使用频率、用户在查找数据时的感受以及感受与用户数据检索能力之间的关系进行调查,以期为高校社会科学用户数据素养教育提供参考。

2 研究设计

本问卷设计之初首先与15位用户进行访谈,了解用户在查找数据过程中提及的、经常遇到的问题,对其中的关键词进行总结、梳理,最终设计问卷。问卷采用人工分发与网络填写两种方式,采用SPSS19进行数据分析,主要利用的分析方法有描述性统计、方差分析与相关分析。

3 问卷统计分析

3.1 信度效度分析

信度指问卷的可信度,本研究采用阿尔法系数进行信度检验。利用SPSS工具计算本问卷量表部分的α值,得出结果均大于0.9,说明本问卷具有良好的信度。效度是指问卷的准确性,使用KMO值和Bartlett球度检验的结果来判断结构效度。本问卷KMO值均大于0.8,Bartlett球度检验值小于0.005,因此认为本问卷具有结构效度。

表1 样本人口特征分布表

3.2 样本人口特征分析

由表1可知,共回收有效问卷356份。其中,有61位理工科用户,295位社会科学用户。本研究以社科用户为研究对象,所以对295名社科用户做进一步分析。在社科用户中有83位男性,占总人数的28.1%,女性212位,占总人数的71.9%,女性多于男性,符合社科领域女性研究者较多的现状。在人员层次方面有本科生87人,占29.5%;硕士生136人,占46.1%;博士生32人,占10.8%;教师40人,占13.6%。整体来看博士生与教师样本量较少,但是在高校中博士与教师样本总体远小于研究生与本科生,符合总体的分布,故样本研究用户身份分布在可以接受的范围内。从整体上看,样本覆盖面较广,包含本科、硕士、博士、教师各个层级,社科领域大多数专业都有涉及,且来自众多高校。因此,样本具有代表性。

3.3 数据使用情况调查

3.3.1 数据使用频率

借鉴信息使用的定义,将数据使用定义为用户对数据内容、数据服务或数据资源的吸收和使用。数据源是指用户为满足数据需求而获得数据的来源,是数据的载体。

本研究通过Q5——“您曾在学术研究中引用数据吗?”,引用数据是指对数据的使用,对二手数据的利用。通过对数据使用频率的了解也可以推出用户的数据需求,若经常使用数据的则有高的数据需求,不常使用的则数据需求较低,从未使用过数据则表示没有数据需求或这类用户的数据需求还处于潜在阶段,指用户存在但没有直接意识到,或需求不够强烈没有转化为使用行为。

表2 数据使用情况表

由表2可知,56.3%社科领域研究者需要经常在科学研究中引用数据,40.3%的用户偶尔引用数据,仅有少数(3.4%)用户表示从未在自己的研究中引用过数据。说明随着科研环境的变化、科学研究范式的转变,大多数研究者在科研活动中需要使用数据,具有强烈的数据需求,但也存在少数研究者的需求还处在潜在阶段。在之后的图书馆数据服务中,对需求强烈的用户需要进一步关注用户的需求内容、特点,对于还处在潜在需求阶段的用户需要唤醒、引导,帮助用户意识到并且表达出自己的需求。

3.3.2 用户数据使用频率与身份、专业相关性分析

表3 数据使用频率与身份、专业方差分析结果表

为探求数据使用频率与身份、专业之间是否具有相关性,对使用频率与身份、专业分别进行方差分析。在方差分析前对选项进项赋值,1为从没引用过数据为1分,2为偶尔引用为2分,3为经常使用为3分。由表3可知,根据方差齐性检验的结果,说明各组的方差在显著性水平为0.05时,没有显著性差异,即方差具有齐性。身份、专业与数据使用频率的方差检验P值均小于0.05,说明身份、专业与数据使用频率具有关联性。

(1)不同身份用户数据使用频率差异分析

根据不同身份用户对数据的使用频率求得均值,绘制柱状图,如图1所示。

图1 不同身份用户数据使用频率柱状图

由图1可知,数据使用频率最低的为本科生,最高的为教师,硕士生和博士生之间差别不大。可认为本科生数据需求较低,教师最高,硕、博用户差别不大。数据需求的高低一部分由科学研究任务决定,一部分由用户的数据意识决定。本科生的数据需求最低,一方面可能是因为科研活动少、科研层次较浅,所以导致的需求低,另一方面可能是数据意识低,即没有意识到数据的价值、没有利用数据的想法、不知道自己需要数据等多种原因导致的需求低。可见,在对本科生进行信息素养教育时,需要培养其数据意识。同样的,教师的数据需求最高,可能是因为研究活动增多导致,也可能是教师的数据利用意识较高。

(2)不同专业用户数据使用频率差异分析

根据不同专业用户对数据的使用频率求得均值,绘制柱状图,如图2所示。

图2 不同专业用户数据使用频率柱状图

根据图2可以看出,数据使用频率从高到低的专业分别是:经济学、管理学、法学、教育学、文学。

可知,数据需求最高的是经济学类专业用户,经济学是指研究国民经济各方面问题的学科,包括各种经济关系和经济活动规律。经济学研究大多都采用模型驱动的研究范式,即先构建模型,再搜集实证数据去验证模型的合理性[5],或通过根据现有数据设定模型。无论是哪种方式,都对数据有着极强的依赖性,数据的数量和质量已经成为制约经济学模型研究的主要因素[6]。因此,具有高的数据查找、筛选能力对于经济学研究至关重要。

其次,是管理学类专业用户,管理学是指研究管理活动的基本规律和方法的科学[7]。管理学研究是复杂的,因为影响管理活动的因素众多,不仅有生产力和生产关系,还有自然因素、政治、心理、文化等,所以管理学的研究方法也是复杂的[8]。数学作为管理学的理论基础,决定了管理学研究必然离不开对数据的利用。

再次,是法学类专业用户,法学是指研究国家和法的科学[9]。法律学、政治学、社会学的实证研究离不开数据,通过对数据的收集与分析,说明法律效果或社会效果、制度/政策合理性、社会现状等。

从次,是教育学类专业用户,教育学是研究教育规律、现象及方法的学科,教育学发展之初以理论研究为主,多以体验、领悟为核心[10]。随着研究方法的发展,出现了对假设检验方法的运用[11]。随着假设检验方法的兴起,则产生了数据需求。

最后,是文学类专业用户,文学学科是指研究文学作品与文学现象的学科,包含的二类学科有中/外语言文学、新闻传播学、艺术学。传统文学对数据的利用较少,但是,对着数据密集型科研范式的到来,在文学领域进行定量分析已悄然兴起[12]。随着统计文艺学的兴起,文学领域对数据的需求将逐渐增多。

可以看出,虽然不同专业数据需求高低有区别,但是总得来说,都具有使用数据的需求。本研究的前提是有过数据使用或数据查找的经历,所以在之后的数据分析中,剔除了10位从没引用过数据的用户。

3.4 数据查找困难度与检索能力分析

3.4.1 数据查找困难度

采用问题T1——“我认为找数据是个麻烦事”来衡量用户在情感上对于查找数据的看法。问题T2——“我在检索数据时通常要找很久”来衡量实际操作中查找数据的情况。例如:我认为找数据是一个麻烦事,我在找数据时通常要找很久,则认为该用户在查找数据方面存在困难。

图3 查找数据困难度柱状图

根据图3可以看出,对于大多数用户来说,在查找数据方面存在困难。访谈用户S6、S7、S12等,也表示查找数据是一个很花费精力、耗费时间成本的行为,而且往往收效很低。有的用户表示很无奈,并表明现状就是这样,没办法。可见,降低用户查找数据的困难度是数据服务的紧要任务。

3.4.2 数据检索能力

选择合适的方法和工具,高效地找到所需数据,即是数据检索能力。在以往的检索能力培训中更多的是针对文献检索,随着数据需求的增多,应增加有关数据检索能力培训的课程、讲座,以此来提高用户查找数据的能力,节省用户的时间。本研究通过T3、T4、T5、T6问题来衡量用户的数据检索能力。将四个题目的选项进行赋值,从1反对到5非常赞同,赋值为1至5分,求得均值,值越高说明用户某方面的能力越强。

图4 数据检索能力柱状图

T3——“我对本专业的数据源都很熟悉”和问题T4——“我知道去哪检索我需要的数据”,用T3问题来考察用户对数据源的了解情况,用T4来衡量用户对数据源的选择能力。T5——“我知道如何检索数据”,这个问题是用来衡量用户对于检索方法的掌握情况,如检索式的构建等。T6——“当不同来源的数据值不一样时,我知道如何选择出相对准确的”,用该问题来衡量用户对数据及数据源的评价能力,选出好的数据源很大程度上就决定了数据的质量。

整体而言,从图4数据检索能力折线图可以看出,普遍而言,社会科学领域研究者的数据检索能力有待加强。相对而言,用户较强的能力为“知道如何检索”,即用户基本具有将需求转化为检索式的能力,这点可能是用户在长期的文献检索中积累的;用户相对较欠缺的检索知识为对本专业网络数据源的了解,缺乏对数据源的了解,就会在查找数据时无从下手,造成检索的低效率。在之后的数据素养教育中,则要重点加强对用户所欠缺的能力的培养。

3.4.3 用户数据检索能力差异分析

为探究不同身份、专业用户,检索能力的差异性,分别对T3、T4、T5、T6与身份、专业做方差分析。在方差分析前先进行方差齐性检验,由表4可知,各组的方差在显著性水平为0.05时,没有显著性差异,即方差具有齐性。方差检验结果为:①不同专业、身份用户对本专业数据源的熟悉程度没有差异;②不同专业、身份用户的数据源选择能力均具有差异;③不同专业、身份用户构建检索式的能力没有差异;④不同身份用户的数据源评价能力没有差异,不同专业用户间存在差异。具体的差异如图5所示。

表4 数据检索能力与身份、专业方差分析表

图5 不同用户检索能力差异分析图

由图a不同身份用户群体对网络数据源熟悉度差异分析可以看出,对于本专业网络数据源的熟悉程度最高的为教师,最低的为本科生,硕士生与博士生相差不大。基本可知,随着研究水平的增高对数据源的熟悉程度逐渐增高。但是应该注意到,博士生的科研经验、研究层次都比硕士用户丰富,却对本专业的网络数据源的熟悉程度与硕士差不多,与教师用户相差很多。

由图b不同身份的用户数据源选择能力差异分析可知,选择能力最强的为教师群体,最弱的为博士用户。

可以看出,最需要关注的为博士用户群体,在现实中,往往我们都会默认博士具有较高的综合能力,但是根据分析结果可以看出,最需要提升数据检索能力的用户群体为博士用户,一方面原因为,我们对博士生检索能力的惯性思维,致使博士生受到检索能力培训机会的降低,很少有专门针对博士生检索能力培训的课程或讲座;另一方面是,博士生对数据的完整性、系统性、内容深度、准确性等方面要求较高,在较高要求的情况下,反衬出能力的不足。

由图c不同专业用户数据源选择能力的差异分析可以看出,数据源选择能力最强的专业为教育学类专业用户,其他专业用户能力水平相近。即表明,当教育学类专业用户需要查找数据时,大多数用户都清楚应该选择哪个或哪几个数据源去检索。根据之前的研究,教育学专业用户对网络数据源的熟悉度并不比其他用户强,但数据源选择能力却明显优于其他专业用户,可能原因为教育类专业数据网站、数据平台较少或教育学用户数据需求较固定,产生无需选择的可能。

由图d不同专业用户数据筛选能力差异分析可以看出,数据筛选能力最强的专业用户群体为管理学用户,最弱的为文学用户。管理学用户相对于文学用户具有较丰富的查找数据的经验、及使用数据的经历,可能导致较高的数据筛选能力。

3.4.4 数据查找困难度与数据检索能力相关分析

为探究用户对数据查找困难程度与检索能力之间的关系,本研究采用Spearman法对两组变量进行相关性分析。

表5 数据检索能力与数据查找困难度的相关分析

根据相关分析的结果表5所示,P值小于0.05,则认为检索能力与查找数据的困难度具有统计学意义的相关性,r值为-0.263,则说明二者之间具有负相关性,即随着检索能力的提高,查找数据的困难度会降低。通常讲,当0.2

查找数据的困难度可能与多种因素有关,比如用户的研究任务、用户个性不同对困难的感知程度不同等,都会影响对困难度的衡量,检索能力是一部分,虽然相关性较弱,但是也应得到充分重视。

4 结语

根据本研究的研究结果,56%的用户数据需求较强,40%的用户数据需求较弱,以及3.45%的用户没有使用过数据。数据需求低,一方面是由研究层次或研究任务决定的,一方面是用户没有意识到自己的数据需求,即需求还处在初始或萌芽阶段,对于这类用户需要对其进行引导,使其意识到数据作为资源对于科学研究的促进作用,如访谈用户S9说:“自己有的时候也想不到要用数据,看别人的论文时发现别人用了,自己就想去找找看有没有更新的数据”。即数据需求是可以培养的,并不是所有用户一开始就知道自己需要或不需要数据,而是在研究的过程中通过阅读、学习,逐渐明晰自己的数据需求。图书馆在提供数据服务时,对于数据需求较低的用户,可着重于数据使用意识的培养,包括数据价值的解释、科研范式转化的介绍等。

通过对用户查找数据时的感受和查找数据耗费的时间进行调查,研究发现大多数用户表示查找数据非常麻烦,要耗费很长的时间。并且据访谈用户表示,找数据经常需要找很久,但是经常竹篮打水,有时甚至会因为找不到相关数据而更改研究设计(S14)。访谈用户认为,查找数据麻烦的主要原因有:①数据不公开导致。大多数用户表示,自己找不到数据是因为被调查数据不公开发布,或者有些数据确实存在,也联系了相关人员,但是还是难以获得。如访谈用户S6说:“有一次在找关于阿坝州的数据,询问当地的政府,说明是以学术研究为目的,但是对方还是不肯提供。”②不存在相关数据。部分研究者表明,自己的科研内容比较具有创新性,目前还不存在已经调查好的数据(S15)。③数据收费。数据资源具有巨大的潜在价值,就是普通的统计数据有时也能产生巨大的影响,所以数据收费是目前的普遍现象。虽有少部分用户表示可以接受收费,但是大多数用户表示会放弃收费数据,转而寻找可替代的。④数据检索能力欠缺。在大学课程里有很多关于文献信息的检索课,但是却欠缺关于数据检索的培训,多数用户表示自己在检索数据时多次构建检索式但还是检索不出想要的结果(S6)。

通过对数据检索能力进行调查,发现被调查用户普遍检索能力一般。通过用户查找数据困难度与数据检索能力的相关性分析得出,数据检索能力的提高,确实可以一定程度上减少用户的数据查找困难度。相对而言更需要提升的为对本专业数据源的熟悉程度和数据源评价能力,用户已基本具有选择数据源的能力并且掌握了一定的检索方法。通过分别对有关检索能力的四项内容与身份、专业做方差分析,得到的结果为:①数值型数据库熟悉程度与身份有关,与专业无关。在身份分组中,从本科到教师,随着身份层次的增高,对于本专业数值型数据库的熟悉程度逐渐增高,硕士、博士相差不大。②数据源选择能力与身份、专业均具有关联性。在身份分组中,数据源选择能力最低的为博士生,其次为本科生、硕士生,最高的为教师。在专业分组中,数据源选择能力最强的专业为教育学,最低的为管理学专业,其他专业差别不大。③是否掌握了检索方法与身份、专业无关。④数据源评价能力与身份无关,与专业有关。数据源评价能力最强的专业为管理学,其次为教育学、经济学、法学,最低的为文学类专业用户。通过本研究,可以为用户提供更有针对性、更高效的培训服务。需要重点向本科生介绍本专业数据源,提高博士研究者、及管理学用户的数据源选择能力,提升文学用户的数据源评价能力。

随着科学研究范式的转变,数据在科学研究中发挥着越来越重要的作用,数据素养也成为研究者亟需提升的素养之一。但是目前在用户数据查询方面的研究还较少,本研究具有抛砖引玉的作用。

猜你喜欢
数据源检索身份
Web 大数据系统数据源选择*
跟踪导练(三)(5)
妈妈的N种身份
基于不同网络数据源的期刊评价研究
身份案(下)
专利检索中“语义”的表现
基于真值发现的冲突数据源质量评价算法
放松一下 隐瞒身份
分布式异构数据源标准化查询设计与实现
国际标准检索