郭倩 李建霞
摘 要 论文利用问卷调查数据,聚焦数据素养能力培养中的安全伦理问题,通过因子分析和回归分析,对数据素养能力的影响因素及安全伦理问题进行研究,指出数据安全伦理教育应贯穿于数据需求利用的所有环节,高校在加强学生的专业数据素养教育、提高其数据处理和管理运用能力的同时,应平衡数据挖掘、价值开发和隐私保护之间的关系。
关键词 信息素养 数据素养教育 数据安全 数据素养能力
分类号 G251
DOI 10.16810/j.cnki.1672-514X.2019.05.003
Abstract By using the questionnaire data, this paper focuses on the safety ethics in the cultivation of data literacy ability, and analyzes the influencing factors and safety ethics problems of data literacy ability through factor analysis and regression analysis. This paper points out that data safety ethics education should run through all aspects of data demand utilization. While strengthening students professional data literacy education and improving their data processing, management and application ability, universities should balance the relationship between data mining, value development and privacy protection.
Keywords Information literacy. Data literacy education. Data safety. Data literacy ability.
随着云计算的快速发展,海量数据得以迅速扩张,使得数据在日常工作及生活中的作用和影响力越来越大。数据不再是仅仅局限于支持科研成果验证的补充材料,已被视为一种独立的科研成果。可以说,从传统到新兴行业都面临着数据驱动创新的挑战,从个人生活到政府管理都趋向数据驱动的决策。2017年12月,习近平总书记指出:“在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力……善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功。”但是,在实际应用中,人们往往容易忽略对数据存取和利用过程的合法性判定。据调查,目前理工科和医药科学的学生随意引用数据的行为时有发生,这一现象与我国侧重知识传授而忽略伦理培养的教育环境有关。为此,高校的数据素养教育必须加强数据安全防范意识及伦理培养。本文在探讨数据素养内涵及数据安全伦理的基础上,运用问卷调查分析高校学生的数据素养能力现状和安全伦理问题,以期为数据素养教育及能力培养提供策略建议。
1 数据素养与数据安全伦理
1.1 数据素养概念及内涵
关于“数据素养”的概念和内涵,目前尚未形成统一的认识,因而在术语上有“数据信息素养”“科学数据素养”等称谓[1]。综观现有文献中对数据素养定义的研究,多是从数据素养与其他素养的关系切入,在讨论其异同的基础上进行深入阐述,其中具有代表性的观点有两类。
(1)数据素养是在其他素养的基础上衍生出的一种素养,是其他素养的延伸和扩展,并与其他素养交叉融合。如,Schield(2004)[2]认为数据素养是信息素养和统计素养的重要组成部分,具备数据素养的人必须有获取、评估、处理、总结和呈现数据的能力。Vahey(2012)[3]等提出数据素养是跨学科的、交叉存在的,强调数据背景、数据表征、数据分析和数据说理四个方面。郝媛玲、沈婷婷(2016)[4]认为数据素养是对统计素养和信息素养的延伸和扩展,指出数据素养不仅应具备数据意识和数据敏感性,还要能够有效且恰当地对数据进行获取、分析、处理、利用和展现,同时要具备对数据批判性思维的能力。
(2)数据素养的概念与其他类型素养等同,是拥有对数据的敏感性且能熟练进行一系列数据操作的关键技能。Stephenson和Caravello(2007)[5]等认为数据素养是指有效且恰当的发现、评估、使用数据的一种意识和能力。张晨(2014)[6]认为数据素养主要包含对数据的辨识能力和综合应用能力两个方面。张艳梅(2015)[7]认为数据素养是在数据行为主体符合社会伦理和道德伦理的基础上,对数据进行辩证、科学正确的认识、操作和管理,运用数据挖掘其蕴含巨大价值的能力。
综合来看,以上两种观点都强调了对数据的组织、管理和应用。笔者认为,目前的数据素养首先应关注数据价值、意义及安全伦理,其次才是数据分析、处理和统计等一系列数据安全操作的专业技能。因此,数据素养是一种能力,具备数据素养的人都具有一定的数据敏感性,能够有效恰当地发现数据的价值,且普遍遵循数据使用过程应坚守的道德与规范,并能在数据获取、利用、管理过程具备一定的专业操作技能。
1.2 数据安全与数据伦理
在日益兴起的数据密集型科研范式和不断发展的e-Science时代,数据意识及安全伦理教育已逐渐受到学界的重视。2007年Jim Gray指出数据伦理是科研人员的必备素养;2015年Landau S.在《科学》(Science)专刊讨论科研数据利用过程中的数据隐私保护问题[8];2016年黄如花、李白杨[9]指出数据素养教育应以培养数据意识、数据能力和树立数据伦理为主要内容。刘三女牙、杨宗凯(2017)等[10]认为教育数据伦理是当前大数据时代的新挑战。何胜、周兵(2017)等[11]提出了意识培养、能力提高和伦理内化的“大数据素养”教育策略。郝媛玲等(2016)[12]通过对数据引用方法和法规的熟悉程度来衡量研究生的数据伦理道德。黄如花、林焱(2016)[13]将对数据产权及隐私權、数据伦理原则的了解程度、能否对所引数据进行规范说明作为学生数据伦理的评价标准。在科研数据管理平台实践及相关数据安全政策实施方面,《武汉大学数据管理办法》 强调了对内部数据的管理整合及数据安全、质量的管理,北京大学“开放研究数据平台用户指南”对用户如何合理有效的利用他人的数据以及分享自己的数据都有明确的规定和说明。可见,在知识产权视角下,数据已成为具有所有权、使用权等属性的一种资产,而围绕数据使用、交流所展开的数据伦理论证和研究也已成为数据素养能力的重要组成部分。
2 高校学生数据素养能力调查研究
在数据素养能力的实证研究方面,王维佳、曹树金等[14]对科研人员数据素养能力进行了因子分析;隆茜对高校不同群体(大学教师、博士生、硕士生、本科生) 的数据素养能力现状进行调查研究[15]。本文将聚焦数据素养能力培养中的安全与伦理问题,分析高校学生的数据素养能力现状和影响因素,为促进数据文化、数据意识、数据技能的提升提供参考。
2.1 数据素养能力构成要素及調查内容
关于个体数据素养能力构成,笔者综合国内外相关研究成果[14-18],从六个方面对数据素养能力进行调查(见表1)。其中,数据意识是人们对数据价值和数据基本特征的感知和了解,是数据素养的先决条件;数据获取、处理与运用、分析与评价、交流与共享等能力都属于数据技能问题,是数据素养提升的核心内容;数据伦理是在具备基本的数据意识和拥有一定的数据能力的基础上,使用者应持有的道德规范和应遵循的行为准则,是合法合规利用数据的保证。
本文通过“问卷星”专业问卷在线调查平台,以国内高校在读博士生、硕士生和本科生为调查样本,采用李克特五分量表法,每个问题设置1~5分的分值,学生可根据自己的实际情况自评打分,5分最高,1分为最低。调查时间为2018年3月28日到2018年4月16日,共收回问卷450份。鉴于目前我国数据素养教育开展的程度,剔除专职生及填写信息不完整的问卷,剩余有效问卷418份,有效率92.89%,满足问卷统计分析的基本要求。
2.2 调查数据的KMO检验和公因子提取
公因子提取是通过因子分析在多个观测变量中寻找公因子,用公因子来充分反映原始变量信息的一种多元统计分析方法,它可以通过线性变化将高维原始变量空间映射到低维特征空间,从而最大限度地以降维处理抽取指标的信息(详情可参照笔者前期成果[26])。为了确定调查数据是否适合做因子分析,首先需计算其KMO检验值,一般认为KMO的测定结果在0.9以上表示非常适合进行因子分析,在0.7以上表示可以。将观测变量导入SPSS22.0运行,结果发现其KMO的测定结果为0.866,达到和超过了Kaiser要求的0.7这一统计标准,巴特利特球形检验的显著性水平Sig.为0.000,也远小于0.05的标准,表明这些变量的原始数据具有相关性(见表2),适合进行因子分析。
变量共同度即变量方差,是每个原始变量在每个共同因子的负荷量的平方和,表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度就越高。Tabachnick和Fidell(2013)认为公因子方差大于0.55时,可认为良好,达到0.50即可接受[27]。根据以上指标计算得到的数据素养能力6个维度的共同度(见表3)都在0.789以上,进一步说明这17个观测变量是高校数据素养能力测评的重要影响因素,也适于做因子分析。
根据原始变量的系数矩阵,按照Promax转轴法将因子载荷矩阵进行旋转后,采用主成份法提取前3个特征根,得到提取出的公因子及方差(见表4)。可以看出,因子分析提取的3个公因子方差累积贡献率达到89.59%,说明其反映了原始变量的绝大部分信息,可以用这3个公因子来测评学生的数据素养能力。其中,公因子1与数据处理、分析和交流等技能高度相关,故将其命名为数据操作能力;公因子2主要与数据意识和数据获取相关,将其命名为数据认知能力;公因子3则主要涉及数据安全与伦理内容,故将其命名为数据伦理水平。由此可知,影响高校学生数据素养能力水平的主要因素包括数据操作能力、数据认知能力和数据伦理水平。其中的数据操作能力是核心,数据认知能力和数据伦理水平是其不可分割的重要组成部分。
2.3 统计分析
在国外,数据伦理和道德教育始终被放在优先的位置,是开展一切数据活动的准则。美国NIH强调科研诚信包括客观的报道研究成果,注意遵守特定的规则、条例和准则,对研究过程产生的数据持审慎的态度和行为等内容[28]。如今,科研人员遇到了越来越多的数据监管、出版、引用及数据生命周期等数据素养方面的相关问题[29]。基于此,本研究对数据与伦理的调查主要包括“能够在数据利用过程中遵守学术道德和法律法规”“能够对科学研究过程中产生的数据的真实有效性负责”和“能够合理运用数据加密或访问权限等方式保护数据”三个具体要素,调查结果见图1。
统计发现,调研对象中38%的人认为在数据利用过程中完全遵守了学术道德和法律法规,17.5%的人略有欠缺,而44.5%的人得分在3分以下,说明有将近一半的人在数据利用过程中遵守学术道德能力不佳;在对数据的真实有效性负责一题中,仅有20%的人认为自己可以完全负责,而56.4%的人得分在3分以下,说明其在使用数据的过程中不能对自己获取数据的真实有效性很好地负责;在合理运用加密访问权限保护数据一题,仅有10.3%的人得满分,高达69.4%的人得分在3分以下,说明绝大多数人在数据使用中不懂得安全保护。由此可见,我国高校学生的数据安全与伦理意识比较淡薄,迫切需要通过数据素养教育来进行加强。
2.4 影响分析
前文利用公因子提取对高校数据素养能力的内部影响因素进行了分析,但其无法估计和测算数据素养能力的外部影响因素及其作用大小。众所周知,高校的数据技能培养离不开其教育资源投入,同时数据意识、数据伦理与数据技能之间的关系密不可分。通过对高校数据素养能力及影响因素的实证分析,将有利于优化高校数据素养教育的资源配置,为高校数据素养能力培养和伦理建设提供理论和实践依据。为此,笔者结合我国高校数据素养能力培养的实际运行特点,选择数据素养能力培养中的教育资源、数据意识、数据安全与伦理三个内外部因素作为自变量,以数据技能作为因变量,进行线性回归分析,以研究它们之间的相互关系和作用大小。其中教育资源包括所开设数据技能相关课程的门数、参与学校数据技能培训的次数、访问过的统计数据库个数;数据技能包括了数据获取、数据处理与运用、数据分析与评价、数据交流与共享能力。
经线性回归发现(见表5),对因变量个体数据技能有显著影响的变量为教育资源、数据意识和数据安全与伦理,其显著性检验p<0.05,回归系数至少一个不为0,说明所建立的回归模型有统计学意义。
表5显示,以教育资源、数据意识、数据安全与伦理作为预测变量代替其他变量建立模型,回归系数均显著(见表6),即教育资源、数据意识、数据安全与伦理对个体数据技能均有显著影响,且教育资源每增加一单位,个体数据技能增加0.066个单位;数据意识每增加一单位则个体数据技能增加0.095个单位;而数据安全与伦理每增加一单位,个体数据技能则增加0.103个单位。可见,在以上三个因素中,数据安全与伦理对个体数据技能的影响最大,因此,数据密集型科研范式下,高校在加强学生数据技能的同时,一定不能忽视数据安全意识和数据伦理培养。
3 基于数据素养能力的安全与伦理培养
实证分析表明,高校学生数据素养能力中的数据安全与伦理状况堪忧,而数据伦理又是数据素养及数据技能提升不可或缺的重要组成部分。根据习近平总书记提出要“强化国家关键数据资源保护能力,增强数据安全预警和溯源能力”的指示。关于数据信息价值开发与使用的安全伦理问题研究、对于数据素养能力中的安全与伦理培养已然是我国现阶段应当着手应对的重点问题。
3.1 数据需求与利用中的安全与伦理培养
调查显示,在数据需求与利用过程中,高校学生的安全伦理意识还存在很大不足。数据素养教育的目的就是为了培养用户对数据的敏感性及数据获取、分析、处理等一系列数据安全操作的专业技能,基于数据生命周期的科研数据需求特征及利用行为研究已成为数据素养教育的一个重要领域。为此,首先,应针对不同学科、不同领域之间的差异来明确不同用户的数据需求特征,以便更好地保障科研中的数据利用。其次,要加强学生注意各个环节的数据安全意识,禁止一切不符合道德、伦理和法规的访问、销毁、更改或删除以及在获取和保存过程中的数据安全问题的发生,科研人员不仅要注意科研过程中所遇到的隐私数据和权限许可的问题,还要对自身所生产的特殊数据进行加密。最后,应培养学生的知识产权理念,强调其在合法基础上获得数据,并正确地表达数据来源,对于那些有版权的数据和敏感、机密的数据,未经许可不能访问使用。
3.2 数据挖掘过程中的安全与伦理教育
在信息开放共享的大数据时代,数据成为一种生产要素,决策者对数据挖掘的精确程度直接影响到决策有效性的高低,但统计显示:仅有14.3%的调查对象认为自己能熟练运用软件来处理数据;有10.3%的人能熟练统计和分析数据;6%的人能熟练使用数据建模工具。可见高校学生的数据处理、挖掘技能相当欠缺。数据素养教育就是培养学生的数据处理和挖掘能力,由于大数据处理技术本身就强调数据的关联度,数据素养教育培训的结果就是从看似杂乱无序的数据中找寻关联信息从而获取知识,但如果对信息和数据过度挖掘则可能侵害个人的隐私权,同时肆意追求数据挖掘的广度和深度也可能危及数据安全,进而也会使数据在高等教育中的应用受到质疑。所以,高校内部在加强学生数据挖掘和处理能力的同时,也要对教育数据设置清晰的访问权限,并从分析其存在的伦理风险入手,平衡数据挖掘、价值开发与隐私保护、安全伦理之间的关系,在加强对学生的专业数据素养教育、提高其数据处理与管理运用能力的同时,不断强化其数据伦理和数据安全意识;从外部环境来说,要积极促成政府、行业和其他组织多方共建的数据安全伦理保护机制,做到对数据信息价值的合理开发与适度挖掘,以维护数据生态的公平公正。
3.3 数据开放与共享中的安全伦理教育
调查发现,在“能够与其他人共享数据”这一问题中有81.30%的人得分在3分以下。由此可知,当前高校学生对数据的交流共享并未足够重视。而且,“数据共享”的相关主体包括了数据生产者和数据使用者。就数据生产者而言,要本着对数据负责的态度,发布真实、准确的数据;而对数据使用者来说,则要求在引用数据的过程中正确标注其来源。但在目前的安全伦理教育中,人们往往偏重于对数据使用者的行为进行规范,而忽略了对数据生产者的行为约束。如今,数据开放共享已成为国际趋势,大数据环境下数据价值开发所面临的核心问题就是数据共享的伦理约束和数据共享的边界问题,只有完善了数据共享的促进和约束机制,才能保障数据价值开发的合理有序进行[31]。为此,政府、高校和科研机构应广泛开展科学数据的共享服務与实践,在加强对数据使用者和生产者行为规范的同时,也要关注在数据共享过程中对机密和敏感数据的保护。此外,高校的数据素养教育还应重视数据交流共享的安全以及其中所包含的所有权、版权以及知识产权等问题的讨论,将数据素养教育开展的重心放在注重数据隐私安全与伦理意识的培养上来。
4 结语
数据安全伦理教育是加强数据意识培养的关键,同时也是数据素养走进大众化教育的前提,在新一代移动智能工具逐步普及的情况下,理解数据的价值和负面影响、把握数据、用好数据、并保证数据安全传播与共享,将成为下一阶段数据素养竞争的关键。而推进大数据环境中开放数据的安全管理和大众化、个性化、智慧化的数据素养教育是时代发展下数据素养教育不断跟进、持续发展的方向所在。
参考文献:
孟祥保,常娥,叶兰.数据素养研究:源起、现状与展望[J].中国图书馆学报,2016,42(2):109-126.
SCHIELD M. Information literacy, statistical literacy and data literacy[J]. Iassist Quarterly,2004(2-3):6-11.
VAHEY P, RAFANAN K, PATTON C, et al. A cross-disciplinary approach to teaching data literacy and proportionality[J].Educational Studies in Mathematics, 2012, 81(2):179-205.
郝媛玲,沈婷婷.数据素养及其培养机制的构建与策略思考[J].情报理论与实践,2016,39(1):58-63.
STEPHENSON E, CARAVELLO P S. Incorporating data literacy into undergraduate information literacy programs in the social sciences: a pilot project[J]. Reference Services Review,2007,35(4):525-540.
张晨.大数据时代的图书馆与数据素养教育[J].图书与情报, 2014(4):117-119.
张艳梅.用户数据素养教育视角下的图书馆科学数据管理研究[J].图书与情报,2015(4):139-141.
LANDAU S. Control use of data to protect privacy[J]. Science,2015,347(6221):504-506.
黄如花,李白杨.数据素养教育:大数据时代信息素养教育的拓展[J].图书情报知识,2016(1):21-29.
刘三女牙,杨宗凯,李卿.教育数据伦理:大数据时代教育的新挑战[J].教育研究,2017(4):15-20.
何胜,周兵,李仁璞,等.面向高校教师的图书馆“大数
据素养”教育策略研究[J].现代情报,2017,37(7):84-88.
郝媛玲,沈婷婷.高校文理科研究生数据素养比较[J].图书馆论坛,2016,36(8):126-132.
黄如花,林焱.大数据背景下数据素养教育研究[J].数字图书馆论坛,2016(5):19-26.
王维佳,曹树金, 廖昀赟. 数据素养能力评价与大学图
书馆数据素养教育的思考[J].图書馆杂志,2016(8):
96-102.
隆茜.数据素养能力指标体系构建及高校师生数据素养能力现状调查与分析[J].图书馆,2015(12):51-56.
QIN JIAN. Lessons learned from a two-year experience in science data literacy education[EB/OL].[2017-12-10]. http://docs.lib.purdue.edu/cgi/viewcontent.cgi?article=1009&context=iatul2010.
CARLSON J, FOSMIRE M, MILLER C C, et al. Determining data information literacy needs: a study of students and research faculty[J]. Portal Libraries & the Academy, 2011,11(3):257-271.
李娟.大数据时代大学生的数据素养[J].青年记者, 2016(8):17-18.
沈玖玖,吴成,蒋雨婷,等.数据素养对科研绩效的影响模型分析[J]. 情报理论与实践,2017,40(6):44-50.
刘爱琴,王友林,尚珊.MOOC环境下数据素养能力评价系统研究[J].数字图书馆论坛,2018(1):68-72.
李青,任一姝.教师数据素养能力模型及发展策略研究[J].开放教育研究,2016,22(6):65-73.
张晓阳,李楣.基于胜任特征的研究生数据索养能力测评量表研究[J].图书情报工作,2017(8):89-95.
董薇. 数据密集型科研范式下馆员数据素养能力培养路径分析[J].数字图书馆论坛,2017(11):66-72.
胡卉,吴鸣.嵌入科研工作流与数据生命周期的数据素养能力研究[J].图书与情报,2016(4):125-137.
邓李君,杨文建.个体数据素养评价体系及相关指标内涵研究进展[J].图书情报工作,2017(3):140-147.
梁茹,李建霞,刘颖,等.高校图书馆数字资源综合服务能力评价[J].大学图书馆学报,2015,33(2):38-46.
TABACHNICK B G, FIDELL L S. Using multivariate statistics (6th Ed.) [M]. Boston, MA:Allyn & Bacon,2013.
What is research integrity?[EB/OL].[2016-01-25]. http://grants.nih.gov/grants/research_integrity/whatis.htm.
郝媛玲,沈婷婷,高珊.高校数据素养教育实践的思考和建议:基于哈佛大学案例和我国图书情报人员访谈的分析[J].图书情报工作,2015(12):44-51.
吴建中.推进开放数据助力开放科学[J].图书馆杂志,2018,38(2).
李伦,孙保学,李波.大数据信息价值开发的伦理约束:机制框架与中国聚焦[J].湖南师范大学社会科学学报,2018(1):1-8.