孙庆媚,时纪林,刘 旸
(1.大连大学 经济管理学院,辽宁 大连 116622;2.大连大学 机械工程学院,辽宁 大连 116622)
随着全球网络数据爆发式增长的新态势,大数据已成为国家在全球范围内的首要战略资源,是提升国家综合竞争力的重要资源,在经济社会发展中的基础性、战略性和领先地位日益显现[1]。数字经济作为当下经济发展的重要趋势之一,在国家“十四五”规划中占有一席之地。《加快发展现代产业体系,推动经济体系优化升级》明确提出,要发展数字经济,推进数字产业化和工业数字化,推动数字经济和实体经济融合发展,打造具有国际竞争力的数字产业综合体[2]。由此可见,数字经济是未来国家发展的重点,也是产业重大转型的关键要素。在现代信息技术蓬勃发展的背景下,传统的信息素养已经无法满足高校学生应对数字经济时代的发展需求,如何具备较高的数据素养,共同建设“网络强国、数字中国”,是时代发展对当下高校大学生的考验。基于此,以辽宁省某应用型高校学生为调查主体,从数据收集与获取、数据分析与评价、数据储存与管理和数据道德与伦理4个层面构建模糊综合评价模型,对高校学生数据素养综合水平进行评价,以期能为提升高校学生数据素养提供一定的对策建议。
数据素养的概念及内涵在国内外各个领域尚未形成确切统一的认知。但总体来说,大致可以提炼为:“具备数据意识和数据敏感性,能够有效且恰当地获取、分析、处理、利用和展现数据,因此,数据素养是对统计素养和信息素养的延伸和扩展[3]”。
对辽宁省某应用型高校大学生进行调查研究,通过随机抽样调查分析该校大学生的数据素养水平。本次调研共发放问卷292份,回收有效问卷269份,回收率为92.12%。下面将从数据收集与获取、数据分析与评价、数据储存与管理、数据道德与伦理等4个维度评估该校大学生的数据素养水平。
数据收集与获取能力是指数据收集意识,以及验证其科学合理性并根据需要快速获取数据的能力[4]。表1为所调研高校学生数据收集与获取能力的基本情况,对于“能够保证收集的各类数据全面准确,避免数据错误与数据损坏等情况”,31.97%的受访大学生表示“比较符合”,仅有1.86%的大学生表示“十分不符合”,说明高校学生在收集数据时,通常能保证数据的全面和准确。对于“具备数据检索与收集的基本能力,熟练掌握数据收集方法及工具”的问题,选择“一般符合”“比较符合”和“十分符合”的大学生占比分别为44.61%、30.48%以及11.15%,说明高校学生基本掌握数据收集方法及工具。关于“能够运用学科领域相关的数据存储库”,39.78%的大学生选择“一般符合”,29%的大学生认为“十分符合”;对于问题“能够熟练获取各类数据,了解数据源如获取途径或数据库等”,28.25%的大学生选择“比较符合”,11.9%的受访者表示“十分符合”;此外,就“能够对获取的各种形式的数据作准确解读”而言,43.12%的大学生表示“一般符合”,27.51%的大学生表示“比较符合”,表示“十分符合”的大学生占比11.52%。
上述结果表明,多数大学生在数据的收集、检索、解读以及相关数据库的应用方面能力良好,但仍有部分大学生不能够熟练运用学科领域相关的数据存储库。
表1 数据收集与获取的调查结果
数据分析与评价能力意味着能够处理和分析通过适当的统计分析方法收集的数据,以便进一步研究数据。表2显示的是所调研高校学生数据分析与评价能力的调查结果,对于“能够对收集的数据做描述性统计分析或探索性分析”的提问,28.62%的大学生表示“比较符合”,12.27%的大学生表示“十分符合”,仅有2.6%的受访者表示“十分不符合”;对于“了解数据分析的基本步骤,掌握数据格式的转化方法”,29%的大学生表示“比较符合”,11.52%的大学生表示“十分符合”;对于“能够运用Stata、SPSS、R语言等专业数据分析软件对数据作恰当的统计分析”,32.71%的大学生选择“一般符合”,23.79%的受访者选择“比较符合”,选择“十分符合”的大学生占比17.47%;对于“能够运用Excel统计图如柱状图、散点图等来表征并揭示数据中隐含的趋势、变化等”的提问28.62%的大学生选择“比较符合”,16.73%的大学生选择“十分符合”;对于“能够利用Gephi、Exhibit和Gnuplot等软件对数据进行可视化”,15.24%的受访大学生表示“比较符合”,6.32%的大学生表示“十分符合”,值得注意的是,表示“十分不符合”的大学生占比21.56%。
上述调查结果表明,高校学生基本掌握数据分析与评价的能力,但部分同学对于数据的可视化和进一步处理存在很大程度上的不足。
表2 数据分析与评价的基本情况
数据储存与管理能力是指使用适当的管理方法和工具对数据进行高效存储、定期备份、更新和分类的能力[5]。表3是所调研高校学生数据储存与管理能力的基本情况,对于“了解数据保存的成本”的提问,选择“一般符合”的大学生占比39.03%,选择“比较符合”的大学生占比17.84%,选择“十分符合”的大学生占比12.64%;对于“能够将数据保存在计算机内部或者外部介质中,方便利用或读取”的提问,选择“一般符合”的大学生占比40.89%,选择“比较符合”的大学生占比25.65%,选择“十分符合”的大学生占比13.75%;对于“能够制定合理的数据保存方案”的提问,表示“一般符合”“比较符合”和“十分符合”的大学生分别占比43.49%、21.19%和14.13%;对于“了解数据的管理流程,能熟悉利用不同数据管理平台和工具”的提问,表示“一般符合”、“比较符合”和“十分符合”的大学生分别占比40.89%、23.42%和11.52%;对于“通过定期备份、异地备份、损失预防、版本控制等解决方案保存数据文件”的提问,表示“一般符合”的大学生占比41.26%,表示“比较符合”的大学生占比27.51%,表示“十分符合”的大学生占比13.38%。
上述调查结果表明,大学生在数据储存与管理方面的能力良好,基本了解数据保存成本,能够合理地保存和管理数据。
表3 数据储存与管理的调查结果
数据道德与伦理包括遵守数据标准、数据安全、数据法律法规。在整个数据使用过程中,应严格执行有关数据管理的规定[6]。表4是所调研高校学生数据伦理与道德基本情况的调查结果,就“掌握数据防护、处理、储存的安全措施,积极维护数据安全”来说,选择“一般符合”“比较符合”和“十分符合”的大学生占比分别为40.89%、27.14%和13.38%;就“了解数据采集、使用、共享等过程中所涉及的道德问题”而言,选择“一般符合”“比较符合”和“十分符合”的大学生占比分别高达38.29%、31.23%和16.73%,而选择“十分不符合”“比较不符合”的大学生占比分别仅有2.6%和11.15%;就“尊重个人或机构的数据所有权和知识产权,使用数据时能够注明出处”而言,选择“一般符合”“比较符合”和“十分符合”的大学生,其占比分别高达34.94%、32.71%和21.56%,而选择“比较不符合”和“十分不符合”的大学生,其占比分别仅有9.29%和1.49%;就“明确机密性和隐私性数据的储存解决方案”而言,选择“一般符合”“比较符合”和“十分符合”的大学生,其占比分别高达34.94%、30.48%和19.7%,而选择“比较不符合”和“十分不符合”的大学生,其占比分别仅有11.15%和3.72%。
上述调查结果表明,大学生在数据伦理与道德方面的能力良好,能积极维护数据安全、了解和尊重数据使用过程中的产权问题。
表4 数据伦理与道德的调查结果
将采用模糊综合评价法对大学生数据素养能力进行定量分析,为使各个指标权重更加客观,采用熵权法对各个指标进行赋权,最后计算出各个一级指标的综合得分,进而计算出高校大学生数据素养的总体得分。
大学生数据素养评价指标体系旨在从不同维度体现大学生数据素养,结合“十四五”规划中数据素养与数字经济的相关内容以及当代高校数据素养能力现状构建指标体系,见表5。
表5 数据素养评价指标体系
使用Cronbachα系数来测量整个量表的内部一致性系数,信度系数值为0.961,大于0.9,且检验结果显示各个量表系数值都大于0.8,说明信度非常高;KMO值大于0.8,说明结构效度良好。综上所述,问卷所收集数据可用于进一步分析。表6给出了量表总体内部一致性系数检验,表7和表8则为量表各主要层面内部一致性系数及巴特利特检验结果。
表6 总体一致性检验结果
表7 主要层面一致性检验结果
表8 KMO 和巴特利特检验结果
因素集U={A,E,M,V}。
评语集V={1,2,3,4,5}(十分不符合~十分符合)。
熵权法是一种客观确定权重的方法,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,则指标离散程度越大,该指标对综合评价的影响就越大。
将量表统计结果即二级指标的数据导入Python后,利用熵权法计算出各级指标相应的权重矩阵,见表9。
表9 权重矩阵
为了构建模糊评价矩阵,首先,用投票法确定评语集V。再利用所确定的评语集V对二级因素进行评判得到综合评价矩阵。以二级指标A1为例,根据问卷数据有1.86%的人投了“十分不符合”,10.03%的人投了“比较不符合”,44.23%的人投了“一般符合”,31.97%的人投了“比较符合”,11.89%的人投了“十分符合”。从大学生在保证收集的各类数据全面准确、避免数据错误与数据损坏等情况方面来看,其在评语集“十分不符合”的隶属度为0.018 6,“比较不符合”的隶属度为0.100 3,“一般符合”的隶属度为0.442 3,“比较符合”的隶属度为0.319 7,“十分符合”的隶属度为0.118 9,因此可以得到关于A(数据收集与获取)的隶属矩阵R1为
(1)
以此类推,可以得到关于E(数据分析与评价)的隶属度矩阵R2,关于S(数据储存与管理)的隶属度矩阵R3,以及关于M(数据道德与伦理)的隶属度矩阵R4。
(2)
(3)
(4)
进一步地,通过权重矩阵和隶属度矩阵相乘,可以得到综合评价矩阵B。以二级指标A1、A2、A3、A4和A5为例,W1和R1相乘得到矩阵B1,表明大学生数据获取与收集能力在评语集“十分不符合”的隶属度为0.026 7,“比较不符合”的隶属度为0.142 0,“一般符合”的隶属度为0.423 7,“比较符合”的隶属度为0.292 6,“很不符合”的隶属度为0.114 3。以此类推,还可以得到B2、B3和B4。
B1=W1·R1=
(0.026 7 0.142 0 0.423 7 0.292 6 0.114 3)
(5)
B2=W2·R2=
(0.135 7 0.221 9 0.340 4 0.215 1 0.085 8)
(6)
B3=W3·R3=
(0.072 0 0.162 4 0.408 7 0.225 7 0.130 0)
(7)
B4=W4·R4=
(0.036 1 0.113 7 0.375 7 0.300 2 0.173 8)
(8)
最后,将B1、B2、B3、B4构成新的模糊综合评价矩阵进行评判。
(9)
根据以上分析可以发现,对于数据素养能力,其属于评语集“一般符合”的隶属度较高,据此可以得出所调研高校学生数据素养总体处于一般水平。
为了更为具体地阐明这一问题,考虑将评语集V转化为李克特量表,即“十分不符合”“比较不符合”“一般符合”“比较符合”“十分符合”分别用得分1、2、3、4、5来替代。再采用加权平均的方法将一级因素和二级因素的结果进行量化,以提出更加全面和精确的结论。
(10)
以此类推,再次依据熵权法的结果可以得到各一级指标的得分见表10。
表10 一级指标得分
从模型中发现,所调研高校学生在数据伦理道德方面得分3.461 6,相对最高,说明大学生能够较好地关注数据在使用和共享中的隐私和安全问题,比较尊重和支持数据有关的知识产权。
相比之下,所调研高校学生在数据分析与评价方面得分2.891 5,相对最低,说明大学生对数据分析等软件的使用较为陌生,难以将数据分析能力与专业和生活很好地结合起来。
高校学生应在数据的收集获取、分析评价、储存管理以及数据道德等各方面综合提升自身的数据素养综合水平。应将所得到的各种数据及时整合、融入到知识体系消化理解,尤其应当建立起所学学科专业领域的数据分析与评价能力。
数字经济时代背景下,高校教师在行动上应具有基于培养高校学生数据素养的课堂教学和科研的理念。高校教师应提高自身的大数据素养,在学科相关数据库中,对有效及有益信息进行筛选,凭借专业的知识和能力,对相关数据背后所反映的信息进行分析,对所授课程融入数字教学环节,借助高校课堂的氛围对学生进行熏陶和影响。
高校应将数据素养能力纳入人才培养目标。定期开设相关的选修课程,如文献检索课程、数据库检索课程。结合现在的数据时代背景,在各个学科建设中融入相关的数据知识,以建立更加综合、与时俱进的学科培养体系,并设立相关的考核指标,切实地将数据素养能力嵌入到人才培养的全过程。