朱美光, 张李盈, 王忠勇, 赵 军
(1.郑州大学 旅游管理学院,河南 郑州 450001; 2.郑州大学 数学与统计学院,河南 郑州 450001; 3.河南财政金融学院 人工智能学院,河南 郑州 450046; 4.郑州大学 力学与安全工程学院,河南 郑州 450001)
截至2020年年底,全球移动互联网用户规模达44.6亿,全球数字经济占GDP比重已超15%。随着数据爆发式增长与海量集聚,大数据逐步融入人们日常生活。个人社交、交通出行、旅居行为和健康状况上报等生活方式产生大量实时数据;门户网站、商务评论、用户评价,天气预报、医护监测、公民决策、社交留言、电子访问等信息交互形成多源海量异构的动态数据。
大数据背景下,“互联网+电子政务”也成为政府部门放管服的重要组成部分。目前,灵活运用信息和数据的能力对个人决策(如选择出行路线、学校、投资公司等)至关重要[1],数据逐渐成为经济的新资源、发展的新引擎、信息的新矿山、科研的新依据和决策的新源泉[2-7],成为渗透各行各业的重要生产因素[8],在科技、社会、经济与管理等方面发挥着巨大作用。
如何高效利用数据及信息进行决策?需要什么样的知识和能力?该类知识和技能怎样培养和习得?围绕这几个现实问题,本文在探讨数据素养概念演变、数据素养培育面临困境基础上,基于数据素养多维度分层模型,探讨现代大学人才数据素养培育机制创新途径。
随着大数据技术应用渗透拓展,数据素养相关研究显著升温[2-7],但学术界对数据素养概念尚未形成一致认识。数据素养是一个多维度多层次,以实践为转移、需求驱动下的复杂性博弈过程中逐渐形成的综合性系统概念。
大数据带来生活便利的同时也触发一系列社会问题,形成相关技术挑战。
1)信息安全问题。互联网用户个人信息、购物数据、浏览偏好等隐私泄露,会引发电话骚扰或电信诈骗等安全问题。网站攻击与漏洞利用正向批量化、规模化方向发展,信息安全不仅造成个人隐私泄露与用户权益受损,甚至危及国家安全。
2)数据合规使用。①社会数据获取,通过信息查询获取出行路线、交通工具、饭店酒店等精准数据,数据合规使用,需要人们掌握相应的数据获取方法;②数据信息提取,数据本身并不是信息,为了使数据有用,必须从数据中提取信息,数据信息提取能力成为未来基本素养和必备技能。
3)数字鸿沟。数字鸿沟是指在全球数字化进程中,不同国家、区域、组织、个体之间由于对数据信息、网络技术拥有程度、应用程度及创新能力差别而造成的信息落差及“贫富”两极分化趋势[9]。
4)信息茧房。信息茧房是指信息传播中用户只关注、选择和推送感兴趣内容和主题,由此所形成的蚕茧般桎梏。大数据时代,网络和信息技术高度发达,个人可以选择信息阅读和了解,大数据、智能分析技术促使系统平台根据用户喜好推送消息[10],这都推动了信息茧房的形成。信息茧房一旦形成,容易使人将偏见错认为真理,产生极端盲从行为和认知,并排斥客观合理观点,导致网络群体极化,使社会黏性丧失,将对个人和社会造成负面影响。
5)数字治理赤字。数字治理是指在数字材料生命周期内对数据进行的归档、保存、管理和评估全过程。大数据技术的更新迭代使得数字领域发展不平衡、规则不健全、秩序不合理、技术不完善等治理问题日益突出,给数字治理带来挑战。数字治理赤字成为亟待解决的全球性治理难题。
6)数据信息可靠性。互联网技术出现之前,数据来源虽然有限,但通常可靠,数据信息可靠性检验只需具有理解和批判性地评估数据的能力,被称为统计素养。互联网出现后,人们除需具备统计素养外,还须从信息源中选择数据、评估数据质量、评价数据可信度与可靠性。
随新一代信息技术和人工智能不断拓展,大数据、云计算、物联网、AI(Artificial Intelligence)、区块链、5G等技术延伸至日常应用领域,数据驱动催生的数据需求异动致使数据素养的概念不断演化,大数据时代面临的问题及能力需求(如图1所示)。 结合知网有关数据素养进行文本检索,可看出这些问题和能力需求涉及多个维度和不同层次。
图1 大数据时代面临的问题及能力需求图Fig.1 Problems and capability requirements in the era of big data
什么是大数据时代的数据素养?它是解决大数据技术所引发的社会问题所需的知识体系和关键技能。在现实需求驱动下,数据素养的概念内涵不断被认识并在生产实践中被完善。
FRANK M和WALKER J等将数据素养定义为理解和使用数据的能力,互联网环境下指阅读、获取、处理、分析和使用数据的能力[11]。阅读数据包括理解数据及其所代表内容;获取数据包括收集和提取数据;处理数据包括创建、获取、清理和管理数据;分析数据包括过滤、排序、聚合、比较和其他此类分析操作;使用数据指利用数据进行决策或向特定受众传达信息。FRANCOIS K和 MONTEIRO C认为数据素养包括四方面:一是将算法作为计算机科学研究的技术方法;二是研究程序员和设计师间交互作用的社会学方法;三是将数学算法作为图形和法律代理人来研究的法律方法;四是研究算法伦理的哲学方法,给出理解大数据及其权力和局限性对公民自身发展和社会繁荣都非常重要的结论[12]。CHRISTOZOV D和 TOLEVA-STOIMENOVA S总结出数据素养概念演变及其与社会文明发展之间的演化关系(如图2所示)[13]。
图2 数据素养概念演变及其与社会文明发展的演化关系Fig.2 Evolution of the concept of data literacy and its relationship with the development of social civilization
CHRISTOZOV D认为人类文明史可看作是人类文化的进化,大数据素养是该演变的重要环节。人类文明进化任何一个阶段都将社会划分为“识字”和“文盲”,这两者带来的差别在当前反映为“数字鸿沟”。由此来看,“大数据”将“数字鸿沟”提高到了新的维度[13]。
图2中曲线表示“信息素养”的变化,信息素养这里指人类获取和从可获取数据学习的能力,即获得信息及分享信息获取知识的能力。图2显示信息素养演变过程分为两大时期:基础素养时期和数字素养时期。基础素养时期这种能力表现为阅读、写作和做算术等;数字素养时期,包括计算机素养、信息素养、网络素养、大数据素养四个阶段,最后阶段能力表现为大数据素养。计算机素养是指使用工具能力,而不是处理信息的实际能力。数字素养是指通过使用数据进行信息传递的专业素养和综合技能[12]。本文提及的“数据素养”是“数字素养”在大数据时代的具体体现,包括大数据时代数字素养能力需求,也包括其他数据相关能力需求。
依据心理学邻近法则,采用CiteSpace软件对知网数据关键词联系进行结构映射共现分析, 数据素养关键词共现图谱(如图3所示)。
图3 数据素养关键词知识图谱Fig.3 Data literacy keyword knowledge gragh
图3中节点数是关键词个数,边数是关键词之间的连线数。只要关键词在同一篇文献中出现过,两者之间就会有一条连线。连线代表关键词之间的联系,线条深浅与年份相对应,用于标志每一年有哪些主要关键词。由此可见,近年来数据素养关键词主要涉及大数据、信息素养、数据素养能力、数据素养教育、数据分析及分析素养、大数据管理及应用、数据管理、数据可视化、数据意识等多个层次多个维度。因此,数据素养概念与数据素养教育教学改革也应该是多层次和多维度的。
大数据时代数据素养是在特定社会成员(全球或国家层面上、作为商业实体或公共机构的社会组织内)间建立的一种新划分:具有数据学习能力的人与依赖相关机构解释的人。随着大数据技术与日常生活、工作学习的不断融合,不论对个人、组织还是团体,提高自身(大)数据素养是获取竞争优势的有力工具。这是否会成为未来加大(或弥合)数字鸿沟的关键,将是数据素养教育面临的现实问题。
1)应用工具和技术方法限制。受专业划分所限,不是所有学生都能够学习和掌握数学与统计学知识体系。由此,他们在处理数据时,要么依赖信息经纪人,要么依赖数据挖掘工具等相关计算机应用程序。受限于应用工具和技术方法,他们难以深入了解结果与问题之间的关联程度,致使该类探索数据行为难以通过描述对象数据获取认识事件本质,也无法对事实形成正确的认知,一定程度上阻碍大数据时代的数据素养培育实效。
2)复杂数据与专业知识制约。大数据时代,对于某些复杂数据类型的分析需要专业知识和专门工具,譬如网文《骑手困住系统里》爆红中提及的网约平台企业系统算法对零工化背景下配送骑手的动态管理,需要运用人工智能和区块链技术与机器深度学习,压缩了获取该种类型数据素养的人员范围。
解决由数据或大数据引发的问题,所需要的知识和能力与问题主体层级密切相关。一般可将问题的主体划分为三个层级:普通大众、工作中要使用大数据的人员、专业从事大数据相关工作的人员。每一层级主体对大数据能力需求又分为三个维度:被动使用、灵活掌握和主动思考。
对普通大众来说,应具备大众媒体使用技能,进一步掌握避免互联网使用过程中个人隐私泄露的注意事项,还应逐步养成使用数据进行思考、判断和解决问题的意识。
大数据时代,使用大数据的工作人员群体日益增大。该类工作人员,不仅要了解数据知识,还要涉及数据提取、数据挖掘、数据运用的全部环节,因此,需要掌握数据收集、初步整理、挖掘分析、应用等知识和技能。受大数据海量、动态、异构和非结构化特征影响,该类工作者所需的知识技能在不断更新和迭代。
专门从事大数据及大数据技术方法研究的专业人员,需要具备最全面、最系统的大数据技术知识和专业技能,需要拥有大数据技术应用能力、大数据学习能力和大数据转化能力。大数据学习能力包括数据收集过程中对因果关系深刻理解的“智慧”,即通过科学的数据收集处理和信息技术应用,关注比较、验证和提取数据的多样性与不同来源数据的可用性,规避信息不对称产生的系统风险。数据使用是指有意识地通过使用技术从数据中学习专业知识,包括学习数据性质的知识以及追踪、评估数据来源的技能,处理特定数据集的技能,验证数据可靠性,测试解释数据有效性的技能,利用数据技术、专业知识解决实际问题的能力。大数据学习能力还必须考虑并平衡有效性(所获得知识的最终价值)和效率(将资源表示为数据处理、学习和应用知识所用的时间和精力)。
通过数据学习增加了信息泄露风险,因此需具备能规避或消除数据外泄风险的能力。此外,还需要深刻理解数学、统计学、机器学习等数据分析技术以及相应适用范围和约束条件、所得结论或结果的现实意义、科学性和有效性。如通常给定的统计技术要求使用变量独立,如果变量不独立,或变量独立性未被验证,则该技术不能提供有价值结果。如何识别这些障碍、如何在上述情况下进行分析或解释探索结果?这些能力远远超出高等学校通过教育教学获得的一般统计知识,需在学习过程中总结形成。
综上,数据素养培育须与大数据需求相对应,包括必要的使用计算机或数字技术、分析技术及数据可视化等相关技能,具体包括:①数据获取能力。需要掌握和运用一门编程语言,会使用数据库技术,能运用适当检索方法提取有用数据。②数据解释能力。运用大数据技术及提取和呈现嵌入数据中的信息能力。不仅要理解给定分析技术可做什么,还需理解给定技术的约束条件;不仅需要数学和统计专门知识,还需具备运用数据可视化技术解释现实问题的能力。③知识涌现能力。应用各种技术和方法描述获取的知识,批判性地处理所获得的信息,避免或减少误解所造成的风险,并从所得信息中获取知识价值。④建立数据智慧。数据智慧对应于理解数据背后的驱动力、因果关系或实体演化和结构变迁的本质过程。数据智慧需要高度的抽象思维和概念技能,是数据素养演变的主要驱动力,也是大数据时代专业技能、综合素养与核心竞争力的综合体现。
综上分析,提出大数据时代数据驱动背景下数字化人才培养多维分层模型(如图4所示)。模型包含3个层次9个维度要素。根据不同行业人群对数据素养能力需求差异,可采用分层递进方式,将数据素养能力培育培养分为3个层次:基础层、非专业层与专业层。
图4 数据素养培育多维分层模型示意图Fig.4 Schematic diagram of multidimensional hierarchical model of data literacy cultivation
基础层重在普通大众数据素养能力培育。普通大众应具备大众媒体使用技能(微信二维码的使用和安全,互联网购票系统的使用,网络支付系统的使用,高德地图、百度地图等)、(互联网)隐私保护意识(如不在朋友圈发家人、孩子照片,不在网上随意填写私人信息等)、数据思维和解决问题意识(如利用网络评价大数据选择合适物品与购买地址,利用大数据识别常见骗局的意识和能力)等数据素养。
非专业层注重专门技术及工作人员数据素养能力培育。政府部门、医疗机构、金融机构、农业、材料、生物等行业和领域都或多或少涉及大数据运用问题,要求他们能够对大数据进行分析并解决现实问题,了解大数据特征特点,了解其海量、多源、异构和非结构化特征,掌握数据提取、检索、汇总整理方法技术,掌握大数据分析方法,并能灵活运用相关分析软件。
专业层面主要针对专门技术和研究人员。一是专业从事大数据技术及数据分析研究工作者应具备信息能力;二是应具有规范的、严密的数学、统计、计算机理论知识与专业技能;三是应具备数据智慧,也就是从数据中学习和总结经验,甚至发现或创新数据理论的能力。
基础层数据素养培育途径涉及义务教育阶段自然渗透和有意识培养,中小学社会能力课堂中加强数据素养典型案例讲解宣传,中小学数学课堂中加深统计思想和数据应用技术相关内容。此外,还需加强社会宣传,向城市社区和村民小组定向宣传和重点推介内容产品生命周期、新媒体使用技巧、互联网隐私保护。
非专业层数据素养需要现代大学、企事业单位和专业机构形成合力,通过产学研创新系统,形成大数据技术创新、上中下游及创新环境与最终用户的有效对接与深度耦合,促成大数据生产、学习、科学研究、实践运用的综合性、系统性合作。现代大学应积极开设数据教育、统计方法教育、计算机教育等课程,重视数据素养专业教育和技能培养;鼓励互联网平台、数字企业、超算中心、数据中心等机构对专业技术人员数据素养的培养和专业技能培训,充分发挥平台生态价值。
专业层数据素养培育需专业教育(数据专业类本科教育)和高级数据素养(大数据、人工智能专业类硕博士教育)培育。2015年教育部批准设立数据科学与大数据技术本科专业,数据科学植根于数学、统计学、计算机科学等相关学科,以来源多样、结构各异、规模巨大、传输高速、应用广泛的大数据为研究对象,旨在解决大数据在获取、处理、分析、展示与应用领域的数据挖掘、机器学习、人工智能、数据库、统计计算理论与实践问题,高级数据素养培育强调基础为先、夯实数据统计与分析、系统与计算方面的基础理论知识体系,以大数据分析为核心,以数学、计算机科学、统计学为基础支撑,注重高水平大数据研发能力培养。
随着新一代信息技术与大数据应用迭代,数字化人才培育成为现代大学人才培养目标。
依据去中心化思维,采用区块链技术,构建治理主体平等、治理机制高效、治理过程透明和治理模式精细的现代大学数字治理体系。一是建立人才培养自组织体系,推广大规模MOOC(massive open online course)和小范围SPOC(small private online course)课程,通过点对点传输和分布式账本技术,赋能各种类型各个层级数据素养培育主体,实现基础层、非专业层和专业层教育主体平等,实现教育权力去中心化。二是建立教学能力动态考评机制,采用共识算法,规避教师为中心控制教学所产生的权力中心化和知识碎片化,通过多元化主体、分布式测评和链式时间序列,实现师生教育教学话语实时协商,实现学生的主动学习和自动智能履约。
采用多中心数据组织模式,充分挖掘数据驱动的数字化人才培养数据价值,打造数据采集合法合规、保障数据安全有效、数据交换透明可追溯的数字人才培育创新生态服务系统。
一是创立数据驱动创新生态系统,建立涵盖数据确权、数据采集、数据存储、数据交换和数据应用的数据素养培育创新生态系统数据治理体系,确保数据安全保障和数据所有者收益。二是建立数字人才培育服务体系,通过构建数据层、网络层、共识层、激励层、合约层和应用层,真实记录各层各类教育主体数据素养培育过程,拓展数字化人才培养领域和服务范围。
依托信息素养培育数据采集,时序化数字人才动态监测,教育教学数据保真化验证,民主化创新共生生态营造和多维分层数据素养认证传导,建立现代大学数据素养培育评测系统。①建立信息素养动态测评体系,依据分布式记账、时间戳和智能合约技术,通过采集学员行为、思维、情感和认知数据,实现对数据素养培育动态监测和教学管理的运行测控;②健全数据素养培育溯源验证体系,采用不可改写、算法共识和块链架构技术,通过概念认知、价值认同和道德约束,结合自评、互评、评教交互和服务推送结果,对数据素养培育过程的数据真实性、行为规范性进行溯源性验证。