大数据开创教学科研新范式

2017-04-12 10:22:57
数字教育 2017年6期
关键词:结构化机器人

陈 璞

(中国人民大学金融科技与互联网安全研究中心,北京 100872)

大数据开创教学科研新范式

陈 璞

(中国人民大学金融科技与互联网安全研究中心,北京 100872)

数据规模大、数据提取和分析的速度快和数据结构类型多样三方面的技术进步,构成了大数据的本质特征。大数据是推动当前时代发展的关键性历史因素。面向未来的教育改革发展,信息技术成为创新实践的基本手段。在大数据技术支撑下,以慕课为主的教学模式和计算驱动型科研范式,正在逐步走向成熟,成为教学科研的重要发展趋势。

大数据;教育;慕课;计算型科研

一、大数据的技术特征

早在2011年,美国高德纳公司专家艾德里安从硬件环境和软件工具角度,对大数据进行了描述,指出大数据在本质上是一种“收集、管理和处理数据”的能力进步。麦肯锡全球研究院如此定义大数据:“大数据是指大小超出了典型数据库软件工作收集、存储、管理和分析能力的数据集。”可以看出,所谓大数据,实际上是一个比较意义上的概念。简单说,就是在量变到质变的意义上超越了“以前的”“常规的”数据,因而称之为“大数据”。大数据处理能力的最终形成,主要取决于三个因素:第一,在摩尔定律支配下,数据量的指数式增长,为大数据运行提供了基础条件;第二,多核中央处理器和海量并行处理架构的运用,导致计算机运算能力飞跃发展,为大数据运算提供了核心动力;第三,基于MapReduce并行运算编程程序的Hadoop等大数据处理平台的推出,使计算机突破处理非结构化数据的能力边界,最终达到处理海量数据的大数据处理能力。以这种能力为基础,人类发现规律、预测未来和改造世界的能力,都将获得“质”的飞跃。

基于这些认识,可以将大数据之“大”,总结归纳为3个“V”:分别指数据规模(Volume)、数据提取和分析的速度(Velocity)和数据的多样性(Variety)。首先看数据规模。根据摩尔定律,计算机存储信息的物理容量将以每两年翻一番的指数速度增长,这是大数据快速生长的物质性规律。根据国际数据公司(IDC)的预计,到2020年,来自个人电脑、智能手机、射频识别、社交网站、气象中心、监控摄像等各种设备的全球数据总量将达到40Zb。大数据的第二个显著特征是速度。海量并行处理架构是存储并分析海量数据的基础机制。这个数据处理机制的原理是,打破数据限定由一个CPU单元和磁盘的中央服务器进行管理的传统数据处理模式,将数据切成多个不同的数据块,各自独立地分配CPU的管理资源,这一变化如同车流从单车道驶入多车道,将倍增式地提高数据运行速度。最后是数据的多样性,传统数据主要来自关系型数据库中的数据,这类数据具有一个既定的结构背景,其格式、值域、来源等属性,会被预先定义,因此也被称为结构化数据。与结构化数据相对,不具备结构背景,数据属性没有被预先定义的数据,称为非结构化数据。处于二者之间的,还有半结构化数据和多结构化数据。比如,在Word文档里写的一篇文章、一张图片、一段视频都属于非结构化的数据。根据IDC的统计,超过80%的企业数据都是非结构化数据,而整个互联网中的数据,非结构化数据占到了75%以上,而且非结构化数据的增长速度远远高于结构化数据的增长速度。[1]显然,结构化数据是较容易处理的数据。而非结构化数据则是相对难以处理的,非结构化数据以差异化为基本特征,这些数据有的可能是文字,有的可能是图片,有的可能是一个数字,有的可能是一段声音和影像。非结构化数据处理技术的成熟,意味着大数据时代正式拉开帷幕。就目前发展来看,泛在网和人工智能为我们初步勾画出了未来世界鲜明的数据化特征。

二、大数据时代的发展趋势

欧盟委员会关于物联网的愿景描述,为我们展现了大数据时代的未来发展状况:“它将成为普遍存在的公共基础设施,以全球通用的标准通信协议为基础,将融合既有的计算机网络、大众媒体网络、社会服务网络,打造一个全球的、泛在的、无缝的信息科技平台。”[2]无论最终发展状态如何,建立在泛在计算技术之上的信息网络社会,必然包括如下三个方面的特性。第一,泛在的基础网络。泛在网在概念上应该理解为所有网络的连接和集成,包括传感网、互联网、物联网,以及通过移动网络和固定宽带等技术将多个应用终端之间相互连接而形成的局部网络。这中间的关键之处在于,所有的网络都要连接在基础网络之上,最终以一个整体的形式呈现。第二,泛在的通信活动。泛在网络为地球万物建立了相互沟通和反馈的系统,这是一个无时无刻不在运行的系统,网络上的每一个节点,都在时时产生、接收和处理信息,永远处于动态通信的运动状态。第三,泛在的智能应用。泛在网的最终目的,是通过各种各样的智能应用,优化人类世界的生产和管理活动,无论是私人应用、公共应用还是商业应用,都是通过网络大数据技术,为人类提供更精细、更科学和更智能化的服务。

图灵测试界定了计算机和人类智能的理论边界。2014年,计算机程序尤金·古斯特曼假装成一个13岁的小男孩,在一系列每次5分钟的问答之后,成功骗过与其对话的测试人员,最终以33%的通过率,成为世界上第一台通过图灵测试的机器人。[3]古斯特曼的诞生,将机器人的研发和应用再次推向新的高潮。今天的机器人科技,已经得到日新月异的发展,其应用范围早已经从传统的工业领域扩展到家居、教育、医疗、战争等众多领域,成为一个庞大的机器人群体。进入21世纪以来,机器人正在逐步从科研阶段过渡到产业化阶段。从工业机器人到农业机器人,再到家居服务机器人,从移动机器人到仿生机器人,再到仿人机器人,从水下机器人到飞行机器人,再到太空探索机器人,从康复与助理机器人到外科手术机器人,再到微型医疗机器人,一个庞大的机器人产业已经呼之欲出。据不完全统计,我国教育机器人在2010年的销售额已经达到4亿元人民币,根据ABI Research的预测,全球智能机器人的产值将很快突破1000亿美元大关,其中,亚太地区将占有最大的市场份额。[4]

2017年7月,国务院印发《新一代人工智能发展规划》,将“利用智能技术加快推动人才培养模式、教学方法改革,构建包含智能学习、交互式学习的新型教育体系”确立为发展智能教育的重点任务。可见,面向未来的教育改革发展,必然以信息技术支撑下的教学科研模式创新为基本手段。目前来看,以慕课为主的教学模式和巨型计算机支撑的“第三种科研范式”,正在逐步走向成熟。

三、基于大数据技术的慕课教学模式

在教学领域,由大数据掀起的慕课(MOOC)潮流正在席卷全球。MOOC的含义,可以分解为四项:M代表Massive,意味着慕课规模之大,传统课程一门课可能只有一个班级的几十个人在学,而慕课课堂的一门课可能有数万人甚至几十万人同时学习;第一个O代表Open,意思说慕课是一个开放性的学校,不要求你其他资格条件,慕课只要一个电子邮箱,就能注册学习;第二个O代表Online,这表明慕课的学习是在线进行的,不受时空限制,你可以蜷在被窝里听老师讲课,也可以在机场的候机室里打开手机做几道数学题,如果你愿意,等地铁的5分钟碎片时间,也可以用来学习几个英语单词;最后一个字母C表示Course,说明这是一个课程,是一个系统性的理论知识学习。

以edX等为代表的慕课教育,被称为是继印刷术之后,教育领域将要面对的最重大的变革。相对于传统教育,慕课开创的教学革命,将从四个方面展开:首先,慕课运用网络经济的共享模式,将绝大部分的教育成本摊入网络机制内部,会大幅度地降低受教育者的经济负担,从经济条件上降低社会整体的教育成本。其次,慕课改变了传统教育模式的时空条件,受教育者既可以在晚饭后的夜间学,也可以在星期日的上午学,既可以在自家书房学,也可以在公共巴士上学。再次,慕课是全球化的教育资源平台,是抹平区域资源配置不平衡,帮助边远地区提升教育水平的有效手段。在慕课的网络平台上,世界是平的,无论你是在大山深处还是在偏僻渔村,只要能够接入基础网络,就能和世界一流大学的学生,同时学习相同的课程。最后,也是最深刻的一个方面在于,作为大数据平台的慕课,最核心的看家本领是对学生的具体学习行为进行动态分析和同步调整优化。根据学习者个人化的学习行为和反馈内容,慕课平台将不断调整学习者学习的内容、方式和节奏,将学习变为一个高度个性化的建构过程,为学习者量身打造最高质量的学习模式,最大限度地提高学习效率。举例来说,慕课平台会通过学习者考卷里答对的题和答错的题的分布情况,帮学习者找出其知识体系上的薄弱环节,有针对性地进行知识点的补漏和强化,它还能根据学习者的学习行为和反馈情况,分析出是声音、文字、形象还是综合视频的方式更有利于提高个人的学习效率,并以此为内容和标准,逐步发展出最适合学习者的个性化的学习内容、方式和节奏。再如,从更细节的层面分析,慕课平台还能通过对学习者鼠标、键盘的活动轨迹的采集和分析,了解到不同人对于同一知识点的反应情况,他们用了多少时间,有没有重复或强调,等等,当这些数据达到一定量之后,将作为一种规律反馈给教师,以帮助他们改善教学。

四、大数据推动计算型科研范式

随着大数据和人工智能的深度发展,一种以计算机主导和驱动的新型科研模式,逐步发展成熟。传统的科研模式,主要有理论分析和实验验证两种类型。理论分析侧重于逻辑推理和公理化的体系构建。实验验证是自然科学研究的主要方式,侧重于从感性经验上认识世界,通过控制条件下的科学实验过程,观察特定的现象,找到事物之间的因果联系。在这两种传统科研类型中,计算只是作为一种辅助的技术手段而存在。定量分析只是对定性分析的具体化和精确化描述,始终无法取代定性分析独立完成科研任务。而在大数据和人工智能技术的驱动之下,计算作为一种科研手段,正在显示出独立的价值,逐步发展成为一种完备的科研模式。早在1852年,格斯里就提出了四色猜想。但是,100多年来,诸多世界一流数学家试图加以证明,都以失败告终。直到1976年6月,电子计算机经过1200个小时的计算,推导出100多亿个逻辑判断,最终完成了证明,将四色猜想上升为四色定理。显然,在计算机问世之前,这种计算复杂度,必然处在人脑的极限之外,是单凭人脑不可能完成的任务。计算机在科研中不可替代的独立地位,由此得到证明。

今天,巨型电子计算机已经具备模拟核爆炸瞬间物理变化的能力,物理世界的核爆实验,正在逐步转移到计算机上模拟进行。谷歌公司运用大数据技术,成功预测了2009年H1N1流感传播的趋势和范围,并将其预测写成论文发表在国际顶级期刊Nature上。谷歌公司的这项研究成果在学界引起震动,因为这项研究绕过了流行病学和社会传播学等理论模型,直接依据网络热词与流感区域的相关关系,通过大数据的网络数据采集和分析预测能力计算出结论。在数据主义看来,贝多芬的《命运交响曲》、股市的经济震荡和流感病毒看似有天壤之别,实则是一回事,背后都是数据流的不同变化,都可以用同一个算法工具进行处理。[5]

2017年6月19日,全球超级计算机TOP500榜单公布。由我国自主研发的超级计算机“神威·太湖之光”第三次蝉联冠军。“神威·太湖之光”计算机由40960个我国自主研发的“申威26010”众核处理器组成,运算峰值性能达到12.5436亿亿次/秒,持续性能 9.3015亿亿次 /秒。据介绍,如果以2016年市场主流的计算机配置为标准,“神威·太湖之光”的运算能力要相当于200多万台电脑的能力水平。[6]“神威·太湖之光”问世一年来,已经在天气气候、航空航天、先进制造、新材料等19个科研领域得到广泛应用。平均每天完成计算任务约7000项,全年共完成200多万项科研任务。对此,清华大学副教授付昊桓介绍说:“超级计算在科学与工程领域应用最早、最广泛,应用效果最显著,已同理论研究和科学实验一起成为人类探索未知世界的三大科学手段,被称为支撑科学发现的第三个支柱。”[7]

互联网大数据的工作机制,在本质上是对元胞自动机和生物细胞神经网络的模拟。这一技术逐步走向成熟和应用,体现了人类思维科学的历史进步。面向未来的新型科研范式,将是对牛顿、爱因斯坦以来的机械性分析、还原论方法和线性因果关系等简单性科学理论模式的超越,是对以相关性、无限性、涌现性和非线性因果关系等为基本原理的复杂性科学思维的一般化扩展。这种数据密集型和计算驱动型科研模式的确立,必将对未来的科研活动组织和评价机制提出新要求。在可预见的将来,海量数据平台和跨学科、跨领域、跨国界和地域的科研协作网络,将成为未来学校科学研究的基础设施和手段。

[1]刘军.Hadoop大数据处理[M].北京:人民邮电出版社,2013:4.

[2]刘永谋,吴林海,叶美兰.物联网、泛在网与泛在社会[J].中国特色社会主义研究,2012,(6):100-104.

[3]新浪科技.超级计算机首次通过图灵测试[J].创新科技,2014,(13):55.

[4]宋章军.服务机器人的研究现状与发展趋势[J].集成技术,2012,1(3):1-9.

[5]尤瓦尔·赫拉利.未来简史[M].林俊宏,译.北京:中信出版集团,2017:333.

[6]柴逸扉.“神威·太湖之光”神在何处?[N].人民日报海外版,2016-06-28(09).

[7]王伟健.用国产芯片的神威太湖之光究竟厉害在哪?[DB/OL].(2017-06-21)[2017-08-25].http://tech.163.com/17/0621/11/CNEUPVS800097U7R.html.

Big Data to Create a New Paradigm of Teaching and Research

CHEN Pu
(Financial Technology and Internet Security Research Center,Renmin University of China, Beijing,China 100872)

The technological progress,that is,the large scale of data,the fast speed of data extraction and analysis,and the diversity of data structure constitutes the essential characteristics of big data.Big data is a key historical factor in driving the development of the current era.Facing the future education reform and development,information technology has become the basic means of innovation.With the support of big data technology,the MOOC-centered teaching model and the computational research paradigm are gradually becoming more and more mature,and they have become an important development trend in teaching and research.

big data;education;MOOC;computational research

G 4

A

2096-0069(2017)06-0006-04

2017-08-25

陈璞(1978— ),男,安徽淮南人,副研究员,研究方向为教育管理、金融科技与互联网法律。

(责任编辑 孙震华)

猜你喜欢
结构化机器人
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
机器人,让未来走近你
金桥(2019年10期)2019-08-13 07:15:16
机器人来帮你
认识机器人
机器人来啦
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
为什么造机器人?