面向数据素养教育的线性代数案例教学模式探索

2020-06-22 13:24王利东刘婧张运杰

大学教育 2020年6期

王利东刘婧张运杰

[摘要]大数据时代，个人生活、科学研究乃至社会管理都需要依靠数据进行决策，现代所有人都应该具备大数据的理念和思维方式，数据素养成为一项通用的技能。线性代数作为一种数学工具是工科专业的必修课，同时也是众多数据分析技术的理论基础之一。灵活掌握线性代数知识对于数据素养的培养至关重要。本文以数据处理原理为引例，探索将数据素养教育融于线性代数教学及自主学习中的教学方法，并以此引导学生掌握数据科学的数学理论，培养学生的创新精神，提高对新知识的求知欲，扩展学生处理大数据的思维方式。

[关键词]线性代数;教学模式;数据素养

[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437（2020）06-0094-03

一、背景

“大数据”作为继云计算、物联网之后的又一颠覆性技术，已成为决定国家综合国力强弱的关键资源，因此了解大数据的理念、培养大数据的思维方式是非常重要的。普遍认为的数据素养是指个体在一定行为规范内读取、理解、创建和分享数据的能力。拥有数据素养就是具备了一项通用的技能，使得自己在“一切都被记录，一切都被分析”的数据化时代更好的生存和发展[1]。较好的量化推理能力和数据思维已被公众认为是最该具备的素养。

目前，国内高校所开设的数据素养通识课程大都以图书情报信息检索为主要授课内容，这与当今流行的数据技术以及与培养数据思维相关的教学内容有较大差别。由于这些课程面向的是本专业学生，对前期专业基础知识要求较高，即便是众多高校均开设相关课程，也尚未达到通识教育目的，因此需要发展多方位的数据素养教育实践活动。培养数据素养应是一种终身学习过程，学习教育对学生的影响不能追求立竿见影的效果，因此应该做长远打算，追求潜在的、深远的谋略。让学生产生兴趣，进而将学习的积极性调动起来，这是最好的学习方式。因此，以通识教育为原则，以培养开阔的视野，提升终身学习能力为目标，把数据素养的教育融入本科生基础课教学过程是非常必要的大学生的未来发展将起着重要的作用。

二、线性代数与数据素养

近年来随着科技发展和社会进步，数学在大数据、互联网、通信技术、人工智能等各个新兴领域中得到重视，并在某些领域发挥了关键的作用。知名通信科技企业华为公司也宣称他们真正的核心科技是数学。最近阿里巴巴公司发起全球数学竞赛，奖金百万，鼓励年轻人热爱数学，从数学中发现新知。线性代数作为一门重要的数学课程，具有强大的应用背景，其理论和方法已经渗透到数学的许多分支，同时也成为人工智能与大数据技术支撑的数学理论基础之一[2]。无人驾驶、图像处理、社交网络和通信系统中的主流智能算法无不以线性代数为其支撑原理，其重要性不可否定。

三、线性代数教学模式的思考与借鉴

在国外，线性代数教学主要采用两种手段。一种是概念公理化教学，突出线性空间理论、培养学生抽象思维的教学模式。另一种是应用型导向的直觉化教学，突出计算与应用能力[3]。这两种教学模式各有优势和不足，前者有益于数学思维的培养，对学生后续學习和发展有着重要作用，但学生会感觉枯燥。后者具有直观的优点，有助于引导学生入门，但在基于大量软件教学的模式下，学生对软件有着依赖性，对培养概念理解能力及深层逻辑思维不利。朱琳和蒋启芬两位学者对美国和法国各自线性代数教学模式的争论与优缺点、三种实践教学过程的收获与不足进行了多视角评析，其研究成果为我们本土院校开展教学改革提供了参考[3]。从历史分析与认识学习视角分析看，两种教学模式可以相互促进，初始阶段的直觉化教学会对后期概念公理化教学产生积极作用，符合学生学习的认知过程。

目前，线性代数的概念公理化与直觉化协同教学已经引起教师的重视，广泛采取的方法是以生产实践中实例作为引例进行概念讲解，并结合数学软件进行授课。透过这些实例，让学生看到数学的广泛应用及掌握相关的数学概念的重要性[4-6]。但是基于实例的教学研究与数据素养有联系也有一定差别。前者强调的是应用性，特别是专业领域的应用;而数据素养强调的是一种通识教育，培养较强的数据意识。在大数据环境下，旨在培养数据素养的线性代数教学在强调直观教学的同时，也更需要加强对基本概念和基本理论的深入理解，了解现象背后的数学原理，加强数学概念的深化教学。本文探索如何将数据素养教育融于线性代数教学及自主学习中，并以范德蒙德行列式和最大无关组的案例教学方式（证明过程此文略去）进行展示。

四、教学设计与扩展分析

范德蒙德行列式和最大无关组是线性代数中的两个概念。前者在教材中以例题的形式出现：作为一类特殊的行列式，它有着独特的形式极其简明的计算结果;教学中更多关注于它的各种扩展形式的计算（例如加边法计算范德蒙德行列式）。最大无关组则被用来刻画向量之间、线性空间结构等问题。范德蒙德行列式与最大无关组不仅是数学领域中重要的数学概念，而且在数据处理中有着重要的地位。通过了解数据处理中的数学原理，可使得学生了解基本的数据处理技能及数据意识，更有助于提升他们的学习兴趣。

（一）范德蒙德行列式、矩阵及其应用

背景介绍：已知前四个数字为1，8， 27， 64，预测第五个数字。课堂上学生很快给出答案是125。这是因为他们观测到了数字的变化规律f（n）=n3。但对于复杂的猜字游戏我们很难立刻给出答案，例如1 ，3 ，6 ，10 的下一位数字是什么？

问题分析：事实上，数字是按照先后次序出现的，可以用序对（n， f（n））来刻画每一个出现的数，既有（1，1），（2，3），（3，6），（4，10）。可基于这些点通过构造一个三次多项式函数f（x）=c3x3+c2x2+c1x+c0来刻画数据变化规律。因此，只需计算出常数c1，c2，c3， c0即可预测下一个数据。为此构造方程组：

利用范德蒙德行列式计算公式和克拉默法则求解Ac=y，得出c0= c3=0，c1= c2=0.5，由此可知数字规律公式为f（n）=0.5（n2+n），f（5）=15。以上恰是数据拟合的主要过程，更特别地，在Matlab软件内部曲线拟合函数p=polyfit（x，y，1）编程过程中也主要体现了这一点。

扩展分析：猜数字游戏直觉上是找规律，背后蕴含着线性方程组求解问题。以上预测方法巧妙利用范德蒙德行列式求构造多项式函数，以幂函数作为基函数来逼近任何形式的函数，这种方法不但容易求解，而且可以使得结果具有良好的数学性质。

下面将以指数型函数作为基函数做出逼近曲线并将两者进行对比。假设曲线过（1.2， 0.91），（1.5， 0.69），（1.9， 0.43），（2.5， 0.27），（2.6， 0.25）五个点，从图像上看这些点位于指数函数y=3ex图像附近。我们可基于这些点通过构造一个四次多项式f1（x）=c4x4+c3x3+c2x2+c1x+c0，通过建立方程组可求得c4=-0.3323，c3=2.5625，c2=-6.9402，c1=7.2474，c0=-1.5320。同时选指数函数1，ex作为基函数来生成曲线逼近以上五点。通过求解获得逼近曲线f2（x）=2.9427ex+0.0214，其与f1（x）对比见图1。由图1可以看出，尽管五个点位于指数函数y=3ex数的附近，但f1（x）的逼近效果要比f2（x）好。实际上还可进一步借助逼近误差来论述这一断言。

（二）最大无关组及应用

问题引入：在自然界中，大部分彩色均可由三种基色按一定比例混合而成;反之，任意一种彩色均可被分解为三种基色。作为基色的三种彩色不是唯一的，但它们之间要相互独立，即其中任何一种基色都不能由另外两种基色混合来产生。通常人眼对红、绿、蓝最为敏感，大多数的颜色可以通过红、绿、蓝作为三基色按照不同的比例合成产生。但是除了红绿蓝作为基色外，还可以选择其他的三种颜色作为基色，见图2。

问题分析：实际上图像的每个像素点是一个三维向量（R， G， B），其分量值分别代表红绿蓝的分量[7]。任何像素点的颜色均由三个向量按照不同比例配置而成，而这三种颜色缺一不可。例如：Red=（255， 0， 0）， Green=（0， 255， 0），Blue=（0，0，255）. Yellow=Red+Green=（255， 255， 0）。与颜色组合类似，讨论向量组线性关系问题时，我们希望掌握部分向量从而把握全局。这少数部分向量应该满足：1.不能相互代替——彼此线性无关;2.其余的向量都可以用它们表示——其余向量可由这部分向量线性表示。满足以上两条的向量组就是全体向量组的一个最大无关组。用数学语言表达如下：

定义引入：设存在向量组a1，a2，…， as的一个部分组ai1，ai2，…，air，满足：

（1） ai1，ai2，…， air线性无关;

（2）任意的向量ai均与ai1，ai1，ai2，…，air线性相关（等价于任意的ai均可由ai1，ai1，ai2，…，air线性表示），则称部分组[αi1，αi2，…，αir]是向量组a1，a2，…， as的一个最大线性无关组（简称最大无关组）。

扩展分析：直觉上，最大无关组是选最优代表问题，其背后是寻找向量空间基的过程。在数据挖掘中也有着类似的过程，特征选择或属性选择的目的是从已有的M个特征中选择N（N≤M）个特征使得系统的特定指标最优化，降低数据集的维度。要求满足选择出的N个特征之间的重叠性尽可能小，且与类别信息关联性较大（特征子集信息量大，冗余小）。这个原则与最大无关组很接近，但又不能直接照搬。這是因为，不同特征向量，很少具有线性关系，往往采用其他度量方法（一致性、互熵、皮尔逊系数、依赖度和分类误差等）作为特征选择的衡量标准。但无论使用何种标准，其思想与最大无关组都有相似之处。

现以Iris数据集的特征选择为例。Iris数据集是数据挖掘领域最著名的公开数据集，其中文名是安德森鸢尾花卉数据集。Iris包含150个样本，每个样本对应着四个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征）和类别信息（山鸢尾、变色鸢尾、维吉尼亚鸢尾），所以Iris数据集是一个150行5列的二维表。现在需要判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾。我们希望采用最少的特征来建立分类器，故需要探索各个特征的重要性。由Iris数据的散点图（图3）可知，花瓣长度、花瓣宽度对分类贡献率最大，因此只选这两个特征来建立分类器就能达到较好的分类效果。至于花瓣长度、花瓣宽度两个特征关联性是否较大，可采用数据挖掘中最大相关最小冗余方法进一步探索。

提高学生的数据素养单单依赖课堂教学远远不够，在提升他们学习兴趣的同时，应考虑如何给学生提供一个提升数据素养能力的重要途径。这需要将教学和科研、生产实践有效地结合起来，让学生广泛参与到科研活动中。在课后可以以专业实验室和科研课题为依托，以通识教育为主，深入剖析基本理论适用价值及数据信息提取的意义;对于掌握了统计学的基本知识和计算软件的学习者，可以以课外实践训练为主，鼓励学生参与教师的课题进行探索达到对实际数据的理解、推理、发现和建模决策能力。

五、结论

本文以实例为背景探索了引入线性代数相关定义及计算方法的教学模式，通过搭建线性代数与数据分析的桥梁，使得学生直观体会到线性代数在数据分析中的重要性，并加以概念化掌握理论知识点，了解解决实际问题的方法。在各章节的教学中，通过将相关的算法思想和实际应用案例贯串其中，潜移默化，进而培养学生的数据素养，使其自觉地去认识与体验数据处理的方法。这不仅有助于提升学生学习积极性，更有益于学生今后的职业发展。然而，目前的线性代数知识对于大数据和人工智能所需的理论基础还远远不够，那些涉及矩阵论与优化算法相关知识的实验活动可作为课外扩展来进行。

[ 参考文献 ]

[1] 周涛. 为数据而生：大数据创新实践[M]. 北京：北京联合出版公司， 2016.

[2] 赵月莹. 从数学思维角度浅析传统数学运算在未来计算机科学术领域中人工智能方面的应用[J]. 中国战略新兴产业， 2018（4）： 3-4.

[3] 朱琳，蒋启芬. 国外线性代数的教学研究述评[J]. 数学教育学报，2018（1）： 79-84.

[4] 王利东，刘婧. 从应用实例出发的线性代数教学模式探讨[J]. 数学教育学报， 2012（3）： 83-85.

[5] 刘耀军，张姗梅. 基于问题解决的线性代数概念教学[J]. 高师理科学刊，2016（2）： 50-54.

[6] 田仁碧. 大数据背景下线性代数课程教学改革初探[J]. 数学学习与研究，2017（9）：34.

[7] 黄静静. 基于建模案例的极大线性无关组微课教学设计[J]. 课程教育研究， 2015（13）：120.

[责任编辑：林志恒]