李健 秦德生
【摘 要】 为了适应大数据时代,新课标初中阶段增加了“数据分类”内容.数据分类有两种类型,一种是体现判别思想的数据分类,一种是体现聚类思想的数据分类,新课标初中阶段的“数据分类”体现了聚类思想.结合聚类分析的定义、特点等讨论得出,新课标初中阶段的“数据分类”是聚类分析中的最优分割法的一种特殊、简化形式,能够满足为初中生提供入门级的“聚类”学习的基本需求.
【关键词】 新课标;数据分类;聚类分析;大数据
大数据时代背景下,加强基础教育阶段的“数据”学习,成为数学课程设置符合时代发展的必然选择.造就当今之大数据时代的主要因素有三:保存数据能力的增强,生产数据能力的增强,使用数据能力的增强[1].其中,唯有使用数据能力密切关联到基础教育阶段的数学课程.为了适应大数据时代,《义务教育数学课程标准(2022年版)》(下称《标准》)初中阶段增加了“数据分类”的内容.随之而来的问题是,绝大多数一线教师对这一新增内容并不熟悉,该内容也自然成为教学关注要点.
在《标准》初中阶段关于“数据分类”的教学提示中,明确指出:要引导学生通过对实际问题中数据的分类,了解数据分类的意义和简单的数据分类方法[2]76.那么,《标准》初中阶段的“数据分类”究竟指什么?我们应该如何理解它呢?
1 两种不同思想的“数据分类”
从字面意义来看,“数据分类”是指将数据分成不同的类.那么,一个需要重点关注的问题就是:要将数据分到什么样的类当中?一般而言,“数据分类”有两种形式:第一种是事先知道可以将数据分入哪些类别中,分类的重点是判别不同数据各自属于哪一类;第二种是事先不知道可以将数据分入哪些类别中,分类的重点是基于数据特征构建出不同类别.
第一种分类形式的核心思想是:先确定划分类别,再按准则将数据判别到已知类别中.在日常生活中,这种基于判别思想的数据分类极为常见.例如,某公司招聘员工时,招聘方希望通过笔试考核筛选出部分应聘人员进入面试,为此事先确定了两个类别及相应的分类标准:笔试成绩60分以下为“淘汰”,60分及其以上为“晋级”.按照这一分类准则,就可以将所有参加笔试者按成绩分到“淘汰”与“晋级”两类当中.
第二种分类形式的核心思想是:事先无类别划分,按照“组内亲近,组间疏远”的原则将数据聚成不同类别.例如,在上述利用笔试成绩筛选应聘人员进入面试的例子中,招聘方可以事先不确定进入面试的及格线,也就是不给出具体的类别,而根据应聘者笔试成绩,按照一定的原则(如组内离差平方和最小原则)将所有应聘者按成绩划分为“淘汰”和“晋级”两类.
在多元统计分析中,具有第一种分类思想的分类方法称为判别分析,在此称之为体现判别思想的“数据分类”;具有第二种分类思想的分类方法称为聚类分析,在此称之为体现聚类思想的“数据分类”.
2 聚类与聚类分析
在知晓了两种不同分类思想的“数据分类”后,我们再来看《标准》中的“数据分类”究竟属于哪种类型.《标准》关于“数据分类”的内容要求指出,知道按照组内离差平方和最小的原则对数据进行分类的方法[2]74.由于这种方法需要基于一定的原则确定类别,所以属于体现聚类思想的“数据分类”.因此,《标准》中的“数据分类”,更确切地说,应该称之为“数据聚类”.
为了更好地认识这种体现聚类思想的“数据分类”,有必要了解聚类与聚类分析.聚类的思想自古有之,《周易·系辞上》有言:方以类聚,物以群分,吉凶生矣.意指各种方术因种类相同而聚合,天下万物因类别不同而区分,可以通过聚类洞悉事物的本质特征.聚类的目标在人们心目中是很明确的,聚类可以帮助人们找到特征相似的对象,进而可以将纷繁复杂的对象归类处理.
谈及数学中的“聚类”,一个比较常见的定义是:把一个数据对象的集合划分成若干个子集,使子集内对象彼此相似、子集间对象不相似的过程[3].尽管这个定义比较形象,但形式化程度不高,在数学上的可操作性不强.接下来,再看一个可操作性稍强的定义:给定n个对象的某种表示,根据某种相似度度量,发现K个簇,使得簇内对象的相似度高,簇间对象的相似度低[4].簇内对象的相似度越高,簇间对象的相似度越低,则聚类效果越好;反之,则聚类效果越差.在这一定义方式下,找到合适的数学符号表示相似度,就成为“聚类”的关键之一,有助将现实世界中的“聚类活动”转化为数学世界中的“聚类分析”.
3 从聚类分析看“数据分类”
为了进一步理解《标准》中的“数据分类”,有必要进一步从聚类分析的视角审视“数据分类”.
按照聚类分析的定义,为了使聚类具有数学上的可操作性,需要为聚类分析提供一个操作标准,其关键在于定义数据之间的相似度.在聚类分析中,基于聚类对象的不同,又可以将其分为两类.第一类是对数据指标的聚类,数据指标的相似度可以用各种相似系数进行刻画,如相关系数等;第二类是对数据本身(也称为样品)的聚类,数据本身的相似度可以用各种距离进行刻画,如闵可夫斯基距离(其特殊形式为欧氏距离)等[5].《标准》中的“数据分类”,就属于第二类.
结合《标准》中例85“数据分类的原则”[2]162-163可知,初中生需要掌握的“数据分类”方法为:先将一维数据按大小关系排成一列x1,x2,…,xn,且满足x1<x2<…<xn,再按照不同切割方法将该数列切割为两组x1,…,xi和xi+1,…,xn,其中i=1,2,…,n-1,然后按照組内离差平方和最小原则遴选出最优的分类.实际上,聚类分析兴起于上世纪初期,发展至今,已经形成了诸如系统聚类法、动态聚类法、K-均值聚类法、层次聚类法、模糊聚类法、最优分割法等多种聚类方法.其中,最优分割法是一种处理有序数据聚类问题的有效方法,由于该方法最早由Fisher提出,故也称为Fisher最优分割法.
最优分割法所处理的数据不能变动顺序,例如在确定儿童生长发展阶段时,需要测量不同年龄段儿童的生长发育水平(如身高、智商等),此时需要按时间顺序取样,不能打乱数据的次序.最优分割法首先将有序的n个数据看作一类,然后再分为两类、三类等等,直至分成n类(每个数据各自成为一类)为止,而其分类步骤涉及计算类的直径、确定分类损失函数、确定分类个数、确定最优分类等[6].其中,分类损失函数是确定分类方法的评判标准,其原理与组内离差平方和最小原则相似,即每次分类后产生的组内离差平方和的增量最小[7].
对于《标准》中的“数据分类”,由于需要先将所有数据按大小关系排序,以及需要按组内离差平方和最小原则处理数据,所以可将其视为一种“神似”最优分割法的数据分类方法.尽管两者非常相似,但也应注意到它们的一些差异.首先,最优分割法只要求数据有固定的顺序,并不要求其一定按大小关系排序,但《标准》中的“数据分类”需要先将原始数据按大小关系顺序排列.其次,由于《标准》中的“数据分类”实例仅要求将排序后的数据聚为两类,所以也就无需像最优分割法那样按照分类损失函数逐次聚类.
综上所述,《标准》中的“数据分类”是聚类分析中的最优分割法的一种特殊、简化形式.但与此同时也应看到,《标准》中的“数据分类”体现了基本的聚类思想,能够满足为初中生提供入门级的“聚类”学习的基本需求.
参考文献
[1]涂子沛.数据之巅:大数据革命,历史、现实与未来[M].北京:中信出版社,2019:313.
[2]中华人民共和国教育部.义务教育数学课程标准:2022年版[M].北京:北京师范大学出版社,2022.
[3]Han J., Kamber M., Pei J. Date Mining:Concepts and Techniques(3rd edition)[M]. Burlington:Morgan Kaufmann, 2012:444.
[4]张宪超.数据聚类[M].北京:科学出版社,2017:1.
[5]袁志发,宋世德.多元统计分析[M].2版.北京:科学出版社,2009:278-280.
[6]朱建平.应用多元统计分析[M].4版.北京:科学出版社,2021:86-87.
[7]罗良清.统计建模技术Ⅰ:多元统计建模与时间序列建模[M].北京:科学出版社,2021:94.
作者简介 李健(1988—),男,重庆人,博士;主要从事数学课程与教学论研究.
秦德生(1974—),男,内蒙古通辽人,博士;主要从事数学课程与教学论研究.