浅谈“小波分析及其应用”课程中教学案例的设计与实施
王红霞,张小亚,陈波,成礼智
(国防科技大学理学院数学与系统科学系,长沙410073)
[摘要]首先探讨了案例教学在研究生数学公共课程中的定位与作用,在此基础上就“小波分析及其应用”一课的特点,设计了一个基于稀疏表示进行字符识别的教学案例.除案例框架之外,文中还介绍了案例教学的实施,包括课堂内容的选择、课后扩展研讨及组织形式等,以期能为其他研究生数学公共课程教学提供有益参考.
[关键词]案例教学; 小波分析; 稀疏表示; 字符识别
[收稿日期]2014-09-21
[基金项目]国防科技大学研究生数学公共课一流课程体系建设项目;国防科技大学研究生教育教学改革研究课题(yjsy2014023)
[中图分类号]O174;G642[文献标识码]C
1案例教学在研究生数学公共课程教学中的定位
近年来,关于在基础理论课中引入实践教学的呼声一直很高.以传统的数学课程教学为例,北京大学、上海交通大学、北京航空航天大学等数十所大学就相继建立了数学实验室,旨在推进数学与工程实践的结合,以实现数学理论尽快用于解决实际问题.2014年6月,就当前研究生数学公共课教学存在的主要问题,国防科技大学数学系面向全校学部委员开展了问卷调查,在反馈回来的17份意见表中,有15位专家建议要加强数学课程教学与工程领域中实际问题的关联.然而,在舆论意见一边倒的形势下,清华大学施一公教授在2014年9月武汉座谈会上,旗帜鲜明地提出:“学不以致用.你们没听错,我们以前太强调学以致用.我上大学的时候都觉得,学某一门课没什么用,可以不用去上.其实在大学学习,尤其是本科的学习,从来就不是为了用.”无独有偶,早在2008年,著名杂志《科学美国人》曾刊登文章指出,在数学课程中过多练习应用题的孩子数学能力普遍更差.
实践教学或案例教学在数学理论课中到底应该如何定位,是摆在每个数学教师面前的问题之一.根据多年从事数学课程教学的经验,我们认为,该问题的回答主要取决于两个方面.一是人才培养的目标.如果教学对象是专业学位研究生,尽早让他们了解数学理论和方法在相关领域中的应用,对于他们尽快适应专业岗位很有必要;如果培养对象是学术研究生,是有能力在未来各学科领域中取得突破性工作的创新人才,数学则主要作为思维方法为其提供创新土壤,过于强调学以致用反而会约束他们的思维.另一方面,案例教学在数学课程中结合的“度”是特别需要慎重把握的.数学课程的主旨是使学生对数学理论有准确而深入的把握,案例教学的作用是帮助学生加深对数学理论的理解.简而言之,数学概念和理论是“本”,工程应用是“末”,主次关系是显见的.
基于上述思考,在研究生数学课程教学中,案例的选择和设计应有别于某些研究课题的简化介绍.教学案例可以来源于科学研究,但是应针对课程特点作取舍和设计.首先,数学刻画的是抽象而具有普遍意义的规律,因此教学案例应具备代表性.与其在一门课中涉及许多实例,但大多无法深入,不如循序渐进地将一个案例讲深讲透,使学生切实了解数学与实际问题的主要结合点和着力点.此外,应尽量简化对复杂工程背景的介绍,侧重数学理论与方法的阐释,重点揭示科学研究中从“思想-方法-理论”逐步递进并循环深入的过程.
按照上述原则,本文介绍我们在研究生数学公共课程“小波分析及其应用”中实践案例教学的具体做法,期望能为其他数学课程的教学提供参考.第二部分结合“小波分析及其应用”课程特点简要介绍课程案例的建设现状;第三部分以字符识别为例,介绍案例教学的具体实施过程.
2“小波分析及其应用”课程中案例教学的融入
目前我校开设的小波分析系列课程包括三门:面向数学专业高年级本科生的“傅里叶分析与小波”(40个学时)、面向数学专业硕士研究生的“小波分析及其应用”(54个学时)以及面向全校博士研究生公共课程“小波分析及其应用”(36个学时),覆盖了从本科、硕士到博士三个层次,授课对象包括数学专业和工科各专业的学生.小波分析课程是在多年相关研究积累的基础上开设的,2004年和2014年相继出版了两部专著型研究生教材《小波的理论与应用》,课程建设总体比较完善.该课程在2010年被列为湖南省研究生精品课程建设项目,也是2013年立项的学校“研究生一流课程体系”中重点建设的12门课程之一.
与“应用数学基础”等积木式知识模块的数学课程不同,小波分析的数学理论具有非常清晰的纵向脉络:从经典的Fourier变换源起,到体系完善的小波分析理论与算法,再到近十年来蓬勃发展的稀疏优化方法和理论.严密的调和分析理论基础与精巧的数值计算方法一起,搭建了缜密严谨、形象可视的小波分析知识框架.此外,小波分析作为风靡一时的应用基础理论具有非常广阔的应用舞台,从医学成像、机器智能,到遥感遥测、地质勘探,小波分析工具广泛应用于与信号处理相关的诸多工程技术领域.
作为研究生数学课程,小波分析最大的优势在于其相关研究十分活跃,新结果层出不穷.作为小波分析理论新发展的稀疏优化是当前应用数学研究的热点问题,研究者中不但有一流的数学家,也有顶尖的工程师.这一方面为案例教学创造了先天条件,同时也对案例的设计和更新提出了很高的要求.如何从俯拾皆是的实例中选择适合课程教学的素材,如何在教学过程中逐步深入推进,使将来从事相关课题研究的学生可以快速进入前沿研究,使那些研究领域不甚相关的学生可以从中体会数学与工程问题的交叉推动作用,成为案例教学中的首要问题.
在2004年出版的《小波的理论与应用》教材中,我们就将内容分为理论和应用两大部分,其中应用部分即为典型教学案例,以图像处理为主线,包括图像去噪、恢复、增强、压缩、数字水印等几个方面;在新版教材中,结合近年研究进展和当前国际热,在图像处理的大框架下,增加了视频处理及字符识别、文本分类等大数据时代的热门问题.下一部分我们以字符识别为例,简要介绍案例的设计和教学实施过程.
3字符识别教学案例的设计与实现
科技的快速发展与信息化水平的提升使得字符识别在社会生活中发挥着越来越重要的作用,常见的如纸币号码的识别检测、条码识别、车牌号识别、邮包自动分检、手写汉字的电子存档等等.有效且准确的字符识别方法意义明显,而且字符识别作为数字图像处理的特例,问题描述简单清楚,因此成为我们课堂教学的合适素材.
目前常见的字符识别方法有结构识别、统计识别两大类方法[1].结构识别是提取含有一定规律的结构信息和形状特征,作为识别的依据,其识别结果可靠性高,但是在实际获取字符图像的过程中,由于存在着扭曲、倾斜等因素,导致结构特征提取不准确,进而影响识别精度.此外,结构识别的算法描述较为复杂,匹配过程的计算复杂度高.统计识别将字符点阵看作是一个能够经过大量统计数据得到的整体,使用统计特征进行分类容易进行样本训练,能够通过训练得到较高的识别率.统计特征以抗干扰能力强为主要特点,实现匹配与分类的算法简单,且容易实现.不足之处在于细分能力较弱,区分相似字符的能力较差.
在课堂教学中重点考虑利用稀疏表示[2]的方法来进行字符识别,将稀疏性作为字符的一项统计特征进行识别.基于稀疏表示的方法具有较好的判别性,进而可获得较高识别率.考虑到小波分析本身就是获得稀疏表示的一种典型方法,因此在课程教学中选择这个例子有很好的理论连续性和延展性.
图1 字符识别的简要流程图
利用稀疏表示进行字符图像的表示时,稀疏表示模型要求图像线性展开中大部分基函数的系数(近似)为零,只有少数的基函数具有非零的大系数,如下式(1),x为其稀疏表示(近似)系数,
y=Ax.
(1)
将给定的第i类的ni个训练样本,作为稀疏表示模型(1)中超完备字典A中的列集
Ai=[vi,1,vi,2,…,vi,ni]∈m×ni.
具体来说,就是将w×h的灰度字符图像作为列向量,由这些列向量构成超完备字典,如图2所示.
图2 由样本库中的字符构成的字典矩阵A
假定任意一类i都有足够多训练样本,来自同一类别的测试样本y∈m可以被该类训练样本的线性组合逼近
y=αi,1vi,1+αi,2vi,2+…+αi,nivi,ni,αi,j∈,j=1,2,…,ni
但在识别过程中测试样本类别i未知,定义矩阵A为由k个类别的所有训练样本构成的列集,
A=[A1,A2,…,Ak]=[v1,1,v1,2,…,vk,nk],
即y可重写成上式(1),其中x=[0,…,0,αi,1,αi,2,…,αi,ni,0,…,0]T∈n是稀疏的.理想情况下,除了该测试样本所属类别的索引值非零,其它系数均为零.
对于一个新的测试样本y,首先通过稀疏表示算法计算它的稀疏表示系数x*.其中的非0系数应该和A中属于某一类i的原子相关,根据这些非0系数就可以很快判断测试样本所属类别.这里是根据最小重构误差判断的,主要参照了文献[3]中的判断方式,定义一个指标函数δj(x):n→n,它对x中非j类元素对应的系数重新赋值为0,而第j类元素对应的系数保持不变.定义重构误差为
rj(y)=‖y-Aδj(x*)‖2,
然后计算其所属字符类别:
identity(y)=arg minj{rj(y)}.
在上述字符识别过程中,最关键的是得到最优稀疏表示系数x*.基于冗余字典的信号稀疏表示模型可写为
x*=arg min‖x‖0,s.t. Ax=y,
(2)
其中,‖·‖0定义为系数向量x中非零系数的个数.由于l0是非凸的,求解基于过完备字典的信号稀疏表示是NP困难问题.近年来数学家对此问题展开了广泛而深入的研究,提出了许多获取信号稀疏表示的优化算法,代表性方法有贪婪算法与凸松弛算法.
贪婪追踪算法的主要思想是通过特定的相似性度量准则从字典中逐次选择用于信号分解的原子,不断迭代此过程可构成对原信号的稀疏逼近.贪婪追踪算法解决的是l0最小问题,它们将式(2)转化为一个较简单的考虑误差的近似形式求解,其中ε是一个极小的常量:
x*=arg min‖x‖0,s.t.‖Ax-y‖<ε.
(3)
该系列算法最早的有匹配追踪算法和正交匹配追踪算法[4],而最近的研究考虑了原始信号的结构特征,如块稀疏性、联合稀疏性等等,依托这些特性最近发展了一些新的算法,如块正交匹配追踪算法[5]等.
凸松驰算法将l0度量凸化,压缩感知理论表明,当满足一定条件时,可将最优化问题(2)转化为求解l1范数最小化问题:
x*=arg min‖x‖1,s.t. Ax=y.
(4)
进而可以使用凸优化算法进行逼近求解,主要包括梯度投影算法,同伦算法,迭代阈值收缩,增广拉格朗日方法等[6-8].在这些算法中,增广拉格朗日的对偶实现比其它算法速度更快,线性Bregman算法就是其中一种.
3.2.1线性Bregman算法
首先选取线性Bregman算法[9]来说明基于稀疏表示的字符识别方法的可行性.其过程是将(4)转化为求解增广的l1极小化问题:
(5)
算法1 求解问题(4)的线性Bregman迭代方法1初始化:A,y,w(0),α,i=0,ε;2迭代步骤: 2.1 x(i)∶=αshrink(ATw(i)); w(i+1)∶=w(i)-h(-b+Ax(i+1))2.2 if‖x(i+1)-x(i)‖<ε return;else i=i+1;goto2.1;3输出:x(i+1);注 shrink(x)=sign(x)max{|x|-1,0}
有定理证明,在训练字典满足诸如RIP性质时,算法1收敛,可以得到最优解的高精度近似.
下面将算法1用于字符识别.训练样本和待识别样本均来源于数据库Charls74K中的标准字符图像.从数据库中选择了35类样本,包括10类数字字符和25类英文字符.从每类样本中选择40张字符图像,作为训练样本.待识别的字符是从35类剩余样本中随机选取的.为了保证实验过程中字典的超完备性,也就是字典的列的维数大于行的维数,需要将原来的图像下采样,原始图像的大小为1200*900,经归一化后下采样至30*30,形成900维的列向量.因此字典矩阵A的大小为900*1400,这样y=Ax方程组是欠定的,可用算法1进行计算.
图3是对于输入字符“W”,按照算法1计算得到的稀疏表示系数.与期望不符的是,最大系数对应的字符是“H”,次大系数对应的字符是“N”,这对于后期准确识别显然不利.到底是Bregman迭代不够准确,还是数学模型本身需要调整呢?
注意到Bregman迭代的收敛性和收敛速度均有严格数学理论支持.由于相同的字符图像之间存在旋转、放缩和其它形变,字符“W”被表示成多个相似字符“H,N,W,U”的组合是完全合乎实情的,这里需要进一步考虑的是数据的特点.传统算法只考虑了信号稀疏,没有考虑到信号内部结构特征.对字符识别而言,某个字符在训练数据中聚集出现,将导致表示系数呈现“块稀疏”特性,即非零系数成簇出现.基于块稀疏特性的稀疏表示算法,有望从本质上提高字符识别的效率.
(a) 第33类第42幅中测试样本 (b) 线性Bregman算法求得的稀疏系数 图3 用算法1得到的字符W的稀疏表示
3.2.2块正交匹配追踪算法
Eldar[5]提出关于块稀疏信号的块间相关性和块内相关性概念,建立了基于块稀疏信号的压缩感知理论框架,将正交匹配追踪算法拓展到块稀疏信号中,提出了块稀疏正交匹配追踪算法(BOMP).该算法充分利用了信号块稀疏结构特性,重构效果优于传统意义下的重构算法,运行时间也大大降低.
算法2 块正交匹配追踪算法(BOMP)1初始化:字典矩阵A.采样向量y,块稀疏度K,块大小d,初始化残差r0=y;k=1;2匹配步骤:ik=argmaxi‖AT[i]rk-1‖2;3残差更新步骤:原子下标集更新为Λk=Λk-1∪{ik}, 3.1 xk[i]=argmin{wk[i]}i∈Λky-∑i∈ΛkA[i]wk[i]2, 3.2 rk=y-∑i∈ΛkA[i]xk[i],4收敛条件.块稀疏度大于K.注:x[i]为表示系数x中的第i块;A[i]表示第i类字符的训练样本构成的字典矩阵.
文献[5]中证明了该算法在字典矩阵保证具有块结构特征的ERC条件时,此算法待识别的信号.
图4显示的是,数据库中第33类字母字符中,第41和47幅图像和它下采样后的图像,经过块正交匹配追踪算法计算得到的稀疏表示系数.最小重构误差对应的下标值正是第33类样本.
图5显示的是数据库中第7类数字符号图像和它下采样后的特征图像,以及经过块正交匹配追踪算法计算得到的稀疏表示系数.这些基于算法1得到的系数难于识别的字符,用BOMP算法后都可以成功识别.
最后我们利用识别率估计识别算法的好坏,定义其识别率为成功识别出的图像占所识别的字符图像的比例.在本实验中,所计算出的识别率为83%左右.误判的图像多是结构相似的字符,如字母O和数字0,字母S和数字5.此外,采样后字符结构更加模糊,这也是导致识别率下降的一个因素.
(a) 第33类第41幅测试样本 (b) BOMP算法求得的(a)的稀疏系数
(c) 第33类第47幅测试样本 (d) BOMP算法求得的(c)的稀疏系数 图4 BOMP算法计算得到的W的稀疏系数
(a) 第7类第47幅测试样本 (b) BOMP算法求得的(a)的稀疏系数 图5 BOMP算法计算得到的字符“6”的稀疏系数
上述描述只给出了字符识别的框架结构与核心算法.对课程教学而言,突出算法介绍和思路勾勒、简化工程背景和实现细节是十分必要的.可以使学生在没有任何实践经验的情况下把握问题的重点,不至于头绪过于繁杂.但是就解决问题本身而言,仅有上述的认知还远远不够.对案例作必要的引申和拓展,使之与科研实际接轨,也是教学中需要考虑的.
就本文讨论的字符识别案例而言,可以从以下三个方面引导学生进行进一步的探讨:
(i) 算法的进一步研究——线性Bregman迭代和BOMP的新发展;
(ii) 工程实现上的进一步考虑——数据初始化、参数选择、字符特征的比对准则、噪声要素等;
(iii) 模型的重新审视——将稀疏性度量拓广到核范数或组合范数等;
通过推荐学生阅读文献、编写程序与经典算法进行识别竞赛、组织课堂研讨等多种方式,可以将此案例教学进一步深化.某些从事相关领域研究的学生可以从中获得课题研究的灵感,甚至将他们引入该项研究的大门;大部分学生则可以从中体会数学理论和算法在解决工程问题时的切入点和主要思路,这对于他们未来的研究工作将是十分有益的.
4总结
本文首先探讨了案例教学在研究生数学公共课程中的定位与作用,在此基础上就“小波分析及其应用”一课的特点,设计了一个基于稀疏表示进行字符识别的教学案例.通过描述“数学模型——核心算法——算法调整”这一思维过程使学生了解稀疏表示理论如何用于高效解决实际工程问题.事实上,字符识别是机器学习或图像处理的一个子问题,稀疏表示还可拓展应用于更加广阔的应用问题中,如人脸/语音识别、图像分割/理解等等.
除案例框架之外,文中还介绍了案例教学的实施,包括课堂内容的选择、课后扩展内容的进一步讨论及组织形式等等.尽管该案例本身是专为“小波分析及其应用”课程教学而设计的,但是案例设计理念及教学过程组织等,可以为更多的研究生数学公共课程教学提供有益的参考.
[参考文献]
[1]冯学桥. 基于稀疏表示的脱机手写体汉字识别研究[D]. 山东大学硕士学位论文. 2010.
[2]OlshausenBA,FieldDJ.Emergenceofsimple-cellreceptivefieldpropertiesbylearningasparsecodefornaturalimages[J].Nature, 1996, 381: 607-609.
[3]WrightJ.,YangAY,SastrySSandMaYi.Robustfacerecognitionviasparserepresentation[J].IEEETrans.Pat.Anal.Mach.Intelli., 2009, 31(2): 210-227.
[4]TroppJ,GilbertA.Signalrecoveryfromrandommeasurementsviaorthogonalmatchingpursuit[J].IEEETrans.SignalProcessing, 2007, 53(12):4655-4666.
[5]EldarYC,KuppingerP,BolcskeiH.Block-sparsesignals:uncertaintyrelationsandefficientrecovery[J].IEEETrans.SignalProcessing, 2010, 58(6):3042- 3054.
[6]ChenSB,DonohoDL,SaundersMA.Atomicdecompositionbybasispursuit[J].SIAMJournalonScientificComputing, 1998, 20(1): 33-61.
[7]HerrityKK,GilbertACandTroppJA.Sparseapproximationviaiterativethresholding[C].ProceedingoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.WashingtonD.C.,USA: 2006, 624-627.
[8]FiqueiredoMA,NowakRD,WrightSJ.Gradientprojectionforsparsereconstruction:applicationtocompressedsensingandotherinverseproblems[J].IEEEJournalofSelectedTopicsinSignalProcessing, 2007, 1(4): 586-598.
[9]LaiM,YinW.Augmentedl1andNuclear-normmodelswithagloballylinearlyconvergentalgorithm[J].SIAMJournalonImagingSciences, 2013, 6(2): 1059-1091.
[10]ParikhN,BoydS.Proximalalgorithms[J].FoundationsandTrendsinOptimization, 2013: 1-96.
[11]ZhangH,YinW.Gradientmethodsforconvexminimization:betterratesunderweakerconditions[R].CAMReport,UCLA, 2013:13-17.
[12]RockafellarR.Monotoneoperatorsandtheproximalpointalgorithm[J].SIAMJournalonControlandOptimization, 1976,14:877-898.
OntheCases-basedTeachingintheCourseof
‘WaveletAnalysisandApplications’
WANG Hong-xia,ZHANG Xiao-ya,CHEN Bo,CHENG Li-zhi
(SchoolofScience,NationalUniversityofDefenseTechnology,Changsha410073,China)
Abstract:Why and how to implement case-based teaching in the mathematical courses for graduated students are discussed in this paper. As an example, according to the course characteristic of ‘wavelet analysis and applications’, a teaching case of character recognition based on sparse representation is specially designed. Various aspects of this case are described including the brief frame, material organization, further discussion and so on. We hope it is helpful to investigate case-based teaching in other mathematical courses.
Keywords:case-basedteaching;waveletanalysis;sparserepresentation;characterrecognition