张林 沈莹
摘 要:分析高级数字图像处理课程的教学内容,提出教学内容要紧密围绕图像处理研究领域的最新研究成果展开,围绕课堂授课内容、实践环节、论文阅读3个方面对这门课程的建设方案进行全面阐述。
关键词:软件工程;高级数字图像处理;研究生课程
1 背 景
数字图像处理作为一门独立学科大约形成于20世纪60年代初期,它是一种通过计算机对图像进行去除噪声、增强、复原、分割、配准、压缩、提取特征等处理的技术。最近10年以来,伴随着计算机软硬件水平的快速进步,数字图像处理的理论与应用都进入到了迅猛发展阶段,其研究内涵、研究方法、应用领域等都较之前发生了很大程度的改变。
在此背景之下,面向研究生开设的高级数字图像处理课程的教学内容需要反映出这个学科的前沿特性,需要结合当前主流的应用领域。
2 课堂授课内容
数字图像处理课程在国内外的很多院校都有了较长的开设历史,相应的经典教材也有很多,比如冈萨雷斯编著的《Digital Image Processing》[1]等。同济软件学院在本科大三年级也开设了数字图像处理课程,讲授经典数字图像处理内容。因此,针对研究生开设的高级数字图像处理课程绝不能再去炒本科阶段的“冷饭”,而应该引入新颖的内容,从而体现出课程名中的“高级”二字。考虑到这些因素,我们在制定课堂教学内容时选取一些近年来在数字图像处理领域所取得的较新的重要研究成果,这种做法使得我们的研究生能够较为快速全面地了解该领域的前沿情况,为他们在此方向继续进行深入研究打下良好的基础。同时,所选取的授课内容比较契合产业界当前的最新需求,从而可以使我们培养的研究生能够在就业市场上占得先机。
2.1 深度卷积神经网络
最近5年来,深度学习(deep learning)技术给机器学习领域带来了许多革命性的变化,解决了很多传统方法难以克服的问题。这项技术也渐渐在图像处理领域得到应用,并已取得了很好的结果。比如,深度学习已经用于解决图像的超分辨率问题、图像的去模糊问题、图像的去雾霾问题、图像的精细化分割问题等。由于深度学习属于基础理论范畴,在本课程的其他专题中也会经常使用到,所以先讲授这部分内容。
自从2012年Alex Krizhevsky等在NIPS上发表了把深度卷积神经网络(Deep Convolutional Neural Network,DCNN)应用于解决大规模图像分类问题的成果以来[2],在机器学习和计算机视觉领域掀起一股研究和应用深度学习技术的热潮,并在许多不同领域取得了很大成功。深度学习技术近来的巨大成功一方面得益于大规模带有标记的数据的出现,一方面是由于计算技术的进步(如GPU)。深度学习实际上是一种对数据表示(representation)的学习技术。深度学习模型由多层简单模块叠加形成,每一层都会对输入进行变换来同时增加数据表达的选择性和不变性。图1展示了一个典型的深度卷积神经网络结构。深度学习模型可以从原始数据中学习到它们具有不同抽象层次的多层表示。深度学习技术的一个显著特点就是它对数据特征的学习不是手工的,而是用通用的学习策略从数据中自动学习到。
在本专题中,教师会介绍深度神经网络的基本知识,主要涉及的知识点有:Softmax回归(softmax regression)、深度卷积神经网络(DCNN, Deep Convolutional Neural Networks)、Pooling策略、非線性激励策略、训练集测试集与验证集、随机梯度下降法(stochastic gradient descent)、Fast-RCNN(Fast Region-based Convolutional Networks)、CAFFE的应用等。
2.2 图像质量评价
在大部分的图像应用系统中,图像质量评价(image quality assessment, IQA)都扮演着重要的角色[3]。虽然人的主观评测往往能比较准确地衡量图像的质量,但在很多实际的应用场景中,由人逐一对图像的质量进行评测是效率很低的一种做法,甚至是根本不可行的。在这种背景下,构建有效的、自动化的图像质量评价算法就成了一个具有重大意义的研究课题。图像质量评价研究的最终目的是希望提出某些算法,这些算法可以对图像的质量进行自动评价,而且评价的结果能够和人的主观感受高度一致。图2通过一个示例展示了IQA算法的目的,(a)~(d)是4幅图像,人的视觉系统可以很容易对它们的质量水平进行排序;IQA研究的目的就是要设计出自动化算法,该算法可以对输入图像的质量进行自动评估,而且评估结果要和人的主观感知高度一致。
图像质量评价的研究在整个图像处理领域中占有重要地位。一方面,它具有很强的理论价值和科学价值,有助于加深人们对于人脑是如何感知图像信息这一问题的理解,这也是脑科学和神经生物学所关注的问题;另一方面,它也有很强的应用价值,可以应用到多个与图像相关的技术领域中。目前很多图像和视频解决方案的提供商(如华为、中兴)都对IQA问题极为重视。
根据高质量参考图像(这些图像不存在质量失真)的存在性,图像质量评价问题可以细分为全参考图像质量评价(full-reference IQA,FR-IQA)、部分参考图像质量评价(reduced-reference IQA,RR-IQA)和无参考图像质量评价(no-reference IQA,NR-IQA)。在本课程中我们主要讲授FR-IQA和NR-IQA的典型算法。在FR-IQA中,高质量无失真的参考图像是已知的,因此FR-IQA算法可以用来评价同类型的图像复原算法的优劣。比如,给定多个图像去噪算法,好的FR-IQA算法能够准确地判断出它们中的哪一个能产生主观感觉上最好的去噪效果,相应的去噪算法当然就是效果最好的去噪算法。其次,FR-IQA算法还可以用于指导某个图像处理算法的参数选择,甚至可以直接作为优化目标来指导设计新的图像处理算法。在NR-IQA问题中,任何有关无失真高质量图像的信息都是未知的,NR-IQA算法要对一个输入的图像直接进行质量评价。NR-IQA计算模型的应用范围非常广泛,比如,当我们设计一个基于人脸识别的门禁系统的时候,一般需要对采集到的图像样本进行质量评测步骤;只有当图像样本满足一定的质量要求的时候,它才会被输入到后端特征提取与分类模块进行进一步处理。在这种场景下,对人脸图像的质量评测实际上就是一个NR-IQA问题。
本专题的主要知识点包括:图像质量评价问题分类、MSE(mean squared error)指标的问题、SSIM(structural similarity)算法、相位一致性(phase congruency)、FSIM(feature similarity)算法、BIQI(blind image quality index)算法、NIQE(natural image quality evaluator)算法、IL-NIQE(integrated local natural image quality evaluator)算法、图像质量评价算法的性能评测策略。
2.3 图像中雾霾的度量与去除
很多图像应用系统需要在室外条件下采集图像,如监控系统、智能交通系统、辅助驾驶系统、基于手机的地标查询系统等。这些系统在设计与部署的时候会假设成像系统工作时的天气条件是良好的,获取的图像是正常清晰的,没有充分考虑恶劣天气条件对成像质量造成的不利影响。然而,实际上恶劣天气条件会极大地降低图像质量,从而会影响整个系统的可用性。影响成像质量的恶劣天气主要包括雾、霾、雨、雪、冰雹等,而这其中雾霾较其他天气现象而言更易多发,而且对成像质量造成的影响更大。在本专题中,教师将讲授当前研究领域最新的图像雾霾程度度量算法和图像去雾霾算法。图像中雾霾程度度量研究的最终目的就是构造一种算法,它可以对输入图像中的雾霾程度进行自动地、准确地度量。图像去雾霾算法的目的是从含有雾霾的图像中复原出没有雾霾的高质量清晰图像。
本专题的主要知识点包括:雾霾的物理模型、FADE(Fog Aware Density Evaluator)雾霾度量算法、基于暗通道(dark channel)假设的去雾霾算法、基于单张图像的深度估计、模拟雾霾样本的生成、基于DCNN的去雾霾模型。
2.4 生物特征识别
如何进行简单有效的身份识别和验证成为各级政府和企事业单位需要面对的一个日益严峻的问题,生物特征识别技术目前被公认为是一个较好的解决方案。生物特征识别技术通过计算机与光学、声学、传感器和统计学等高科技手段,利用人体固有的生理特征(如指纹、虹膜、人脸、掌纹等)和行为特征(如笔迹、声音、步态等)来进行个人身份识别和验证[4]。目前,生物特征识别技术已广泛应用于我国的多个重要行业部门,如军事、公安、刑侦、民政、海关等。未来的生物特征识别系统能够使身份识别与验证变得更加方便、快捷、可靠,因此,这个产业具有广阔的市场前景和巨大的潜在商业价值。图3展示了常见的生物特征,包括指纹、人耳、人脸、虹膜、掌纹、手掌静脉、手指静脉等。
在本专题中,教师会介绍生物特征识别领域的基本理论以及典型的生物特征识别技术,主要知识点包括:生物特征识别系统的性能评价、虹膜识别技术、指纹识别技术、人脸识别技术、掌纹识别技术。
3 实践环节
通过课堂内容的学习,学生可以了解到图像处理领域目前所使用的主流理论和技术,但高级数字图像处理课程应用性极强,因此其实践环节尤为重要。实践环节要真正起到培养研究生分析问题、解决问题、综合运用多学科知识的作用。在实践环节中,任课教师设计了一组开放性课题,这些课题都与任课教师目前正在从事的科研项目有关。这样,当学生在实践环节中遇到具体问题时,任课教师能及时给出建设性意见。对于每一个开放课题,基础数据和硬件平台都由任课教师提供,学生的任务主要是运用所学知识设计和实现解决问题的算法。
目前的开放性课题主要包括以下5个:行人的上半身检测、自主泊车系统中的车库位检测(检测效果见图4)、非接触式掌纹掌脉识别(任课教师设计制备的非接触式掌紋掌脉采集装置见图5)、基于深度卷积神经网络的图像去雾霾、图像的视觉显著性检测。这些课题基本上都属于图像应用领域的研究热点。
在实践环节中,一般安排2~3人组成一个小组来协作完成一个课题,客观上也培养了研究生团结一致、分工协作的能力。
4 论文阅读
科技文献阅读能力是研究生教学过程中需要重点培养的一种能力。文献阅读会贯穿整个研究工作的始终,从找到研究问题、了解当前发展现状、提出可行方案、制订实验方案,再到最终论文撰写,都离不开文献阅读。因此,在本课程中专门安排了文献阅读环节。学生在教师的指导下,从指定的范围内选择一篇合适的论文进行精读,然后要求在课堂上讲演。所选择的论文主要是近年来发表在图像处理领域顶级期刊(如IEEE T-PAMI、IEEE T-IP等)或会议(如CVPR、ICCV、ECCV等)上的论文。讲演环节的评分考虑到以下因素:能否清晰介绍问题背景、能否清晰介绍论文所提方案的设计动机、能否清晰介绍论文所提方案、能否清晰介绍论文方案所取得的效果、能否提出自己的改进想法。
5 课程建设方案的效果评估
从2013年开始,高级数字图像处理课程已经完整开设了4次,教学效果良好,在学生中引起强烈的反响,获得同济大学相关专家和学生很高的评价。从精心安排的课堂授课专题中,学生学习或了解到图像处理领域当前最主要的研究问题和研究方法;在实践环节中,学生以任课教师正在从事的科研项目为载体,锻炼了分析问题、综合运用所学知识解决问题以及团队协作的能力;在文献阅读环节中,在教师的指导下,学生提升了查阅文献、获取论文中的有效信息、做讲演等方面的能力,课程建设方案达到了这门课的开设目的。
6 结 语
高级数字图像处理课程是同济大学软件学院新开设的一门前沿课程,覆盖了多项图像处理领域的前沿研究内容。该课程已经完整开设了4个周期,取得了良好的教学效果,获得了相关专家和修读此课的学生的高度评价。在今后的教学实践中,我们还会认真听取相关专家和学生的建设性意见,对课程建设方案不断完善,与时俱进,从而持续提升该课程的教学质量。
参考文献:
[1] Gonazlez R C, Woods R E. Digital Image Processing [M].Upper Saddle River: Prentice Hall, 2008.
[2] Krizhevsky A, Sutskever I, Hinton G E.Image net classification with deep convolutional neural networks[C]//Proceedings of Neural Information Processing Systems.Cambridge: MIT Press,2012:1106-1114.
[3] 高新波,路文.视觉信息质量评价方法[M]. 西安: 西安电子科技大学出版社, 2011.
[4] Jain A K, Flynn P J, Ross A. Handbook of Biometrics[M]. Berlin:Springer, 2007.
(编辑:郭田珍)