黄 伟, 李晓玲
(1. 南昌大学 信息工程学院, 江西 南昌 330031; 2. 江西师范大学 科技学院, 江西 南昌 330027)
基于大数据和多模态智能技术的计算机视觉实验设计
黄伟1, 李晓玲2
(1. 南昌大学 信息工程学院, 江西 南昌330031; 2. 江西师范大学 科技学院, 江西 南昌330027)
介绍了大数据技术中的卷积神经网络和多模态智能技术中的支持向量机、谱聚类等模型。以图像检索和图像分割为例,详述了采用卷积神经网络遴选图像特征表征之后,运用多模态技术进行模型参数自动定参和实际运用的实现过程。该研究项目用于计算机视觉课程的实验教学,有利于学生学习计算机视觉领域的前沿技术,运用不同模型解决实际问题,锻炼学生组织实验、分析实验数据和团队协作等综合能力。
计算机视觉; 大数据; 多模态; 实验教学
计算机视觉课程是面向计算机专业高年级本科生、硕士和博士研究生开设的一门计算机专业课程[1]。近年来,计算机视觉课程与云计算、大数据、多模态智能技术等紧密联系,成为一门重要的、课程内容与时俱进的计算机专业课程。本文总结了南昌大学开设计算机视觉课程的改革创新经验。学校在原有计算机视觉课程知识体系基础上,将大数据、多模态智能技术等新技术融入计算机视觉课程课堂与实验教学中,增加了图像检索、图像分割等新技术的运用,帮助学生理解相关理论的实用价值,对拓展学生的视野、激发学生的想象力和创新力、促进学生开展跨学科协作和交流都具有重要的现实指导意义。
大数据是源自计算机领域、被广泛运用到“互联网+”等跨界领域的计算机行业的新兴技术。大数据的“大”包含两层含义:一是数量大,二是维度大。数量大可以表现为人们生产生活中不断产生和接触到的海量数据;维度大表现为单一数据样本中具有众多属性。例如,一副图像可以由颜色、几何特征、纹理特征等不同属性的特征描述。研究大数据的目的是从海量数据和高维数据中获取隐含的有价值的信息[2-4]。
深度学习是近年来研究大数据的一项热门技术,其概念源于对人工神经网络的研究,其目的在于建立类似人脑分析学习功能的神经网络。因此,深度学习可以看作是通过模仿人脑机制来解释和处理大数据。在深度学习中,研究者提出了若干种流行的模型,常见的包括自动编码器、稀疏编码、限制波尔兹曼机、深度置信网络、卷积神经网络等[5]。在计算机视觉课程实验设计中,卷积神经网络是教学重点内容。
卷积神经网络可以被看作传统人工神经网络的一种最新进化形态,已广泛运用于语音分析、图像识别等研究领域。与传统人工神经网络相比,卷积神经网络的权值共享网络结构更类似于生物神经网络,这种结构有助于降低网络模型的复杂度、减少权值数量,因此在处理视觉数据输入时优势更加明显。图像、视频等视觉数据作为网络的直接输入,有利于避免传统识别算法中复杂的特征提取和数据重建过程。
卷积神经网络的基本结构包括两层。
(1) 特征提取层。每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来。
(2) 特征映射层。网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构可以采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使特征映射具有位移不变性。由于每一个映射面上的神经元共享权值,因而减少了网络中待定自由参数的个数。
卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的二次特征提取结构有助于减小特征分辨率。由于卷积神经网络的特征检测层通过训练数据进行学习,所以在使用卷积神经网络时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者,由于同一特征映射面上的神经元权值相同,卷积神经网络可以进行并行学习,这也是它相对于神经元彼此相连网络的一大优势。
卷积神经网络以其局部权值共享的特殊结构在计算机视觉研究领域具有独特的优越性,其布局更接近于实际的生物神经网络。权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点,避免了特征提取和分类过程中数据重建的复杂度[6]。基于以上特点,将卷积神经网络运用在图像检索、图像分割等实验设计过程中,就可以实现对图像视觉特征信息的自动提取。
多模态智能技术源于传统模式识别,用来按照不同模型类别对数据进行有监督、半监督、无监督等智能处理。一般来说,多模态智能技术按照模型种类不同可以被划分为分类模型和聚类模型。
2.1分类模型
分类模型主要用于区分来自不同类别的数据,常见的分类模型包括支持向量机、传统神经网络、隐马尔可夫模型等。
以支持向量机为例,给定N个数据点{(x1,y1),(x2,y2),…(xN,yN)},xi表示第i个数据点的提取特征信息、yi表示第i个数据点所属的类别。考虑支持向量机模型最常见的2类情况,即y∈{-1,+1}。支持向量机的主要思想是假设存在一个超平面xTβ+β0=0,其中β是垂直于该超平面的一个垂直向量,而β0是该超平面与垂直坐标轴的相交点。
图1 支持向量机在二维空间内的示意图
2.2聚类模型
聚类模型对数据按照其固有的特性进行区分。与分类模型的有监督方式不同,聚类是一种无监督方式,即数据的有监督类别信息一般在聚类模型中事先未知。因此,聚类模型是一种发掘数据本身特性,并按照其特性来区分数据类别的有效手段。传统聚类模型包括k-means、分层聚类模型、密度聚类模型等。
在本课程的实验设计中,选取了基于图论的新颖的谱聚类模型。谱聚类模型的具体实现步骤如下。
首先设定计算2个数据点间相似度的函数,该函数定义可以采用d(xi,xj)=exp(-(si-sj)TA(si-sj))的形式;其中xi表示数据点;si是从数据点xi中提取的表征信息;A是在谱聚类模型中需通过学习机制确定的全矩阵。
最后,通过构造一个基于Frobinus范数的最优化问题和梯度下降法来求解并得到A的最优解:
其中
大数据技术可以和多模态智能模型紧密结合,运用在计算机视觉课程不同的实验设计中。这种结合非常有助于帮助学生掌握最前沿的技术发展趋势,通过最新技术与经典模型的结合,有效提高学生组织实验、分析实验数据、锻炼团队协作能力和解决问题的能力。
3.1卷积神经网络和支持向量机的图像检索实验
随着数字图像的广泛运用,用户需要从海量数据库中找出感兴趣的图像,即进行图像检索。根据用户在检索过程中所给出的图像信息类别来划分,图像检索方法可分为基于文字的图像检索和基于内容的图像检索。基于文字的图像检索是通过比较用户给出的感兴趣图像的文字信息与数据库中图像的文字信息,检索出具有相同或相似文字信息的图像;基于内容的图像检索则通过直接对比感兴趣图像与数据库图像之间的视觉特征,检索出具有相同或相似视觉特征的图像。基于内容的图像检索不要求用户事先对图像加上额外文字信息,能有效节省人为标记负担,也能避免用户在标记过程中主观判断的不确定性。因此,基于内容的图像检索是目前图像检索研究的主流方向[9]。
在计算机视觉实验中,卷积神经网络和支持向量机技术被运用其中。
首先,通过Matlab GUI设计一个图像检索实验人机交互界面。该界面可读取jpg、bmp、png等格式的图像数据,其中大数据技术中的卷积神经网络被运用在每一副图像的视觉特征提取中,即将颜色、纹理、形状等图像底层视觉特征输入卷积神经网络,将其中间的隐层输出作为卷积神经网络挑选出的具备差异性的图像视觉特征。例如当学生选取一副建筑图像作为待检索图像(记为Query Image)时,从图像数据库中检索到20幅相似图像,其中前3幅最相似的图像如图2所示。由图2可见:采用大数据和分类模型相结合,检索结果十分准确,即检索图像结果也属于建筑图像。学生在该实验过程中可以改变模型中的参数和其他关键函数设置(支持向量机的核函数、最优化方式、松弛因子、惩罚因子、卷积神经网络隐层数目、节点数、映射函数等),观察不同参数设置下图像检索的效果,总结出一套最优参数设置,并通过precision-recall等标准图[7]进行定量分析和比较。
3.2卷积神经网络和谱聚类技术的图像分割实验
图像分割是指从图像中把用户感兴趣的物体或者区域精确提取出来的过程。在本实验中,学生可以利用卷积神经网络和谱聚类技术,在一组结构性磁共振图像中提取脑部肿瘤图像。其中,大数据中的卷积神经网络技术同样被运用于灰度图像视觉特征组成。
卷积神经网络的输入是灰度、纹理等底层视觉特征信息,中间隐层的输出作为分割图像的视觉特征表征。本实验的另一个突出特点是允许学生在读取的医学图像中,通过触摸屏或鼠标等勾勒一个包含目标物体的不规则框,如图3所示。该不规则框的作用有两点:一是带入用户关于目标区域的先验知识,从而节省模型计算负担;二是对选取正、负样本具有指导意义。
图2 待检索图像与前3幅检索图像检索结果示例
图3 图像分割实验界面及不规则框(黄色)勾勒
本实验可以选择通过4种不同模型进行图像分割,其中“New method”表示谱聚类、“Baseline”表示k-means聚类、“SVDD”表示一类支持向量区域描述方法[10]、“SVM”表示支持向量机。图4为采用谱聚类方法所得到的实验结果。图的左上和右上子图分别对应原图在无和有对比增强(通过对磁共振图像中大脑区域的脂肪抑制来实现)处理时的图像;图4的左下角和右下角子图分别是医生手工勾勒出的标准肿瘤和通过谱聚类方法产生的图像分割结果。可见,通过谱聚类方法产生的结果与标准结果之间相似度很高,这说明该方法分割精度好。
图4 图像分割实验结果
在实验过程中,学生可以对手工勾勒不规则框的位置、尺寸、形状对图像分割结果的影响(即整个系统受初始化影响的鲁棒性),卷积神经网络遴选特征向量对分割结果的影响,谱聚类算法相似度函数定义,矩阵A的学习结果对分割结果的影响等进行实验和分析,并比较谱聚类、支持向量机、k-means、一类支持向量区域描述等方法在该图像分割实验中的效果,利用F-measure等客观分割效果衡量标准给予定量的实验分析和方法比较[11]。
大数据和多模态智能技术是现今计算机视觉研究领域的前沿技术。将这些前沿技术引入实验课程教学中,设计诸多新颖的,具备前沿性、交叉性和应用性的实验项目,对拓展学生的视野、激发学生的想象力和创新力、促进不同学习背景和知识结构的学生开展跨平台协作和交流,具有重要的现实指导意义。基于大数据和多模态智能技术的计算机视觉实验设计也符合现在高校培养工程实践人才的要求。
References)
[1] 中华人民共和国国民经济和社会发展第十三个五年规划纲要[Z/OL].(2016-03-17)[2016-04-25].http://www.gov.cn/xinwen/2016-03/17/content_5054992.htm.
[2] 白鹏,杨新湦,张亚宜,等.大数据背景下的空管实验室建设探索[J].实验技术与管理,2015,32(2):228-230.
[3] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):1-44.
[4] 闻星火,李德华,蒋景华.弘扬百年传统,建设一流平台:清华大学实验室建设百年回顾与展望[J].实验技术与管理,2011,28(3):1-4.
[5] 余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.
[6] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
[7] Huang W,Chan K,Zhou J. Region-based nasopharyngeal carcinoma lesion segmentation from MRI using clustering- and classification-based methods with learning[J].Journal of Digital Imaging,2013,26(3):1-11.
[8] Huang W,Li J,Zhang P,et al. A novel marker-less lung tumor localization strategy on low-rank fluoroscopic images with similarity learning[J].Multimedia Tools and Applications,2015,74(23):10535-10558.
[9] Huang W,Zhang P,Wan M. A novel similarity learning method via relative comparison for content-based medical image retrieval[J].Journal of Digital Imaging,2013,26(5):850-865.
[10] Vapnik V N. The Nature of Statistical Learning Theory[M].Springer,1995.
[11] 刘松涛,殷福亮.基于图割的图像分割方法及其新发展[J].自动化学报,2012,38(6):911-922.
Design of experiments for computer vision based on big data and intelligent multi-modality techniques
Huang Wei1, Li Xiaoling2
(1. School of Information Engineering,Nanchang University,Nanchang 330031,China;2.College of Science and Technology,Jiangxi Normal University,Nanchang 330027, China)
This paper elaborates on convolutional neural network in deeply learning as well as support vector machine and spectral clustering in intelligent multi-modality techniques. Two types of experiments including image retrieval and image segmentation are described. The strategy of adopting deep learning for feature extraction as well as intelligent multi-modality techniques for parameters tuning is introduced in detail. This design of novel experiments is specialized in the Computer Vision course, which is beneficial for the students to get familiar with up-to-date knowledge in computer vision,know how to solve practical problems via diverse models,and learn the capability to organize experiments,analyze data as well as team collaboration in experiments.
computer vision; big data; multi-modality; experimental teaching
10.16791/j.cnki.sjg.2016.09.031
计算机技术应用
2016-04-25修改日期:2016-05-02
国家自然科学基金项目(61403182,61363046);江西省教育厅高校教改项目(JXJG-15-1-26);江西省青年科学家培养对象项目(20153BCB23029);教育部留学回国人员科研启动基金项目([2014]1685)
黄伟(1983—),男,江西南昌,博士,副教授,副院长,主要研究方向为计算机视觉、模式识别和教学科研管理.
E-mail:huangwei@ncu.edu.cn
G642.423
A
1002-4956(2016)9-0122-04