张棋 陈朝伟 熊锴
摘要:隨着机器学习和深度学习技术的快速发展,计算机视觉无疑是近年来发展最快的人工智能领域之一。本文针对机器学习在计算机视觉处理中的应用进行了简要分析,分别在图像检测领域、图像语义分割领域介绍了机器学习的应用进展,并着重分析了典型分类算法随机森林的算法原理,在最后就机器学习在计算机视觉中的应用前景进行了展望。
关键词:机器学习 计算机视觉应用研究
引言
计算机视觉是一种基于计算机算法的自动识别图像内容的领域,它源于20世纪60年代左右的人工智能和认知神经科学。50年后,GM图像识别仍然难以普及,但图像识别的发展取得了显着进展。视觉算法已经开始涵盖广泛的受众,尤其是商业上的成功,包括交互式分割算法。图像检索,人脸识别和人体动作捕捉。这些领域的成功必须归功于过去20年来机器学习的快速发展。
1图像检测
图像检测是指在对图像进行分类时用矩形框包围对象。从14年到18年,先后涌现出R- CNN,Fast R-CNN FasterR- CNN, YOLO,SSD等知名机器学习框架, 它的检测平均准确度(mAP), PASCAL VOC在众所周知的计算机视觉数据集上的平均检测精度(mAP),也从R- CNN的53.3,到Fast RCNN的68.4,再到Faster R-CNN的75.9,最新实验表明,更快的RCNN结合残留网络(Resnet-101),其检测精度可达到83.8。深度学习检测速度也越来越快。然后到YOLO的155帧/秒(缺点是精度很低,只有52.7),最后发布了具有高精度和高速度的SSD,其精度75.1,速度23帧/秒。
2随机森林分类模型
在照片中,计算机通过算法实现“语义图像分割”,并区分三个主要元素:汽车,道路,建筑物,这需要一个强大的构建块来实现,即训练分类器预测不同分类图像(如汽车,道路,树木,墙壁等)中像素的分布。这项任务给机器学习带来了很多计算问题,特别是那些包含大量像素的计算机,这意味着我们需要在整个图像分类任务中进行超过一百万次的培训和测试。
面对如此大的像素问题,通常使用更有效的分类模型:随机森林。 随机森林以随机方式建造,构造森林后,当一个新的输入样本进入时,让森林中的每个决策树分别进行判断。查看样本应属于哪个类别,然后查看最多选择哪个类别,预测该类使用哪个样本。这种模型的优势在于:它可以处理许多高维数据,不需要进行特征选择,是一种很好的降维方法;在训练完后,它能够给出哪些feature比较重要;它的训练速度较快;在训练过程中,可以检测到特征之间的相互影响;容易做成并行化方法。
通过该技术手段,可以对超大像素图片中的每个对象的外观,颜色甚至角色的表情,动作,情感等进行分类和判断。
3机器学习与计算机视觉
机器学习是研究计算机如何模拟人类学习行为以获取新知识或技能,并重新组织现有知识结构以不断提高其绩效。它是人工智能的核心,也是使计算机智能化的根本途径。为了实现计算机视觉的功能,可以采用两种技术方法,分别是仿生学方法和工程方法。
其中工程学方法的一般做法是将人类视觉系统视为黑盒子,并且实现仅关注视觉系统将为输入提供何种输出。这两种方法在理论上都是可用的,但难点在于人类视觉系统对应于某个输入的输出不能直接测量。而且因为人类智力活动是多功能系统组合的结果,即使得到输入输出对,也很难确定它是仅由当前输入视觉刺激产生的响应。 而不是一个与历史状态综合作用的结果。
4结论
计算机视觉的研究是具有双重意义的,首先它是为了满足人工智能应用的需求,即需要用计算机实现手动视觉系统,这些结果可以安装在计算机和各种计算机上,使计算机和机器人能够“看到”。反过来,视觉计算模型的研究成果对于我们进一步理解和研究人类视觉系统本身的机制,甚至是人脑的机制具有重要的参考意义。本文针对机器学习在计算机视觉处理中的应用进行了简要分析,分别在图像检测领域、图像语义分割领域介绍了机器学习的应用进展,并着重分析了典型分类算法 随机森林的算法原理,在最后就机器学习在计算机视觉中的应用前景进行了展望。
参考文献
[1]陈熙霖,计算机视觉,算法与系统原理[M].清华大学出版社,2000
[2]高满屯,计算机视觉研究中的投影理论和方法[M].西北工业大学出版社,1998
[3]马颂德,张正友,计算机视觉计算理论与算法基础[M].科学出版社,19 98
[4]章毓晋,图像工程下 图像理解与计算机视觉[M].清华大学出版社,2000