计算机视觉研究综述

2018-04-17 09:11浙江省绍兴鲁迅中学倪晨旭
电子世界 2018年1期
关键词:机器语义计算机

浙江省绍兴鲁迅中学 倪晨旭

1 引言

视觉是人类理解认识外部世界的重要途径。在人类认知的过程中,有超过80%的信息量来自视觉系统[1],如物体的形状、大小、颜色、空间位置等。但是,由于主观和客观条件限制,很多信息不能由人类视觉系统直接或者准确的获取,人类自然的希望借助外部设备帮助人类处理或者理解信息,这就为人类科学技术发展带来一个崭新的研究课题——计算机视觉。计算机视觉是研究如何让机器“看”的科学,其可以模拟、扩展或者延伸人类智能,从而帮助人类解决大规模复杂的问题。计算机视觉任务应用相当广泛,如人类识别、车辆或行人检测、目标跟踪、图像生成等,其在科学、工业、农业、医疗、交通、军事等等领域都有着广泛的应用前景。

随着并行计算、云计算、机器学习等软硬件技术的发展,计算机的图像处理能力不断提高,计算机视觉近几年获得了快速的发展,各项应用在各个领域落地生根,学术界和工业界的研究也如火如荼。本文从计算机视觉发展、研究技术、面临的挑战等方法对计算机视觉进行研究,为计算机视觉研究奠定基础。

2 计算机视觉概述

计算机视觉是从图像或者视频中提出符号或者数值信息,分析计算该信息以进行目标的识别、检测和跟踪等。更形象的说,计算机视觉就是让计算机像人类一样能看到图像,并看懂理解图像。

计算机视觉开始于20世纪50年代,主要用于分析和识别二维图像,如光学字符识别、显微图片的分析解释等。到60年代,通过计算机程序可以将二维图像转换成三维结构进行分析,从此开启三维场景下计算机视觉研究。到70年代,麻省理工学的人工智能实验室院首次开开设计算机视觉课程,由著名的Horn教授主讲,同实验室的Marr教授首次提出表示形式(representation)是视觉研究最重要的问题。到80,90年代,计算机视觉迅速发展,形成感知特征的新理论框架并逐渐应用到工业环境中。到21世纪,计算机视觉领域呈现许多新的趋势,计算机视觉与计算机图形学深度结合,基于计算机视觉的应用也呈爆炸性增长,除了在手机、电脑上的应用,计算机视觉技术在交通、安防、医疗、机器人上有各种各样形态的应用。

3 计算机视觉任务常用技术

计算机视觉是让计算机获取图像到看懂图像的过程。图像处理能力赋予了计算机看即获取的能力,是人工智能的重要输入。这里主要介绍数字图像处理技术,即将图像信号转化成数字信号再用计算机进行处理的技术[2]。图像处理的目的,是将输入的低质量的图像转化成高质量的图像输出,常用的方法有图像压缩编码、图像变换、图像描述、图像增强和复原。图像压缩编码是减少描述图像的比特数,以节省传输和存储消耗。图像变换旨在减少计算量,如将空间域的图像阵列变换成频域空间去处理。图像描述(representation)是图像理解的前提,其作用是挖掘一般或主要信息去描述图像。图像增强和复原主要用于提高图像质量,如去除噪声,强化高频信息等。以上图像处理技技术主要依赖一些数学变换。

模式识别、机器学习、深度学习等算法赋予计算机看懂的能力,是人工智能的核心,更形象的说就是让计算机像人的大脑去理解图像。模式识别、机器学习、深度学习是让机器感知或学习的工具或方法,本文不对它们进行区别,主要帮助读者理解这些方法是如何帮助计算机理解图像或者视频的。让计算机看懂的过程,就是根据图像或者视频数据建模的过程,建模就是用数学符号或者公式推理数据之中的一般模式或者规律,从而可以对新输入的数据进行分类或者回归,分类就是输出数据的类别,回归类似与数学中的映射函数,输出数据的可能值。

4 计算机视觉任务的应用

随着信息技术的发展,计算机视觉应用在人们的日常生活中、学术界和工业界已屡见不鲜,计算机视觉应用呈爆炸式增长,本文重点介绍计算机视觉任务的三大应用,分别是图像识别、目标检测和图像分割。

图像识别又叫图像分类,就是输入一张图片,输出该图像的类别,让计算机识别人、交通信号灯、动物等这些信息,这是广义上的图像识别[3]。在工业界和学术界还有针对特定目标的识别,比如车牌识别,在高速公路的ETC口,不需要人工收费,摄像头会识别你的车牌并收取相应的费用。另外人脸识别在日常生活中也得到了广泛的应用,如支付宝的人脸支付等。

计算机视觉任务中另一个常见的应用是目标检测,其目的是输出给定图像中特定目标的位置,类别等。由此可见,目标检测是对目标识别的进一步发展,计算机不仅要输出图像中目标的位置,还要给出目标的类别。目标检测一个常见的应用是行人检测,比如在一个交通路口,快速地检测出摄像头中拍到的所有行人,可以估计人流数,从而对异常事件进行预警。

与计算机视觉任务相关的第三个任务是目标分割,图像分割又可分为图像语义分割和个体分割。图像语义分割是将图像分割成一个个独立的个体,每个个体具有一定的语义意义[4]。图像个体分割是比图像语义分割更进一步的任务,其是图像语义分割和图像检测的结合,即不仅要独立出所有的物体,还要输出所有物体的位置。图像分割是计算机解释图像的过程,这类似于人理解图像,就需要找出图像中一个个的物体,找出物体之间的关系等。

以上三个计算机视觉任务的难度逐渐增加,并逐渐模拟人类理解图像的过程。另外,计算机视觉任务并不局限于上述三个应用,还有许多有用的应用,如目标跟踪。

5 计算机视觉面临的挑战

未来计算机视觉任务发展面临的挑战主要来自三个方面:1)有标注的图像和视频数据较少,机器在模拟人类智能进行认知或者感知的过程中,需要大量有标注的图像或者视频数据指导机器学习其中一般的模式。当前,主要依赖人工标注海量的图像视频数据,不仅费时费力而且没有统一的标准,可用的有标注的数据有限,这使机器的学习能力受限;2)计算机视觉技术的精度有待提高,如在物体检测任务中,当前最好的检测正确率为66%,这样的结果只能应用于对正确率要求不是很高的场景下;3)提高计算机视觉任务处理的速度迫在眉睫,图像和视频信息需要借助高维度的数据进行表示,这是让机器看懂图像或视频的基础,这就对机器的计算能力和算法的效率提出很高的要求。

6 总结

计算机视觉是人工智能的核心,在学术界和工业界有着广泛的应用。本文简述计算机视觉的发展历程,研究意义,分析计算机视觉的核心技术和挑战。让计算机看得懂,看得远是未来视觉的重中之重,计算机视觉研究任重而道远。

[1]塞利斯基艾海舟,兴军亮.计算机视觉#:#算法与应用[M].清华大学出版社,2012.

[2]张波.数字图像处理技术的发展及应用[J].品牌:理论月刊,2011(Z2):158-158.

[3]甄栋志,朱永伟,苏楠等.基于计算机视觉对目标识别检测的研究[J].机械工程与自动化,2014(1):129-130.

[4]杨雪.基于纹理基元块的图像语义分割[D].西南科技大学,2015.

猜你喜欢
机器语义计算机
机器狗
机器狗
计算机操作系统
语言与语义
基于计算机自然语言处理的机器翻译技术应用与简介
未来机器城
信息系统审计中计算机审计的应用
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
Fresnel衍射的计算机模拟演示