计算机视觉技术及产业化应用态势分析

2018-02-15 01:11
信息通信技术与政策 2018年9期
关键词:计算机算法

1 引言

计算机视觉是人工智能的重要发展方向,广泛应用于安防、金融、医疗等多个领域。计算机视觉指用计算机实现人对客观世界三维场景的感知、识别、理解和分析,与自然语言处理、人机交互并列为人工智能3大关键技术领域。计算机视觉涉及计算机科学、数学、工程学、物理学、生物学、心理学等多门学科,如图形算法、信息检索、机器学习、机器人、图像处理、认知科学等。计算机视觉能够极大地改善人与世界的交互方式,代替完成更多突破人类视觉局限的任务,如长时间、不间断的安防监控等。

计算机视觉产业链主要由3个层面组成,一是基础层,包括服务器、芯片、传感器、计算平台、数据等;二是技术层,包括算法、产品及行业解决方案,如安防影像分析、泛金融身份认证、手机及互联网娱乐、批发零售商品识别、嵌入式智能系统、工业制造、广告营销、医疗影像分析、自动驾驶等;三是应用层,涉及公共安全、金融、医疗、互联网、手机、交通等多个领域。当前,计算机视觉是人工智能领域发展最迅猛的技术方向,静态和动态图像识别在安防、视频广告、泛金融、手机娱乐、医疗影像等领域得到规模应用。

2 计算机视觉技术产业发展现状及面临的挑战

全球计算机视觉快速发展,我国市场空间广阔、技术创新活跃。根据咨询公司发布的数据预测,2018年全球计算机视觉市场规模将超过300亿元,年均增长将超过20%,其中中国市场规模将达到120亿元。

国内机器视觉企业积极推进技术研发及产业化应用,如商汤科技与华为、高通、中国移动、小米、本田汽车等达成合作,技术产品遍布金融、安防、AR、智能手机、自动驾驶等多个领域;旷视科技旗下FaceID平台广泛应用于今日头条、支付宝、vivo、小米、小麦铺、缤果盒子等知名公司,支撑全球超过2.5亿人实现远程实名身份验证,并推出人脸解锁手机、新零售刷脸支付等应用;云从科技自动人脸识别技术产品已在中国超过22个省市上线应用,支持区域布控追逃以及银行刷脸取现、金融大数据服务等;依图科技针对医疗领域研发的阅片机器人已在几十家三甲医院的影像中心落地;超多维计算视觉综合解决方案致力于提供与人类视觉感知习惯更符合的智能化、自然化、人性化、娱乐化的全新体验,并在医疗、教育、体验商城、设计等领域综合布局。

数据、算法模型和运算力是计算机视觉发展的三大基本要素。计算机视觉的快速发展得益于近年来数据量暴发式增长、运算力持续增强和深度学习算法的出现。首先,算法模型是计算机基于所训练大量数据集归纳总结的识别逻辑,海量优质的应用场景数据是实现精准视觉识别的前提和基础,以人脸识别为例,算法模型的训练对图片数据的需求量达到百万级别以上;互联网、移动互联网、物联网等产生数据量的急剧增加为训练计算机视觉技术提供源源不断的素材,助力视觉识别精准度快速提升。

其次,GPU运算力的大幅提升为计算机视觉发展提供能力保障,视频、图像数据处理需要大量矩阵计算操作,对并行运算能力要求较高,传统CPU无法满足大量计算需求,如使用CPU训练简单的神经网络模型需要几周的时间,极大地制约了算法模型的试验及迭代工作。为专门执行复杂数学、集合计算的GPU很好地解决了并行计算的难题,为数据处理规模、运算速度带来了指数级增长与改善,根据执行大规模无监督深度学习模型训练试验的显示,使用GPU和传统双核CPU在运算速度上的差距接近70倍,使用GPU运行4层、一亿个参数的深度学习网络仅需要一天时间,而使用CPU需要数周的时间。

最后,深度学习算法极大地提高计算机视觉识别的准确率。深度学习是一种基于多层神经网络、以海量数据为输入的自学习算法,在其出现之前计算机视觉识别是通过人为寻找特征让机器辨识物体状态,由于人为设定逻辑无法穷举各类复杂情境,因而面临较大局限性、识别准确率较低;深度学习算法的出现,让计算机视觉识别逻辑由人为设定变为自学习状态,不再通过固定的公式或程序描述来做决定,而是根据大量实际行为数据来自我调整规则中的参数,进而做出准确的判断;根据ImageNet的比赛数据显示,深度学习的出现使得图像识别精准度从70%左右提升到95%以上。

计算机视觉核心技术涉及图像分类、对象检测、目标跟踪、语义分割和实例分割5个方面,开源环境的繁荣发展大幅度降低了计算机视觉技术的创新门槛。图像分类即根据被标记的图像信息预测新的图像测量结果,主要面临技术挑战包括视点变化、尺度变化、图像变形、照明条件、背景杂斑等。对象检测即利用图像处理与模式识别等理论方法,检测图像中存在的目标对象、确定其语义类别并标定位置。目标跟踪即在特定场景跟踪某一个或多个特定对象的过程,目前在无人驾驶领域应用较多。语义分割是计算机视觉的核心,将整个图像分成多个像素组并对其进行标记和分类。实例分割将不同类型的实例进行分类,如用不同颜色来标注多个同类物品。目前学术界、产业界已先后推出了许多用于深度学习模型训练的开源工具、框架及数据集,如Caffe、Theano、Torch、MXNet、TensorFlow、PaddlePaddle、 CNTK、 MNIST、 ImageNet、 Visual Genome等,在一定程度上降低了技术研发门槛,但企业在处理实际复杂业务时仍需要针对性能、显存支持、生态完善性、使用效率等调整框架以满足个性化需求;此外,对于前沿算法研发创新以及算法在不同环境的优化升级,不同厂商技术高低差异依然很大。

计算机视觉算法技术层壁垒高,硬件层资本密集、巨头众多,应用层市场较为分散,我国算法创新活跃、GPU芯片技术水平仍有待提升。算法技术层技术规模达到千亿量级,需要打通产业链上下游,技术壁垒相对较高,如谷歌Tensor Flow平台和Facebook Torch平台在全球拥有较大的影响力。硬件层主要由英特尔、英伟达、高通等国际巨头公司垄断,对资金投入要求较高。应用层涉及安防监控、自动驾驶、机器人等众多领域,IBM、特斯拉、谷歌、微软等分别在不同的细分领域占据领先优势,市场格局整体较为分散。我国拥有商汤科技、依图科技、旷视科技、云从科技等众多原创明星算法厂商,其算法模型已广泛应用于众多行业领域。以商汤科技为例,拥有1207层的超深度神经网络算法模型、6000块GPU集群计算卡、超过100亿的图像视频数据积累、覆盖18个不同行业领域;拥有以寒武纪为代表的GPU芯片厂商,其通用型AI芯片可运行几乎所有算法模型,并利用IP授权模式应用于华为麒麟智能机芯片、中科曙光服务器芯片等;此外,当前我国企业和政府公共应用数据集建设也在加速,数据规模快速扩张。但GPU技术及产业化能力相较英伟达仍存在较大差距,目前我国GPU市场仍主要被国际巨头英伟达所垄断,寒武纪作为初创公司其技术产品在应用领域和产业化规模方面暂时还无法与英伟达抗衡,未来技术产业突破仍面临较大挑战。

计算机视觉技术产业发展主要面临两方面挑战,一是技术融合创新、新型算法研发及成本的降低。从计算机视觉发展整体情况来看,围绕不同应用领域融合多种技术能力并达到很高的识别精度是业界需要突破的重点方向;此外,针对不同芯片与数据采集设备的视觉算法开发,以及研发周期的压缩与人工成本的降低也是厂商面临的重要挑战。二是国内产业链中上游的布局较少,存在受制于人的风险。目前,国内计算机视觉领域初创公司大多集中在中下游技术提供和场景应用层面,业务同质化竞争比较严重,掌握人工智能芯片技术、打通全产业链的企业相对较少。

3 计算机视觉技术产业发展趋势分析

前端智能化、前后端协同计算和软硬件一体化成为明显发展趋势。一是应用场景对实时响应的高要求推动前端计算处理能力大幅度提升,前置计算让前端设备成为数据采集和数据处理的合体,可有效提升处理速度并解决云端难以处理的问题,如智能化的安防摄像机通过集成人脸分析算法,在相机内部即可进行大量运算、实现独立的人脸识别能力,提升监控效率。

二是前端智能与后端智能协同可满足特定场景对隐私性、实时性的要求。后端服务器计算适用于需要大量存储计算资源、多维度数据关联分析的场景,前后端协同可在前端成像提供越来越多数据信息的背景下,对海量信息进行预处理,然后再将结构化的高质量数据结果传输至后端,减少或避免传输丢包、压缩信息丢失等问题,进而提升智能分析的准确性。

三是软硬件融合一体化方案是解决不同应用场景复杂问题的关键,能够在前端硬件设备上嵌入算法模型,可实现更快速、更高精度的数据处理,让用户更直接地应用视觉识别技术。如格灵深瞳的威目车辆特征识别系统通过软硬件一体的方式让用户直接应用车辆识别技术;地平线机器人、阅面科技则为智能家电、机器人等提供软硬一体化技术方案,实现低功耗、本地化的环境感知和人机交互。

数据和应用场景将成为企业布局的关键点,深度学习和卷积神经网络将推动计算机视觉持续优化升级。计算机视觉公司的核心竞争力是解决现实世界中存在的问题,真实应用场景的数据对算法模型训练十分重要,初创公司只有持续获取大量的数据资源,并与商业落地方向形成快速的数据循环,商业模式、数据模式才能形成协同效应,如谷歌依托搜索引擎积淀了海量的优质数据,支撑其成为世界上最先进的人工智能企业,并与Facebook等互联网巨头垄断计算机视觉行业发展。

卷积神经网络是深度学习中最重要的分支之一,广泛应用于检测、分割、物体识别等领域。深度学习和卷积神经网络给计算机视觉领域带来了革命性的突破,并逐步扩大计算机视觉在现实世界的应用范围。根据Tractica的预测,到2025年全球计算机视觉收入将达到262亿美元,视频监控、机器/车辆物体检测/识别/避让、医学图像分析、AR/VR、定位/制图、人类情感分析、脸部识别、广告插入图像和视频、房地产开发优化等成为最受欢迎的业务应用。

工业巨头、互联网巨头和创业公司成为计算机视觉的三大主导力量,北上广深将成为我国计算机视觉产业主要集聚地。工业巨头借助在细分领域的长期积累,通过并购或合作的方式开展全产业链布局,渠道能力、上下游议价能力、应用场景数据的获取能力相对较强,能够快速构建完备的生态圈,代表企业包括海康威视、浙江大华、海尔集团等。互联网巨头拥有最顶尖的技术团队和压倒性的数据优势,凭借技术优势引领未来,代表企业包括谷歌、Facebook、IBM、百度、阿里云等。创业公司依托高端人才团队和先进的算法技术抢占市场空间,但渠道能力、数据获取能力相对较弱,需要引入第三方合作伙伴共同制定行业解决方案,代表企业包括商汤、旷视、依图、云从等。

此外,计算机视觉是高度知识密集型产业,对人才、技术、产业、资本等环境要求相对较高,根据艾媒咨询发布数据,截至2017年年底,全国人工智能创业公司在北京、上海、深圳、广州的分别占比为42.9%、16.7%、15.5%和7.7%,合计达到82.8%。未来我国将形成以北京为绝对核心,上海、广州、深圳为重点中心的人工智能产业空间格局。

4 结束语

在人工智能发展浪潮下,我国计算机视觉产业呈现快速增长态势。考虑到我国在中上游领域核心技术对外依存度较高,未来应从3个方面着手提升产业发展水平。一是整合资源、联动发展、合作共赢,依托商汤、旷视、依图、云从、格灵深瞳等初创企业,以及腾讯、百度、阿里巴巴等大型互联网企业,着力构建计算机视觉产业协同创新体系,通过资源整合形成业务功能互补、联动发展、协同创新的的生态格局。二是加强技术研发,突破技术产业发展瓶颈,针对前端智能系统功耗、稳定性、存储空间、数据传输,后端GPU计算芯片技术差距等问题,支持我国计算机视觉方面的领军企业、创业团队与国内外高校、科研院所等加强合作,强化技术融合创新、新型算法研发、前端智能化、前后端协同计算和软硬件一体化发展能力,提升原创技术创新能力、突破前沿技术应用。三是支持挖掘未来场景应用,鼓励企业加大对数据和应用场景的布局开发,加快建设一批产业公共服务平台,组织实施一批产业化应用示范项目,推动拓展产品形态及应用服务。

猜你喜欢
计算机算法
抑制OFDM系统峰均比的DHT-SCF联合算法
计算机操作系统
基于Lévy飞行的一种改进鲸鱼算法
穿裙子的“计算机”
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
Travellng thg World Full—time for Rree
进位加法的两种算法
信息系统审计中计算机审计的应用
计算机网络安全