人脸识别专利技术综述

2019-07-15 05:28李根
发明与创新·职业教育 2019年3期
关键词:技术路线人脸识别深度学习

李根

摘 要:人脸识别技术由于其具备的快速准确识别目标身份的特点,成为目前国内外相关企业和高校的研究热点,专利申请量逐年递增。本文对计算机人脸识别技术的专利申请趋势、区域分布、主要申请人以及核心技术路线进行了分析和梳理,能够帮助相关技术人员了解现有技术并研判未来发展趋势。

关键词:人脸识别;人工智能;深度学习;申请态势;技术路线

一、引言

人脸识别不需要被监控对象的主动配合,并且可以实现远距离识别,在安防影像分析、泛金融身份认证等领域得到了广泛的应用,国内外安防厂商、计算机视觉及人工智能相关企业均将其作为主要研发对象[1]。

人脸识别算法经历了早期算法,人工特征+分类器,深度学习三个阶段。早期的算法有基于几何特征的算法,基于模板匹配的算法,子空间算法等多种类型,这些算法严重依赖训练集和测试集场景,且对光照、人脸的表情、姿态敏感,泛化能力不足,不具有太多的实用价值;第二阶段的人脸识别算法普遍采用了人工特征+分类器的思路,部分解决了光照敏感问题,但还是存在姿态和表情的问题;直到2006年深度学习算法的引入,人脸识别算法进入了新纪元,准确率和鲁棒性都得到了大幅提升,甚至超过了人眼的识别水平,突破了工业化红线,得以运用到各种生活场景中,基于深度学习算法的人脸识别技术成为目前的主流[2]。因此本文针对2006年以后的计算机视觉相关的专利进行分析研究,拟对该领域的专利申请趋势、核心技术路线进行分析和梳理。

二、专利申请态势

通过前期调研、技术研究和专利数据检索等多方面的反复论证与修改,最终依据人脸识别技术的实现流程,将其分解为采集预处理、特征提取、特征比对和多手段融合四个技术分支,并据此进行专利检索与分析。

在中国专利摘要数据库(CNABS)、德温特世界专利数据库(DWPI)中进行检索,检索文献涵盖了公开日或公告日在2017年12月31日之前的全球发明专利申请,在检索过程中采用分类号与关键词结合的方式进行。

(一)申请趋势

图1为人脸识别技术全球专利申请趋势,结合图1分析可知,从2006年深度学习提出以来,人脸识别技术的发展经历了三个阶段:

1.技术萌芽期(2006—2011年)。2006年Hinton在Science期刊上发表了关于深度神经网络论文(Reducing the Dimensionality of Data with Neural Networks),指出多隐层神经网络具有更为优异的特征学习能力,并且其在训练上的复杂度可以通过逐层初始化来有效缓解,从而提出了深度学习概念。但该论文并未引起产业界的足够重视,同时受限于当时计算机硬件性能,基于深度学习的人脸识别技术并未成为主流研究方向,2006—2011年期间,全球的计算机视觉全球专利申请量不足30项/年,国内专利申请了不足5项/年。

2.技术发展期(2012—2015)。2012年,Hinton课题组为了证明深度学习的潜力,参加ImageNet图像识别比赛,其通过构建的深度学习网络AlexNet将图像识别错误率降低了10%,成为影响人工智能进程的里程碑事件。识别准确率的大幅提升标志着人脸识别技术能够被运用到日常生活中。此后,媒体大量宣传报道人工智能,学术界和产业界也纷纷探索将深度学习融入到人脸识别技术中,人脸识别技术在安防、金融等领域开始探索商业化,全球及国内专利申请量开始呈指数增长。

3.技术应用期(2016—至今)。随着新的深度学习算法不断改进,人工智能成为引领未来的战略性技术,世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,加紧出台规划和政策,人脸识别技术也随之获得空前的发展,全球专利年申请量突破了350项。随着各国的政策激励,计算机视觉技术在未来几年将会保持持续地快速增长趋势。

(二)申请区域分布

图2为人脸识别技术全球专利申请来源国家和地区分布,由图3可知,68%的专利申请来自中国,这一数量是第二位美国的4倍,是第三位韩国的6倍,得益于中国对人工智能的高度重视以及相关政策的激励,国内涌现了一批计算机视觉创业企业,引领了人脸识别技术的发展,使得中国成为人脸识别技术的主要技术来源国。

图3为人脸识别技术全球专利申请目标国家和地区分布。中国是人脸识别技术的最大专利申请目标国,专利申请量占申请总量的72%,美国、韩国和日本的专利申请量占比分别是12%、9%和5%,中国较为开放的市场环境、巨大的市场需求和海量的数据资源吸引了各国相关创新主体,纷纷在中国进行专利布局。

(三)主要申请人分布

图4示出了人脸识别技术全球排名前十的申请人。前十申请人中,有六席来自中国,美国和韩国各自占据两席,表明中国已经培育出了一批人脸识别技术领域的小巨头企业。来自中国的商汤科技和旷视科技分别位列第一和第二,二者均为技术驱动型企业,人才储备雄厚,研发实力强劲,拥有大量人脸识别核心技术,并且重视专利布局;来自韩国的三星和LG分列第三和第五位,一直持续研发和改进人脸识别技术,以谋求进军安防、金融、手机互娱等领域;来自美国的谷歌和脸谱是人工智能领域的佼佼者,吸纳了多位深度学习领域的顶尖学者及团队,掌握多项人脸识别核心专利与技术;除此之外,大华技术、中国科学院、百度和海康威视分别位列第六至第十,作为安防领域的两大巨头,大华技术和海康威视均组建了自己的研发团队,自主研发人脸识别技术并嵌入至自家的安防产品中,以占领更大智能安防市场氛围,中科院以及百度也成立了各自的人工智能实验室,将基于深度学习的人脸识别技术作为主要研发方向之一。

(四)技术主题分布

图5为人脸识别技术各分支專利申请占比图。特征提取技术专利申请量占比最高,为42%,作为人脸识别技术环节中的核心,特征提取算法和模型的好坏决定了特征提取的质量,对于人脸识别的准确率的影响程度较高,同时也是人脸识别四个技术环节中运用到深度学习算法最多的步骤;特征比对技术专利申请量占比次高,为36%,特征比对的结果直接决定了人脸识别的结果;采集预处理和多手段融合技术分别占比19%和3%。

三、核心技术路线梳理

基于前面的分析,通过对于人脸识别核心专利的深入阅读分析,对人脸识别的核心技术环节特征提取的技术发展脉络进行了梳理。

2006年,机器学习大师、多伦多大学教授Geoffrey Hinton及其学生Ruslan发表在世界顶级学术期刊《科学》上的一篇论文引发了深度学习在研究领域和应用领域的发展热潮。这篇文献提出了两个主要观点:一是多层人工神经网络模型有很强的特征学习能力,深度学习模型学习得到的特征数据对原数据有更本质的代表性,这将大大便于分类和可视化问题;二是对于深度神经网络很难训练达到最优的问题,可以采用逐层训练方法解决,将上层训练好的结果作为下层训练过程中的初始化参数。在这一文献中深度模型的训练过程中逐层初始化采用无监督学习方式。

随后深度学习开始得到业界的关注,2012年由Hinton和他的学生Alexander Krizhevsky设计的AlexNet,获得了ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛分类项目的冠军,准确率达到57.1%,top 1-5 达到80.2%,这相对于传统的机器学习分类算法而言,已经相当的出色。凭借优异的表现,Hinton和Alexander加入了Google并以此申请了专利US14/030,938。AlexNet采用深度卷积神经网络,共有8层结构,前5层为卷积层,后3层为全连接层。AlexNet卷积神经网络在图像分类中显示出了巨大的威力,通过学习得到的卷积核明显优于人工设计的特征+分类器的方案,很多研究者都在尝试将其应用在自己的方向,这极大的推动了深度学习的发展,使用深度学习实现人脸识别开始成为主流。

2013年,Facebook的Yaniv Taigman等人提出了DeepFace算法,以此申请了专利US14/530,585。DeepFace采用了基于检测点的人脸检测方法,对检测后的图片进行二维裁剪,将人脸部分裁剪出来,然后转换为放正的3D模型,随后输入CNN提取特征;CNN共8层,包括5个卷积层,1个池化层,2个全连接,最后对输出的特征向量进行归一化和分类,从而完成识别。其早于DeepID和FaceNet,但其所使用的方法在后面模型中都有体现,可谓是早期的奠基之作。

同在2013年,香港中文大学的汤晓鸥教授及其团队提出了DeepID算法,以此申请专利CN201380081288.3。2014年凭借该算法首次参加ImageNet大规模物体检测任务比赛便以40.7%的优异战绩位居第二名;几个月后,DeepID-Net团队将此成绩大幅提高至50.3%,达到了全球最高的检测率。2014年汤晓鸥创立了商汤科技,并对DeepID算法进行改进提出DeepID2算法,以此申请专利CN201480079316.2。DeepID采用深度学习的方法来提取人脸高级特征(high-level features),这种特征被称为DeepID,DeepID特征是通过人脸分类任务学习得到的,这样的特征可以使用在人脸验证中,最终在LFW数据集上取得了准确率97.45%的结果;其采用的CNN网络结构共为10层,包括输入层、4个卷积层、3个池化层、1个DeepID层和1个Softmax层;在提取特征后,使用了Joint Bayesian和Neural Network两种方法进行区人脸比对,最终得出识别结果。

同在2014年,Google的Christian Szegedy等人提出了提出了Inception网络结构,就是构造一种“基础神经元”结构,来搭建一个稀疏性、高计算性能的网络结构;该结构将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加);一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性,基于Inception搭建了GoogLeNet,共22层结构,以此申请了专利US14/839,452。GoogLeNet凭借其优秀的表现,得到了很多研究人员的学习和使用。

2014年至2016年期间,GoogLeNet团队对GoogLeNet进行了进一步地发掘改进,研发出了Inception v2,Inception v3和Inception v4,最终基于Inception v4提出了inception-resnet-v2,据此于2016年申请了专利US15/395,530。其中将nxn的卷积通过1xn卷积后接nx1卷积来替代,这样既可以加速计算,又可以将1个卷积拆成2个卷积,使得网络深度进一步增加,增加了网络的非线性;使用了两个并行化的模块(卷积、池化并行执行,再进行合并)来降低计算量;将ResNet与Inception 结合。这些改进大幅提升了其性能。

2016年,Google的Barret ZOPH等提出了NasNet,并以此申请了专利US62/414,300。这个模型并非是人为设计出来的,而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”,即训练机器学习的软件来打造机器学习的软件,自行开发新系统的代码层。它也是一种神经架构搜索技术(Neural Architecture Search technology),其模型就是基于AutoML,首先在CIFAR-10这种数据集上进行神经网络架构搜索,以便 AutoML 找到最佳层并灵活进行多次堆叠来创建最终网络,并将学到的最好架构转移到 ImageNet 图像分类和 COCO 对象检测中,也就得到了NasNet,其在图像分类任务中表现极为优秀。

2017年,Google的Howard Andrew Gerald等推出了MobileNet,以此申请了专利US15/707,064。其使用了一种称之为deep-wise的卷积方式来替代原有的传统3D卷积,减少了卷积核的冗余表达,在计算量和参数数量明显下降之后,卷积网络可以应用在更多的移动端平台。同年,商汤科技也针对移动端应用,分别申请了专利CN201710671900.2和CN201711214145.1,前者注重于神经网络模型的压缩,后者通过大型神经网络对小型神经网络进行训练,将大型网络的特性迁移至小型网络中。

谷歌、商汤科技和旷视科技都是人脸识别技术的引领者,拥有多项核心技术和专利,其中谷歌在深度学习网络模型方面持续进行研发和改进,技术和专利储备雄厚,商汤科技和旷视科技作为后起之秀也自主研发了多项深度学习网络模型。2017年之后,这三家公司均开始研发小型神经网络模型,意图布局移动端。

四、结语

作为人工智能技术的关键技术之一,近二十年来,人脸识别技术的专利申请量呈现迅速增长的趋势,随着各国的政策激励以及应用场景的丰富,人脸识别技术在未来几年将会保持持续地快速增长趋势。在各项政策激励、人才储备以及应用市场多方因素的作用下,中国培育出了一批人脸识别技术领域的小巨头企业,掌握了多项核心专利和技术,引领了人脸识别技术的不断发展。深度学习的出现使得人脸识别的效率和准确率均超过了人眼,得以运用到安防、金融等各個领域中,基于深度学习的人脸识别技术成为目前的主流研发方向。随着人工智能专用芯片的出现和移动终端性能的提升,适用于移动端的人脸识别技术的研究与开发将成为未来的研究热点之一。

参考文献

[1] 廖育梅.人工智能控制理论现状分析与发展探讨[J].才智,2013(8):270.

[2] 李兵兵,伍维根,谢永春.智能控制理论在电力电子中的应用[J].科技创新与应用,2018(35):170-172.

猜你喜欢
技术路线人脸识别深度学习
人脸识别的“国标”来了
中科视拓开放商业版本人脸识别算法
荣耀畅玩7C:人脸识别
大功率GaN基HEMT技术发展路线和主要申请人专利技术分析综述
房地产估价路线设计
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
“人脸识别”人工智能测谎仪研发成功