视频结构化从安防到金融

2019-10-12 01:57何遥

中国公共安全 2019年8期

□ 文 /本刊记者何遥

据统计，中国有1.76亿摄像头，预计未来三年会持续增加到3-4倍，每秒钟产生的数据量是66TB。这样大的数据量，传统的基于肉眼的安防监控已经越来越不能满足安防行业的需求。通过视频结构化技术，能够很大程度上提升数据处理效率和准确度。视频结构化，即视频数据的结构化处理，就是通过原始视频进行智能分析，提取出关键信息，并进行文本的语义描述。视频结构化真正实现起来很难，必须有AI技术的支持。

当视频结构化分析成为安防标配后，如何深入金融领域是当下值得关注的问题。

多家企业推出AI芯片

视频结构化的实现离不开智能芯片的支持。新一代的人工智能（AI）自2016年兴起，推动了AI芯片的大发展。2018年，智能芯片厂商如地平线、寒武纪、云天励飞、深鉴科技、比特大陆、触景无限等纷纷发布其新一代人工智能芯片或者是采用其自主研发芯片的人工智能产品。地平线在2018年安博会的第一天举行了边缘AI芯片2.0“赋能未来城市”开放生态发布会。地平线采用其基于自主研发的专用AI芯片和深度学习算法，实现边缘端AI的计算与推广。包括基于地平线旭日2.0架构的XForce边缘AI计算平台、内置地平线旭日1.0芯片的多款智能IPC产品，以及内置地平线旭日1.0芯片的多款人脸抓拍识别模组等在内的多款产品在安博会亮相展出。

从2018年安博会的情况看，视频结构化基本已成视频监控标配，区别只在于实现的实在是在边缘端还是云端。

云天励飞具有自主研发的ASIP神经网络处理器以及自有知识产权AI指令集，相比通用CPU、GPU，具有高性能、低功耗的优势，非常适合摄像头的AI升级，可以说是高性价比的AI赋能方案。2018安博会亮相的云天IFBOX人像识别边缘计算引擎是一款将采集、分析、识别融为一体的“三合一”小型智能分析应用服务器。IFBOX内含高性能视觉DSP，用于边缘计算的嵌入式AI引擎，无需AI摄像机。可与成像采集设备共同布点于前端，图像采集完成即可进行人脸采集与分析，使传统摄像头具备人脸抓拍比对功能。

寒武纪联合星宸半导体/SigmaStar(原MStar Smart Camera事业部）和的卢深视（国内三维视觉领域新锐公司）推出了集成寒武纪终端智能处理器IP产品的系统解决方案，以芯片+场景展示实际应用。深鉴科技已于去年安博会推出了人脸分析解决方案、视频结构化解决方案、笛卡尔架构高效语音识别引擎DDESE、基于FPGA的车载深度学习处理器平台DPhiAuto等多款产品，充分利用了其在智能芯片和深度学习算法领域的优势，打造出智能化系列产品。比特大陆也正式发布了终端人工智能芯片BM1880。同时发布的还有基于云端人工智能芯片BM1682 的算丰智能服务器SA3、嵌入式AI迷你机SE3、3D人脸识别智能终端以及基于BM1880的开发板、AI模块、算力棒等产品。

触景无限科技去年已正式启动触景“感知芯片”计划，发挥其在前端应用及芯片研发领域的优势，构建基于前端智能感知理念下的人工智能新生态。

目前，安防行业中基于深度学习的人工智能产品成为了未来技术发展和应用的主要方向，通过人工智能实现视觉识别包括：车辆分析、人员分析、行为分析和图像分析，产品形态分为前端智能和云端智能。前端产品主要是用于边缘节点计算的AI摄像机，在采集视频和图片的同时，依靠内置的算力芯片和智能算法，为云端的数据中心提供结构化的数据，可以减少云端分析处理的计算资源压力和网络带宽等系统成本。不管是前端智能还是云端智能，实现的前提都离不开智能芯片的支持。

视频结构化逐渐深入安防产品

传统的安防设备产生的是没有经过结构化的数据，现在主要是进行一些威慑、侦查取证的作用，如何利用这些数据来发现犯罪行为，然后进行一些分析？

以深瞐科技的视频结构化系统为例，它可以在视频里面提取出行人、车辆、非机动车，同时会分析出它非常详细的属性。

深晶科技的视频结构化系统分为四级，首先会从加油站、停车场、卡口、道路监控设备里面提取视频数据，然后对它进行一级结构化。

一级结构化主要是对行人、自行车、两轮摩托车、三轮摩托车、轿车、面包车、卡车、大型客车这8类目标的检测识别追踪：

每一个目标从进入视场到出视场，会对目标进行择优去重，获取一张最适合进行二级结构化的图片，去进行二级结构化。

针对车辆的二级结构化的示意图：

目前支持的车辆品牌型号，车头是5500多种，车尾是3500多种，已经基本上涵盖了目前中国路面上所有行驶的车辆。

同时，车牌识别可以支持全属性识别，还会识别驾驶员的违法行为，比如说未系安全带、开车打电话。还会识别车辆更特征化的属性，比如说年检标是怎么排列的，遮阳板有没有放下来，纸巾盒、天窗、备胎等等属性全部都要识别出来。

针对人，我们需要提取性别、年龄、发型和胡须、上衣颜色、裤子颜色、款式等等属性。

深瞐科技识别人和车的属性一共有40多种，现在这套系统的应用范围非常广。

深晶科技2018年在深圳交警的一个测试是进行大货车的检测以及大货车车牌识别，深圳交警关注的三项技术指标该公司全部获得了第一。从这个测试结果里面大概可以看到，车辆的检出率都在97%到99%。这个测试集一共是100万张图片。

深瞐与西安交警合作，协助他们实时识别出路面上5辆出租车用的是同一个牌照。

也针对驾驶员的违法驾驶行为进行预警和布控，比如说没有系安全带、开车打电话等等。同时在一些危化品车辆方面也可以进行布控和预警。

对车辆的犯罪里面还有一类是同行车辆的挖掘，比如说抢劫案件和同伙作案，它们都会涉及到车辆的同行，我们会通过车辆的轨迹重现以及同行车辆的挖掘来解决问题。

深瞐科技的视频结构化主要布置在安防行业的四大类产品中：结构化智能相机、嵌入式视频分析器、智能存储、集中式分析服务器。

云端到前端，深晶都有相应的解决方案。

在云端解决方案里，一张TeslaP4的卡，如果只是针对结构化的计算，我们可以对48路1080P视频进行结构化，如果考虑到1080P视频的解码，解码也非常消耗计算量。

如果把解码和结构化全部考虑进去，现在一张P4的卡只支持24路1080P 30帧解码，加上24路的视频结构化运算。这样可以发现，我们公司目前在视频结构化方面，系统性能并不是受限于视频结构化算法的效率，而是视频解码的效率。

寻找解码和计算能力上的匹配，后来深晶采用了英伟达的TX2。

TX2具有8路1080P硬解的能力，计算能力满足进行8路视频结构化的运算，而且TX2有一个优点是我们原来在GPU上的算法可以非常方便的移植到TX2这个平台上。

另外，深瞐团队还做了一个嵌入式的盒子。这个采用了海思Hi3559A解决方案的盒子可以接到安防摄像头的后面，能够满足8路视频编解码的能力，同时它的NNIE也能满足8路视频结构化的运算能力。

深晶也做了一些智能前端的解决方案，这套方案基于海思3516和赛灵思7020 FPGA芯片。在Zynq上搭建了一个神经网络加速器，可以满足1080P 30帧每秒一级结构化的运算，检出率在95%以上，功耗仅5瓦。

深晶科技CTO王晶认为，目前在云端视频结构化里，解码的性能会越来越多地成为性能瓶颈，之前大家都觉得深度学习是瓶颈，实际上经过优化之后，它的计算会非常快。另外，边缘计算已经能满足视频结构化计算所需要的能力，所以我们觉得将来视频结构化运算会慢慢地由云端向前端去转化。

视频结构化怎样扎根金融？

业界普遍认为，金融是继安防行业之后，AI落地的又一庞大市场。但具体这个市场在哪？怎么做？

在视频AI公司的视野里，金融是一个客单价小、流程繁琐、教育客户成本高、监管细节多的领域，因此大多呈半放弃半观望的态度，很少有人愿意下手做。

安防行业已经完全打开，而且是一个万亿级的市场，从商业化的角度来说，客单价也非常高，而且已经能够很好的落地。与之相比，金融场景非常复杂，普通银行有几十个部门，需要深扎到场景里面去。AI在其中只是一个启动因素，只占10%-20%的比例。对于图像AI公司来说，自然要抓大放小，选择做宽而不是做深。

金融监管驱动新市场

2017年8月，银监会发布关于银行实行“双录”的规定，要求银行业金融机构在营业场所销售理财产品或金融产品时，实施专区“双录”，即录音录像。同年，证监会和保监会（原）还分别发布了《证券期货投资者适当性管理办法》、《保险销售行为可回溯管理暂行办法》。2019年5月，苏州银保监分局最新出台了《深化保险销售过程现场同步录音录像工作试行办法》。这样做一方面能够对金融产品的销售环节进行有效的行为监管，保护消费者权益；另一方面也能有效抑制金融机构各类欺诈行为的发生。

例如，2017年北银消费金融的著名骗贷案例。为了迅速扩张业绩，北银与中介公司合作扩展业务。合作中介违规操作，购买200多张虚假身份，骗贷4000余万元，事发后北银被处以900万元罚款。除了消费金融，汽车金融领域也是骗贷的重灾区。被骗贷后，被盗用身份者发现问题上告法庭，法庭却很难取证。因为原告对当时贷款的情景并不知情，银行出庭的法律保全部对业务也并不清楚。金融机构无法真实还原业务全过程，很难找到真正的罪魁祸首。

又如，金融机构向客户推销理财产品，存在一些过度宣传、不揭示风险、飞单等违规操作。有的营销人员告诉客户产品可以保本，但事实并非如此，给客户带来损失。金融机构有风险揭示的责任，但有时候金融机构自身的管理者也很难察觉。不论是基层员工还是渠道商都背负着KPI，可能会为了完成任务采取一些非常手段。

在此背景下，音视频双录的重要性不言而喻。然而视频录下来，存在服务器里，该揭示的风险仍然没有揭示，需要大量的人工审核，这给金融机构带来了大量人力和时间成本。通常情况下一单金融业务的双录视频在2-50分钟不等，审核人员需要一秒不落地完整看完录像，效率极低。

一些新兴的AI公司敏感地看到了其中的市场机会。使用AI技术对视频中的关键要素进行结构化处理，不仅可以降低成本，还方便随时调取，进行数据分析。有的企业经过技术研发，已经将视频结构化技术打造成相对标准化的产品，方便机构客户调用，具备服务行业的能力。聚焦金融领域的图像技术，对银行双录视频的结构化处理。

在当前，为金融行业得供视频技术的大多是从事双录的通信类公司或传统银行信息化系统集成商，鲜见AI公司的身影。通信公司没有视频结构化能力，系统集成商需要对外采购模块进行组装。

有能力的AI公司可以将这些系统集成商变成渠道合作伙伴。他们的系统整合能力比较强，同时能够帮AI公司减轻对接银行的工作量，让AI公司更专注在技术的研发上。

双录视频结构化这一市场非常大，单凭一家公司不足以吞下。相较于系统集成商，具有算法成本优势的企业具备了降维打击的能力。

同时，由于金融业务中很多坑是没有办法绕过的，首先进入金融业的视频技术提供商将具有先发优势及时间壁垒。

模型重构

人脸识别在金融行业已经被广泛的运用起来了，但这并不是算法与金融行业的深度融合，只是一个适用于各行各业的比较基础的算法应用在金融业而已。

通用技术例如姿态识别、面部识别等，各大AI独角兽都是具备的。但真正在金融行业深度应用，目前看来还很少。

在视频结构化的过程中，监管机构及金融机构对视频是有明确定义的。比如视频中必须有签署文件、展示文件的行为，有阅读并进行风险确认的行为。这些行为在当下的通用模型精度下是不足以被辨认的。一个人到底是单纯在拿着笔还是在签字，对于人类而言很好辨别，但对于现有的AI模型而言就非常困难。

现有的模型都不能做到，需要重新构建。另外，视频结构化分析提供商也需要深入到金融场景下，去拿到足够多的视频双录数据。

在双录视频中，人的行为是相对较为标准的，更难解决的是每个金融机构的业务流程及文件格式不同。为此，团队使用迁移学习方法，让系统能够快速适应不同客户的需求。

而且，对于金融机构来说，一个系统即便达到了95%的准确率，往往也因不能确定剩下的5%是哪些被测对象而依然需要人力检查100%的业务。通过计算资源分离可以解决视频运算成本较高的问题，通过边缘计算让前端处理一部分运算，可以取得更快的速度及更高的能效比。

通过这类底层模型重构，视频结构化分析有望真正扎入金融应用。