□ 文/郑 韬
深度学习加速推进智慧城市建设
□ 文/郑 韬
从技术角度来说,智慧城市就是感知、分析和提取城市系统的各种信息并做出相对应反馈的一整套城市管理系统,其中,原始的视频数据是城市系统信息的重要组成部分。现如今,海量视频数据已成必然,需要一套可以自动从视频中提取结构化信息的方案,把视频、图像“翻译”成机器可以理解的语言,并进行保存,确保后续提供给上层应用平台调用和处理的素材。
视频或者图像数据,从前端传感器直接获得,从技术上来说,是一种非结构化信息。只有在实现结构化处理之后,才能将其中有价值的数据直观、高效的保存、处理和应用。
在智慧城市建设中,有成千上万路监控摄像头或者传感器,昼夜不停地监视或采集其他原始数据。其中,会产生海量的音视频数据,需要监控管理平台处理。即便人力充沛的情况下,面对庞大的视频数据,要求快速、准确地从海量数据中找到有效的信息,几乎是不可能的。受制于肉眼识别劳动强度的极限,在发生紧急事件时,人力调配和视频资源往往存在矛盾,不依靠计算机自动进行筛选,必然造成贻误战机。
视频结构化就是实现将海量视频中的人、车目标进行提取并识别的过程。一旦有重要事件发生,系统就可在数据库中快速查找到关键的“人”、“车”、“物”等相关音视频线索。针对海量监控视频录像的事后分析,传统以人海战术为主的视频线索查找,显然不能满足高效查找,正面临巨大挑战,急需一种更为高效的、自动的、智能的系统实现上述需求。
过去几年中,得益于高速的计算芯片(GPU)及大量的标注数据,作为当下最流行的机器学习方法,深度学习在各个应用领域中都取得了突破性的成绩,未来人们会拥有大量的AI,各种为私人定制的AI,包括医疗领域,制造业领域,在商业方面也会有各式各样的AI应用产生,包括:营销,供应链,预测及人力资源等,AI会以各种不同的方式出现在我们身边,例如:机器人,无人机和一些小型机器,AI将使机器更具智能化,使其变得更加安全易用。未来的AI发展速度将超越摩尔定律。由于几乎所有的人工智能领域的问题都可以转化为分类问题,因此机器学习的基本步骤可分为如下形式:
如上图所示机器学习是一个级联串行结构,因此每一环节的处理结果都会影响到最后的分类效果,在传统的机器学习中针对其中的各个环节都有其各自独立的算法。由于上述方法具有各自独立性,因此传统机器学习算法在处理问题时需要对各个环节进行优化,并通过组合优化方法在各个模块中选取最优的组合方式。
与传统机器学习相比深度学习可以把机器学习中的各个部分合成一个整体结构,通过统一的训练方法(Backpropagation)对其中所有的参数进行调节。当前人们所指的深度学习主要是以CNN(卷积网络)为核心的一系列应用算法,其算法结构如下图所示:
上图中的每一层都是采用卷积方式与某一卷积核进行卷积所得到的结果,每一结果代表了从原始图像所提取的特征,通过级联方式对图像或信号进行特征提取,最后得到人们想要的分类结果。
在安防行业中,通过深度学习对视频进行结构化信息提取,完成了传统算法无法完成的功能,算法效果也得到大幅度提高。
在安防大数据背景下,大华推出“DeepSense睿智”系列的视频结构化服务器,可搭载8块Tesla-P4卡(176TOPS),2颗E5系列CPU,128G内存,4个千兆网口,功耗在1600W左右,支持2+2冗余电源。其最大可支持192路1080P高清实时视频分析,完成结构化信息提取。
“DeepSense睿智”系列的视频结构化服务器主要功能是把实时视频进行结构化分析。将复杂场景中的人、机动车、非机动车分离(共可区分轿车、面包车、公交车、卡车、货车,2轮非机动车、3轮非机动车、行人等类型),全方位提取车辆特征,如车型、车系、车身颜色、车牌颜色、车牌号码识别、主副驾驶是否系安全带、是否打电话、有无遮阳板、有无年检标、有无挂坠、有无纸巾盒;针对行人,“DeepSense睿智”服务器可以多方面分析其相关特征,包括性别、表情、年龄段、服饰特征(上下衣着颜色、眼镜)、携带物特征(背包、打伞)、运动特征等。同时,也可以针对符合像素要求的人脸、车辆号牌,进行识别。
传统的CV算法在处理视频算法时,往往先用检测或者比较简单的识别算法,将目标从背景中提取出来。然后,通过识别算法分辨是否是正常目标,最后判断目标类型。
而利用深度学习技术,可直接通过分类器,将目标从背景中识别出来再进行跟踪,同时可以直接得到目标类别。这种模式下,目标检测的准确率和跟踪的稳定性都能够大幅度提高。
同时,算法不需要根据不同目标类型调用不同模块进行目标分割或者特征提取,可直接利用目标识别结果,进行特征识别,直接获得相应的目标属性。
深度学习技术颠覆传统算法,轻松完成视频结构化信息提取。除此之外,结合深度学习本身的技术特色,还对车辆信息提取、人脸识别等已有功能进行改善,效果尤为明显。
在这之前,人脸识别在传统算法中,有非常好的效果。在预处理之后,通过提取特定的特征并对特征值进行训练,最后得到分类器,进行识别。深度学习优化了人脸识别的方案,将比较依靠专家选择的特征提取模块简化,通过输入样本即可直接训练得到分类器。
智能交通卡口或者电警摄像头智能抓拍车辆图片,并识别车辆号牌字符、车辆颜色、车辆类型等数据。引入深度学习技术之后,车辆的车系信息、年款等信息也被开发出来,更多的车辆信息被挖掘,为后续平台应用提供的更多的数据支撑。
“DeepSense睿智”系列视频结构化服务器,应用深度学习算法,支持192路实时全高清视频处理,同时搭载英伟达最新Tesla®P4GPUs,极大的提高了安防行业的算法应用和硬件配置,夯实了智慧城市和城市数据大脑等建设提供智能化服务的基础。同时,服务器集群设计,充分考虑到可扩展性和云架构的兼容性,并发计算能力和服务器台数成正比例增加。另外,服务器集成度高,相对每路视频分析的功耗非常低。以上这些完全符合大数据计算的高要求。
另外,算法训练和应用都在英伟达统一平台进行搭建,节约研发开发成本,统一智能化效果,为行业提供了一套应用深度学习技术、快速研发产品的新方案,为使用GPU方案进行深度学习研发的公司树立了榜样。
作者单位:浙江大华技术股份有限公司