郑 凯
(青海警官职业学院,青海 西宁 810000)
自2000年公安部提出建设“平安城市”“3111工程”到如今的“雪亮工程”“智慧城市”,遍及城市的视频监控系统网络,构成了维护社会安全、打击和预防犯罪的“天眼”。城市中数以万计的监控探头每一分钟、每一秒钟都记录着大量有价值的图像信息,每天数以亿万计的视频数据呈爆发式增长。这仅仅是公安部分业务口自建的监控系统网络采集的数据,社会资源和移动互联网获取的视频数据,还没有充分利用起来。如此星河级别的视频数据,迫切地需要最先进的大数据云计算处理技术,实现对其进行融合共享,快速挖掘有效关键信息,进行智能运算分析,并且与公安各业务深度融合,协调各警种间合成作战应用,实现数据警务、智慧公安,使社会治安防控迈向更高水平的信息化、智能化和现代化发展道路。
从公共安全和社会治安防控体系建设目标出发,各地视频监控系统网络工程建设如火如荼,面对这一数据“富矿”,公安打击和预防犯罪的实战需求是非常迫切的,然而视频流需要的大存储空间、高带宽给储存和传输以及后期的共享应用带来了意想不到的难度。尤为致命的是无法实现大规模运算分析,为公安情报研判、舆情监控等实战业务带来了困难,成为公安大数据智能应用的“软肋”“堵点”。大数据云计算平台处理的数据是结构化数据,而频监控数据是非结构化的,视频无法快速检索、识别比对、提取关键信息,只能人工查看,严重影响了机器大规模计算分析研判,甚至是智能预测预防,大大制约了构建公安信息化工作数字化、可视化向立体化、智能化快速发展的步伐。数据日益成为重要的基础性战略资源,视频监控网络系统作为公安科技信息部门获取数据的重要阵地,其获取的数据在公安大数据中占有举足轻重的分量,发挥着不可替代的作用。当前大力推进实施公安大数据发展战略,要想使视频大数据发挥作用,把智慧公安的“大脑”用好,把视频监控数据治理好,其前提是非结构化的视频数据转换为结构化、标准化数据,最终实现公安大数据云计算、智能分析。
数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。没有任何单独的警种和部门有能力兼顾所有警种业务需求而制定完善的数据标准。要全面实施大数据战略,努力实现公安大数据的价值,全面提升公安机关核心战斗力,就必须明确和加快数据标准体系建设,实行数据全流程标准化管理,不断完善信息化标准管理机制。
公安信息化基础数据标准是针对公安各项业务在信息化过程中涉及的数据,采取统一制定、统一管理的办法,从而使得公安部门对公安业务中的基本数据达成一致理解。业务应用标准是公安各类应用系统所涵盖的业务功能模块在实现过程中直接遵循或使用的标准与规范的集合。应用支撑标准包括公安各类应用提供支撑技术(如基础服务、互联操作机制、软构件、消息传输服务)的技术标准和规范,其作用是保障应用系统功能完善、性能优良、技术先进、架构开放,可维护性和可扩展性强,可以有效降低对特定开发商的依赖。
视频编码已经有了标准规范,在公安信息化建设规划和视频专网建设的时候,就要严格依标、依规,把好企业产品设备技术参数和资质要求的关,按照公安部《关于大力推进基础信息化建设的意见》[1]要求,加强数据标准化体系建设,推动公安数据资源联通共享。依照公安视频图像信息应用系统通用技术要求、数据库技术要求、视频图像文字标注规范,设备与用户统一标识编码规则,符合视频图像信息对象统一标识编码规则[2]。视频的案事件对象、视频图像信息基本对象、视频图像信息语义属性对象、布控与订阅都制定有统一标识编码规则[3]。目前视频图像压缩编码格式主流采用H.264/H.265,数据本身只能看,不能检索。后台针对城市级视频结构化处理的数据量是个天文数字,视频数据和业务数据脱节无法关联检索。主流采用的H.264/H.265编码本身不具备安全性,需要对码流加密才能保证安全性。因此视频图像资源必须按照数据元管理规则来规范视频信息名称,以及按照代码描述格式和行业标准分类对视频数据进行标准编码,解决信息不一致和信息冲突的问题。
视频非结构化数据难以用二维数据元素界定分类,给非结构化数据运算分析处理带来了难以逾越的鸿沟。视频经结构化后,如果要查找嫌疑人影像,只需输入关键字,就可以在案发区域周边和案发时间段的视频大数据中快速检索出所有符合条件的嫌疑人,从而缩小排查范围。其实视频结构化是一种视频内容信息识别提取的技术,它的技术实现方法是对视频内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息。
从数据处理的流程看,视频结构化描述技术能够将监控视频转化为人和机器可理解的信息,并进一步转化为公安实战所用的情报信息,从而实现视频数据向情报信息的转化。
视频结构化描述的内容方面,公共安全关注的视频信息主要是:人员、车辆、行为等。在视频中把人的体貌特征及其他身份信息用可描述的语义展现出来,其中包括:人员的面部精确定位、面部特征提取、面部特征比对,人员的性别、年龄范围、大致身高、发饰、衣着、物品携带、步履形态等多种可结构化描述信息;对于车辆特征描述信息包括:车牌、车颜色、车型、品牌、子品牌、车贴、车饰物信息等多种车辆描述信息;对于行为的描述信息包括:越界、区域、徘徊、遗留、聚集等多种行为描述信息。总之,按一定规则从视频图像信息中明确人、车、物等基本对象种类、数量、行为及其相关的时空信息等。视频结构化之后,从百万级的目标库(对应数百到一千小时的高清视频)中查找某张截图上的行人嫌疑目标数秒即可完成,从千万级的目标库中查找几分钟即可完成(如果实现云计算,速度会更快)。在视频数据结构化基础上,将人脸信息、嫌疑人影像资料、体貌特征以标准化数据元录入警务云库,与其他人、事、案的文本信息迅速对接检索碰撞串联,可以解决海量信息高速检索目标问题。
目前,随着物联网感知技术的发展,视频采集前端设备在采集视频流,同时物联网传感器也在感知信息,然后分别发给后台边缘域进行进一步处理,最终在云中心汇聚大量数据进行大数据应用。身份感知类设备有接触式的,如人证合一、门禁卡、银行卡等;有非接触式的,如人脸识别、RFID卡、WIFI嗅探等。这些感知设备获取的信息,极大地丰富了视频信息检索的条件。这些半结构化数据的融入,加快了视频数据的处理速度,可以说为视频结构化提供了初步的解决途径。
前端采集数据种类和数据量的增加,也带来了新的问题,比如压缩编码芯片的运算速度、编解码的技术标准和设备成本问题,给网络传输、通信接口带来了麻烦,信息也难以形成用于大数据运算的标准数据元,为后期数据库的信息分类储存和运算速度、分析没有带来实质性的改进方案。所以说视频并没有完全语义化,尚未形成真正意义上的结构化数据。
近几年随着技术的快速发展,前端摄像机人工智能模块可对视频进行智能图像分析,并将分析结果和视频流分别传送到服务器,但两者之间无法实现融合关联。
如果前端人工智能分析结果和图像信息插入到视频中共同编码,无需单独传输,则前端即可支持近百种智能分析,实现对视频的结构化描述。即如果以数据包方式在视频流中插入各类信息、数据,并与视频数据建立关联,在后台就无需对视频进行解码,可采用直接提取的方式,这就为信息提取、传输、存储和解码以及视频应用提供了极大的便捷。
采用此方案,下级视频监控平台也可以将上述包含智能分析结果的视频流发送给上级平台(例如省级监控平台),由上级平台提取信息并进行处理。在该过程中,上下级平台间只需要通过GB/T28181接口协议标准进行互联[4],不需要额外的智能分析信息传递接口和协议就可以解决“平安城市”“雪亮工程”等多层次、大规模复杂互联架构下智能分析应用联网问题。而且,智能分析结果内置在视频流中,即使跨平台应用,同一段录像的分析结果也不会丢失,可以被反复使用,这就大大减少了重复分析的计算资源浪费,实现了视频数据的有效利用。
随着方法思路创新,技术也将不断改进。视频图像解析系统应遵循公安视频图像分析系统和应用系统等建设标准,依托于物联网多维感知采集技术、视图智能结构化解析技术、混合云计算技术、视图大数据聚类挖掘技术等,对原始视频图像信息进行内容解析,面向公共安全领域,提供一体化的视图信息综合服务与实战应用平台。
人类利用计算机主要是来解决问题的,用数据来引导思维、用数据来解决问题的关键是通过程序来实现的。求解问题需要科学的算法,因此算法是程序的核心和灵魂。机器深度学习并建立适合业务需求的算法模型,来提取关键信息并把它压缩编码为可供大数据运算分析的结构化数据,后期又可继续与各种业务深度融合应用。
一方面,前端智能识别模型算法不同。数据结果类型和结构的不一致难以兼容分析处理。各厂商算法不一致导致结构化数据不同,结构化后的数据无法通用,解决思路可以是各技术研发企业、行业联盟协会共同组建共享模型算法仓。减少研发的重复浪费,有利于技术迅速更新换代和标准化管理。
另一方面,后台分析应用模型利用率不高。目前公安大数据云聚集了大量数据,怎样深度应用是个问题。只是被动式的事后检索、分析研判,难以满足数字警务、智慧警务的发展需求。平台深度应用模型的不断开发,类属过细、过于庞杂,创造出的算法模型难免会出现先入为主、利用率不高的问题。
以数据为主导、应用为主线。识别模型与应用模型是相辅相成的。识别模型在处理非结构化数据时,可以产生不同的算法思路。应用模型又取决于数据结构,针对结构化数据应建立不同的分析模型。唯有对源头视频流进行快速高效的结构化、标准化、智能化处理,按照元数据理论,标准化组织基础数据,才可能按照实际业务需求灵活组建应用模型。
因此,人工智能计算机视觉技术的发展,神经网络、机器学习模型算法的不断优化,解决方法思路的不断创新,必将促进技术改进和突破。这样又可应对不断变化的犯罪和社会治安管控趋势,帮助我们实时决策分析,甚至可以实现提前识别、归纳趋势,洞察、预测并做出响应和预防。
为了解决数据质量问题,让数据更适合被挖掘分析,通常需要对数据的完整性、唯一性、权威性、合法性、一致性进行清洗处理。视频结构化处理后的数据,有前端监控采集数据,有经图像解析或图像结构化处理的数据,也有其他物联网感知技术获取的信息等,多个来源的数据,也是非常繁杂。使用ETL处理清洗原始数据,也就是把数据通过提取、转换、装载的过程,转换为可直接使用的结构化数据。这个过程是一个复杂的过程,需要不同的工具软件来对数据进行格式转换,清洗去除不合理值,修正矛盾内容和逻辑错误。实际业务过程中还可以自行开发相关软件,对同类数据进行一些关联性验证,来补全缺失的数据,使数据更完整、准确。
在实践中,复杂的批量处理,基于历史数据的交互式查询,对于机器和人工在不同场景之间应用,都是被动的,而且数据系统之间格式的转化非常麻烦,也是不现实的,同时也是不符合实际业务应用智能化需求的。我们的数据处理能力永远赶不上我们生成数据的速度,因此一定要将数据分析战略的重点尽可能放在提升实时数据分析处理的能力上来。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。数据挖掘分析就是针对结构化数据而言的。非结构化数据占据了数据海洋的80%,未来几年内其数据量将以几何级成倍速度增长。视频结构化盘活视频数据,可作为数据挖掘前提基础,视频经过结构化处理后,存入相应的结构化数据仓库,对各类的数据仓库可以进行深度的数据挖掘,例如对于已获取的结构化数据如人脸、车辆、物联网等数据,可根据实际应用中实战布控等战果反馈进行数据挖掘,通过大数据技术分析挖掘深层次的数据,如犯罪多发地、犯罪多发时间等。以此提升视频数据的应用价值,充分发挥大数据预测功能,进行犯罪的前期预防。
分布式处理就是将分散在不同地点,基于不同功能、数据的多台服务器,通过网络组合连接起来,在一个集群环境中的各个系统由一个高级操作系统进行统一的资源协调和任务分配,完成大数据的处理。它的特点在于对海量数据进行分布式数据挖掘。但它必须依托云计算、分布式处理、分布式数据库和云存储、虚拟化技术。分布式处理最大的优势是本地提取就地处理。目前在智能化监控摄像机DSP芯片技术的支持下,前端实时数据的结构化、标准化,级联节点的分级储存、按需汇总,不失为很好的融合方案,避免了后台集中大规模数据的多种复杂处理。
按照公安部信息标准化工作部署,统筹信息化建设项目使各业务库技术对标、集成,挂接应用功能数据库,实现数据信息共享[5]。统一的大数据平台,相当于提供了高级数据库管理协调系统。在公安视频专网和公安大数据项目建设过程中,应该遵循这样的规划思路,关注数据库和分布式存储处理的技术发展趋势,保证公安大数据生态链关键技术的统筹规范。
数据到实战中去,模型从实战中来。数据盲目挖掘汇总统计是没有价值的。只有形成合适的、本质的,能形成关联的、管用的分析模型算法才有意义。公安大数据最有价值的应用是对犯罪的预警、预测、预防。以往对犯罪行为的分析,是对个案规律的归纳分析,难以支撑大量的数据分析,但是只有数据量越大,分析才会越准确。
随着计算机视觉技术的发展应用,人工智能的发展,尤其是人工智能对人的意识、思维等过程的信息化模拟,语音、语言、图像、手势、体感、文字等感知智能,理解思考、学习记忆、推理决策、创造等认知智能,主要围绕计算机视觉展开,通过对图像智能的理解,让摄像头能够“看懂”世界,然后进行一些态势的预测,比如对犯罪预测分析。大数据是公安的大脑中枢,通过不同的智能应用模块,对海量数据进行运算预判,提供有价值的预警信息,指导警务工作、强化实战。
总结:视频结构化、智能化解决方案,应形成一个完整的技术链条。只有从数据标准化、结构化语义出发,运用大数据思维与技术创新发展理念,面向未来人工智能发展趋势,才能实现真正意义的智能化分析应用。建立具备前瞻性的视频监控数据云资源,使公安各业务应用系统平台具备了良好的数据交互、数据共享能力。大数据技术的发展既能为满足日常应用需求服务,又能为突发多变的实战需求提供快速研判。资源库应具备多维度动态拓展能力,以便利用智能分析手段,提供分析预测结果,努力实现数据规模效益和价值的最大化。因此,只有坚持视频监控技术结合物联网感知技术,走共享融合式发展思路,实现智能化应用,才能为公共安全、社会治理提供更多更高质量的数据信息服务和支撑。