Hadoop与ETL技术在视频数据中的应用

2018-09-22 06:41:20张敬锋刘琼李磊安徽省公安厅科技信息化处
警察技术 2018年5期
关键词:数据源海量集市

张敬锋 刘琼 李磊 安徽省公安厅科技信息化处

引言

公安视频图像信息系统会产生大量视频、文字、图片、音频等数据。系统中产生的大量多种类型数据,价值密度极低,以视频为例,一部一小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。在如此海量的数据面前,如何通过强大的机器算法迅速完成数据的价值“提纯”是目前大数据背景下最重要的应用。

大数据时代,人们越来越清楚地意识到数据中蕴藏的价值。海量数据的拥有者在积极寻求方法利用手中的数据。然而,爆发式增长的数据量正在超出传统数据库的处理能力。为了应对这样的增长,需要对数据库进行升级。基于小型机DB2或Oracle架构的传统数据库升级依靠纵向扩展,也就是通过提升服务器本身的性能来提高处理能力。更大更强的服务器价格高昂,但性能的提升却是有限的。

Hadoop架构很好地解决了扩展的瓶颈,它设计部署在经济实惠的硬件上,通过横向扩展,便可无限提升数据处理能力。基于Hadoop的大数据软件因为其强大的处理能力和高性价比在数据分析市场崭露头角。

本文主要介绍利用Hadoop技术与ETL技术实现海量视频监控数据的处理,主要通过视频数据清洗与处理重点完成海量视频数据的统一存储、管理、信息共享和提供数据资源服务,并作为应用系统的支撑,针对不同业务建立不同专题,建立完善的视频数据采集、加载、存储、分析和应用展示的架构体系。

一、基于Hadoop与ETL实现海量视频数据处理

(一)视频数据清洗与处理

视频数据清洗与处理通过ETL平台进行高效数据抽取、数据清洗、数据转换、数据加载等,完成对各种不同类型视频数据从数据源向目标数据库转化的过程。

为了处理有限数据量的结构化视频数据,选择传统ETL平台。而对于大量的半结构化视频数据或非结构化视频数据,ETL过程采用以Hadoop为基础搭建的ETL平台。ETL过程包括以下几类:数据清洗、数据转换、数据汇聚。视频数据清洗与处理流程如图1所示。

数据清洗:实现对视频数据的标准化统一,具有去除重复记录、替换处理和去除无效数据等功能。对不同来源的视频数据进行清洗和转换,将不同标准规范下的视频数据统一转换成符合平台数据标准与数据定义的数据。

数据转换:对于低价值密度的非结构化视频数据,通过元数据提取特征,将特征数据保存到MPP数据库集群中,从而实现向高价值密度的结构化数据转换。在元数据的作用下,提取出来的特征信息通过加载,最终保存到数据仓库中,为实现高性能的查询分析提供基础。

数据汇聚:数据汇聚过程包括数据拆分和数据合并,是将各不同来源的视频数据进行初步汇总,形成完整数据集。将各种视频数据的特征提取数据合并,去除重复字段,打破范式关系,原实体集汇聚成数据集。

(二)大数据平台

视频数据清洗与处理软件需要建立大数据平台,以整合优化内外各类视频资源,形成基础资源库,并在基础数据资源库建设的基础上,通过二次抽取、索引化整合、逻辑关联等方式,建设形成应用服务资源库。大数据平台架构采用Hadoop技术,通过Hadoop分布式文件系统(HDFS)进行视频数据分布存储,针对各种应用场景,采用Hbase数据库对需要随机访问、实时读写的视频数据进行存储;同时利用MapReduce/Storm等并行处理技术的并行计算。大数据框架包括数据源层、数据集获取层、数据处理层、数据应用层,其框架设计如图2。

数据源层:主要实现前端各种视频数据的对接,包括政府视频数据、社会视频数据等。

数据集获取层:可针对不同类型的视频数据源采用不同的数据获取策略,实现结构化视频数据、非结构化视频数据、半结构化视频数据的导入导出。

数据处理层:实现视频数据的分布式存储和并行计算,并统一提供资源的调度服务、访问服务、管理监控服务和权限控制服务等,支撑公安各部门业务应用。

数据应用层:实现业务查询、业务办理、数据共享、信息统计等服务。

HDFS分布式文件系统:实现视频数据的分布式存储,隐藏下层负载均衡、冗余复制等细节,对上层程序提供一个统一的文件系统API接口。HDFS针对海量视频数据特点做了特别优化,包括超大文件的访问,读、写操作比例过大,PC机极易发生故障造成的节点失效等。HDFS把文件分成若干大小的块(可调,如64Mb),分布在集群的机器上,使用Linux或Windows的文件系统存放,同时每块文件至少有3份以上的冗余(可自定义)。中心是一个管理节点(NameNode),根据文件索引,找寻文件块数据节点(DataNode)。

Hbase大数据库:利用分布式、按列存储、多维表结构的实时分布式数据库,可以提供大数据量结构化和非结构化视频数据的高速读写操作,为高速在线数据服务而设计。

利用MapReduce/Storm等框架实现复杂任务的并行处理,如大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对,Reduce把Key/Value合成最终输出Output。下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在HDFS上。

(三)数据交换共享平台

数据交换共享平台即为多种视频数据源提供包含提取、转换、传输和加载等操作的数据集成,自动、方便、快捷地实现视频数据的抽取清洗,完成基于数据的应用集成。

ETL工具将视频数据清洗至公安数据中心库,并完成数据汇总、整理、预警与反馈。在ETL平台中可以根据数学模型二次加工生产衍生数据,并通过服务发布平台将数据中心数据发布推送到其他政府应用系统。

ETL平台通过进行高效数据抽取、数据清洗、数据转换、数据加载等,完成对视频数据从数据源向目标数据仓库转化的过程。

ETL平台处理的源视频数据分为三类,结构化数据、半结构化数据和非结构化数据。为了高效处理不同类型的海量视频数据,ETL平台可划分为传统ETL和云化ETL两部分。所有数据可经ETL平台处理后加载到数据集市中。

数据清洗实现对视频数据的标准化统一,去除重复记录、替换处理和去除无效数据等功能。对不同来源的视频数据进行清洗和转换,将不同标准规范下的视频数据统一转换成符合平台数据标准与数据定义的数据,提供多种数据清洗方式,利用条件过滤、去除重复记录、空值处理和去除无效数据等方式对视频数据进行清洗。利用ETL数据交换平台可以快速实现不同系统之间的信息共享与交换,实现应用的集成。

(四)数据集市

通过视频数据清洗与处理软件将不同类型的视频数据通过ETL交换共享平台将数据采集抽取到基础数据中心,形成各类数据集市,根据类型分为基础数据库、业务数据库、主题数据库。

基础数据库存储人、车、户、证等基本信息,业务数据库存储业务办理和审批信息,主题数据库存储系统生成的查询结果和各类报表数据。存储的数据可以通过数据管理平台查询展示,通过数据分析平台实现决策分析功能。数据流程如图3所示。

数据集市根据业务应用需求进行建设,包括固定报表、即席查询、OLAP、数据挖掘等,存放的数据主要为分析型数据。数据集市数据可从中心数据层来,也可以直接由基础数据层来。数据集市数据直接对外,可直接取用,也可以从中心数据层或基础数据层取数据。

数据集市是以数据仓库数据为唯一数据源、面向特定分析应用、按一定方式重新组织的数据集合,是数据仓库的子集。数据集市基于数据仓库创建,用于不同分析数据的存储。数据集市模型也按主题组织,可以采用星型模型或雪花型模型进行组织。

数据集市的搭建为各类应用提供标准化、规范化的数据接口,避免各类系统在数据传输、整理、汇聚、统计过程中,因各类系统设计不统一问题,形成新的信息孤岛。

二、Hadoop大数据平台在公安实战中的应用

在大数据时代,安防大数据应用建设是提高视频监控投资效能的有效措施,是公安信息化建设的必然发展趋势。Hadoop大数据平台在很多信息化建设项目中都可应用,在平安城市、雪亮工程等项目都可使用Hadoop大数据平台进行数据的采集、加载、存储和分析。

在某二线城市基于Hadoop技术搭建的卡口大数据平台,目前已接入1400余路实体卡口和1100余路虚拟卡口,现单日过车数据800万,总过车数据25亿条。如此海量的视频数据,除了支撑过往车辆查询与布控,同时基于大数据技术,引入聚类分析算法等,实现落脚点分析、套牌车分析、轨迹分析及车立方等技战法,助力实战应用。

使用了Hadoop大数据平台具有明显的优势:

(1)支持对FTP、WebService、数据库、消息等接口方式的采集;

(2)支持采集xml、txt、图片、视频、json等数据格式;

(3)支持抽取结构化、非结构化数据类型;

(4)数据抽取性能:10000条/秒,1000条/次;

(5)数据并发能力:写入能力不小于10000,读取能力不小于100000;

(6)支持不小于5PB的存储能力。

三、结语

本文基于Hadoop技术与ETL技术,通过视频数据清洗与处理业务完成对公安部门海量视频监控数据的统一存储、管理、信息共享,实现海量视频数据的深度应用。视频数据清洗与处理业务重点完成海量视频数据的统一存储、管理、信息共享和提供数据资源服务,并作为应用系统的支撑,针对不同业务建立不同专题,建立完善的视频数据采集、加载、存储、分析和应用展示的架构体系。通过建设Hadoop大数据平台,公安部门可以分析和使用更多的视频数据,为公安数据的交换、整合和分析发展提供了一个重要平台。利用大数据技术,公安机关可以通过对海量视频数据的收集、整理、归类、分析,得出传统手段不易发现的客观规律,挖掘数据中蕴藏的巨大价值,推进公安实战工作的大发展。

猜你喜欢
数据源海量集市
一种傅里叶域海量数据高速谱聚类方法
热闹的集市
海量快递垃圾正在“围城”——“绿色快递”势在必行
当代陕西(2019年14期)2019-08-26 09:42:00
探访于山“相亲集市”
海峡姐妹(2018年12期)2018-12-23 02:39:20
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
一个图形所蕴含的“海量”巧题
热闹的集市
基于真值发现的冲突数据源质量评价算法
基于文件系统的分布式海量空间数据高效存储与组织研究