媒体中心库在电子案卷多媒体材料存储中应用的思考与实践

2016-02-13 01:08张松钿熊紫梁
广东公安科技 2016年4期
关键词:案卷备份数据库

张松钿 熊紫梁

(1.广东省公安厅科技信息化处,广东广州510050;2.广州市公安局科技通信处,广东广州501130)

媒体中心库在电子案卷多媒体材料存储中应用的思考与实践

张松钿1熊紫梁2

(1.广东省公安厅科技信息化处,广东广州510050;2.广州市公安局科技通信处,广东广州501130)

公安网在我国公安工作中发挥着越来越重要的作用。本文分析了当前形势下公安网存在的各种安全威胁,结合网络安全、系统安全和制度法规,提出了公安网信息安全保障策略。多媒体材料作为电子案卷中的重要组成部分,对反映执法活动的合法性、真实性具有重要作用,必须力争全面纳入电子案卷管理。本文从某局域网内执法办案系统数据库效率及安全问题进行分析,引出对电子案卷多媒体材料常用存储方式的讨论,提出了建设媒体中心库统一存储管理的解决思路,并对建设中需要重点考虑的内容进行思考及分析。最后,通过实践证明媒体中心库在电子案卷多媒体存储中的应用解决了数据库原有问题。

电子案卷多媒体材料媒体中心库

近年来,随着公安机关执法信息化、执法规范化的不断推进,电子案卷成为执法活动的重要体现载体,其涵盖材料内容的完整性越来越高,尤其是图片、音频、视频、大文件等多媒体材料更是保证执法活动合法性、真实性的重要内容。但是,多媒体材料的存储方式一直以来是实现电子案卷的关键。本文以某局域网执法办案系统数据库备份问题引出多媒体材料存储方式带来的连锁问题,对多媒体常用存储方式进行分析,提出建设媒体中心库的解决思路,并对建设要点进行思考及分析,最后通过比较建设前后的数据库状态,验证媒体中心库解决问题的实际效果。

1 现状及问题

某局域网执法办案系统采用单一数据库存储模式,以BLOB类型存储在Oracle数据库中,形成多媒体数据与文字数据混合存储的状态。随着执法办案系统的深入应用,Oracle数据库中的多媒体数据记录数380多万,数据量达7TB。

1.1 磁盘吞吐量大造成业务系统运行缓慢

经技术监测,应用高峰时段从Oracle读取多媒体文件的吞吐量达到1GB/s,超过现有存储系统90%的理论吞吐量;再用小型机UNIX命令sar查询waitio(waitio也称IOWait,指小型机数据IO等待所占cpu时间的百分比)数据发现,高峰时段waitio持续在20%~30%区间,处于IO繁忙状态,造成执法办案系统出现频繁卡顿;在Oracle数据库中进行多表连接统计查询多媒体数据状态,所用时间为46min。前端等待图片显示时间一般为8s,有时甚至达到十几秒。

1.2 数据库体量大造成安全和成本问题

系统的备份恢复,由于数据中存有多媒体数据,数据库备份工作量大,该执法办案系统执行一次全库数据备份需要1天以上时间,并逐步发展到超过2天时间,形成数据库全库备份时间窗口过小而无法完成全库备份的问题,而数据库恢复也需要几天时间才能完成,数据库存在严重的安全隐患。此外,传统数据库存储一般采用性能较稳定的小型机和速度较快的存储设备,难以对数据进行分类存储,建设运维成本高。

1.3 扫描材料剧增造成数据存储压力增大

进一步统计发现,近年来该执法办案系统汇总多媒体材料中的人像、现场照片、PDF文件等材料与案件总数呈线性增长,而多媒体材料中的扫描材料存储量出现迅猛增长势头,每个案件的扫描材料的存储量均持续增长;近三年数据分别是:2013年是3.3MB/案,2014年是4.5MB/案,2015年是6.5MB/案,增长趋势明显。主要原因是执法规范化不断强化,电子案卷网上流转、审核的要求,造成基层办案民警加强了材料扫描工作,每个案件的扫描材料剧增加重了该执法办案系统数据存储压力。(如图1所示)

图1 近3年每个案件的扫描材料存储量增长

综上所述,单一数据库的图像存储模式已不能适应该局域网执法办案系统电子案卷多媒体材料的存储要求[1],必须应用新技术手段对现有的多媒体存储模式进行改造。

2 常用存储方式分析

目前,视频、图片、大文件主要采用三种方式存储管理:第一种是采用目录文件存储,简称目录模式;第二种是采用数据库存储,简称数据库模式;第三种是采用“数据库+目录”存储,即数据库存目录位置,文件存在目录中。当文件和数据量不大时,以上三种模式均可胜任工作;但当文件和文件数据量达到一定阀值时会存在许多问题[2][3]。

第一种模式,采用简单的目录文件存储,基本没有什么管理,只要有目录即可存储,且目录访问权限难以分配管理。所以,此模式在管理,共享,安全性,查找使用方便性等方面都存在很多问题。

第二种模式,采用数据库单一存储对多媒体数据可以做到完全管理,尤其是在安全方面,但仍存在以下问题:1)整个系统性能降低。由于多媒体的处理占用大量的CPU资源、多媒体的存储和读取占用大量的I/O通道,在面临大量数据管理和大量访问的时候,整个系统性能急剧下降;2)数据备份/恢复困难。由于多媒体数据增长快,数据量巨大,原始数据备份模式下,每次的全库备份往往要几天时间才能完成,数据恢复的时间更长,造成数据的备份和恢复都很困难,一旦数据库有问题,很可能导致数据无法恢复,损失难以估量;3)系统运行成本增加。由于传统数据库模式下系统数据需要频繁访问,传统建设模式采用稳定性能较好的小型机和速度较快的高端存储设备,直接导致了建设、维护的高成本。由于数据和多媒体同库存储,因此,必须全部采用小型机和高端存储设备,系统运行成本较高。

第三种模式,可以部分解决第二种模式的问题,但第三种模式同样存在多媒体数据的安全问题,对共享目录的访问,访问管理不方便,安全性不能保证,特别对网页类应用,数据与客户端的交互效率低下,使用不方便。

3 解决思路

为改善该局域网的数据库存储状况,可从两方面加以解决:一是针对多媒体材料中案件扫描材料剧增的情况,考虑加快推进电子笔录、电子签名、电子捺印等技术应用,进一步从文书制作源头减少扫描材料;二是采取一种新型非结构化分布式集群数据系统,即媒体中心库系统,解决单一数据库存储问题并实现各个层面的管理功能,而且媒体中心库系统必须独立考虑安全、可靠、性能、拓展等方面的要求[4][5]。本文重点对采用媒体中心库系统的解决思路进行阐述。

3.1 系统逻辑架构

由于采用媒体中心库系统替代原有存储模式,且必须作为多个系统的存储管理中心,不再依托数据库和原有执法办案系统封闭的管理体系,在系统逻辑架构要全面考虑。按照该局域网内部系统的建设应用情况,可将系统逻辑架构分为五层,即数据源层、数据接入层、数据管理层、服务层和应用层。数据源层指各系统办理业务产生的图片、音视频、大文件等多媒体数据;数据接入层对外提供大数据媒体文件的统一上传接口;数据管理层主要规划媒体文件在存储硬件中的存储策略,并将元数据保存到关系型数据库;服务层提供数据访问服务、存储集群服务和运行监控等功能[6];应用层是指使用媒体中心库的各个业务应用系统,如该局域网内的执法办案系统或其他业务系统。(如图2所示)

图2 多媒体中心库系统架构设想图

3.2 存储组成

有别于Oracle数据库单一存储模式,媒体中心库系统在存储的分级、安全、吞吐,以及数据生命周期、用户管理操作界面友好方面要全面考虑,确保更便捷、更安全、更高效地管理及应用多媒体数据。

3.2.1 采用分级存储系统降低成本

针对存储成本增高的问题,重点考虑数据种类、紧急程度、安全等级等方面,通过分级存储系统存储数据节省整套系统数据的总体成本。具体实现可以通过高可靠性高性能磁盘系统和高性价比磁盘系统混搭构成,实现数据管理模块统一调配,确保数据可以在不同等级的磁盘系统间动态迁移与回迁。根据定制好的数据管理策略,针对某些类型数据或针对一定周期内数据进行智能化存储管理,数据迁移后会释放原数据占用的磁盘空间,同时在原目录下保留数据文件的存根(快捷访问方式),需要访问已经从高性能存储系统迁移至高性价比存储系统中的数据时,可以直接访问原数据目录中的快捷访问方式。

3.2.2 采用文件级实时同步镜像提高可用性

针对单点安全、数据备份、访问带宽等方面,系统可以考虑采用后端磁盘阵列的文件级镜像配置,根据实际需求将两个独立磁盘阵列中各自的空间配置为实时同步镜像,其他空间正常使用。设置为镜像模式的两台磁盘阵列中一台磁盘阵列发生故障后,前端应用服务器数据IO会自动写入另一磁盘阵列;应用服务器读取数据时可以同时从两台镜像阵列中读取,提高数据带宽;由于磁盘阵列间是文件级镜像,可保证数据的安全性和一致性,并对前端业务无影响,保障业务的连续性。存储系统各关键功能模块要采用全冗余设计,文件服务器节点可实现自动故障切换功能,充分保障数据访问连续性以外,存储阵列依托模块化、高可用的设计方式,最大程度提高系统的易用性及易维护性。后端磁盘阵列系统要兼容多种RAID保护方式,具备磁盘介质自动扫描功能和文件系统动态碎片整理功能。

3.2.3 采用离线存储实现数据生命周期管理

针对数据离线数据和备份问题,可考虑配置离线设备,即物理磁带库,主要用于保存需要归档的离线数据。这些数据保存到磁带设备后,可以长期安全保存,需要再次读取历史数据时,可以通过数据生命周期管理系统通过智能化策略启动数据回迁或使用远程读取直接访问数据,体现数据生命周期中不同阶段的管理及存储,提高安全性和性价比。

3.2.4 采用智能监控管理终端提高管理效率

传统IT环境中,管理人员往往需要针对不同厂家、不同类型的产品配备,精通不同领域技术。因此,要针对管理人员可视化操作习惯,重点降低管理人员的技术门槛,从而提升系统监控、管理的易操作性。在设计系统时要提供全中文化管理工具,降低存储设备运营、监控、管理的复杂度。通过统一的管理界面,可以避免管理人员需要参加不同厂商、不同设备的大量技术培训,降低管理过程编写技术脚本的出错可能,有效提升效率、规避风险。

4 实践情况及效果

为检验以上思路的实践效果,在做好相关备份工作后搭建了一个媒体中心库系统试运行,上文所述某局域网执法办案系统未采用媒体中心库时,多媒体数据记录数380万,数据量7TB。高峰时段从Oracle读取多媒体文件的吞吐量达到1GB/s,在Oracle数据库中进行多表连接统计查询多媒体数据状态,所用时间为46min,前端多媒体的打开显示时间一般大于7s,有时甚至达10多秒。采用媒体中心库后,原有数据库中的多媒体数据被转存至媒体中心库,新增的多媒体数据被直接存储于媒体中心库系统中。原有Oracle数据库存储量变为2.5TB,高峰时段读取多媒体文件的吞吐量仅为100MB/s。采用媒体中心库后,由于在Oracle数据库中只存储多媒体的元数据,在Oracle数据库中作同样查询,只需要12min。前端多媒体的显示时间一般为1s至2s。系统数据的备份恢复方面,未采用媒体中心库时数据库备份需要1天以上;采用媒体中心库后,数据库全库备份在24h内就完成。(如表所示)

应用媒体中心库前、后的对比表

从以上实践效果看,采用媒体中心库系统后,原有系统存在的数据库体量过大,高峰IO吞吐量大、系统IO等待过高、多表连接查询太慢、全库备份时间太长、前端页面显示缓慢等问题均得到很好解决和改善。

5 结语

媒体中心库系统对多媒体数据的存储管理模式与传统数据库存储模式相比,具有业务与数据分离,系统安全、可靠并能线性扩容等特点。此外,媒体中心库系统与云存储具有兼容性,可以进一步结合云平台建设在其他非结构化大容量数据存储方面得到推广应用。

[1]方华,盛蕾.Oracle中LOB字段的存储管理和优化[J].微计算机信息,2010,26(4-3):179-181.

[2]冯周,左鹏飞,刘进军.大数据存储技术进展[J].科研信息化技术与应用,2015,6(1):18-28.

[3]王冠珠,李浩川,黄非.基于要素类的多数据中心数据一体化存储模型研究[J].计算科学与应用,2016,6(2):77-84.

[4]赵见.高性能高可用键值存储系统的设计与实现[J].电子科技大学硕士论文,2010,5.

[5]Chen H B,Liu CY.Network attached storage:U.S.Pat⁃entD563,994[P].2008.

[6]徐鲁,杨德志,黄华,等.大容量、高性能、高扩展能力的蓝鲸分布式文件系统[J].计算机研究与发展,2015,42(6):1028-1033.

猜你喜欢
案卷备份数据库
“备份”25年:邓清明圆梦
VSAT卫星通信备份技术研究
绵阳市召开劳动保障监察行政执法案卷评查暨疑难问题研讨会
石家庄市人大常委会 认真开展案卷评查
创建vSphere 备份任务
山西省开展农业行政处罚案卷评查活动
数据库
工作广角
旧瓶装新酒天宫二号从备份变实验室
数据库