祁筱
“智慧公安”背景下数据的重要性更加凸显,数据采集、数据汇聚、数据应用以及数据管理等各个环节都需高度重视。针对当前“智慧公安”建设和推进中存在的数据采集、数据汇聚、数据应用、数据管理等方面的问题进行了分析,并从保障系统设备和系统运行、提升干警数据认识和能力、发挥职能部门作用、加强制度规范建设等方面提出了相应的对策建议。
“智慧公安”是一场警务新革命。数据犹如“智慧公安”的“血液”,是“智慧公安”中最基本、最重要的因素,影响和决定了“智慧公安”的效用。习近平同志在视察中国科学院时指出:“大数据是工业社会的‘自由资源,谁掌握了数据,谁就掌握了主动权。”
在大数据时代,各行各业对数据的依赖快速上升。政府部门通过对海量、动态、高增长、多元化、多样化数据的高速处理,可快速获得有价值信息,提高公共决策能力。公安机关要不断提高警务工作效能,必须注重用数据说话、用数据决策、用数据管理、用数据创新警务工作。“只要得到了合理的利用,而不单纯只是为了‘数据而‘数据,大数据就会变成强大的武器。”
数据库专家杰克·奥尔森指出:“数据能满足既定的用途,它才有质量。如果不能满足既定的目标和用途,就谈不上质量。”而数据质量问题是一个涉及数据收集、使用、发布等所有过程的问题。
为全面了解当前“智慧公安”建设和推进过程中数据方面存在的主要问题,更好地推进“智慧公安”建设和应用工作,对数据的源头采集、中间汇聚、管理应用等环节存在的问题进行了深入调研,并提出了有效应对策略,以期实现“智慧公安”的高效、健康、有序发展。
随着信息的高速发展,与之而来的是“中等信息化陷阱”。“中等信息化陷阱”是借用“中等收入陷阱”而来的概念。“中等收入陷阱”是指当一个国家的人均收入达到中等水平后, 由于不能顺利实现经济发展方式的转变,导致经济增长动力不足, 最终出现经济停滞的一种状态。“中等信息化陷阱”是指信息化发展到一定阶段出现的边界效应递减、杠杆作用不足、投入与产出比明显降低的一种状态。
在此,从数据的形成过程中逐一分析其存在的问题。
(一)数据采集质量不高
既有感知设备的质量直接影响了数据采集的精确性。目前上海很多感知设备是基于以前原有设备进行改造而来,其中不少由基层街镇所属部门进行采购和使用,设备的正常运行率、单位面积的数量以及数据采集的精度都缺乏统一规范,既有感知设备数据采集的质量不一定能满足下一步“智慧公安”应用对数据分析、数据挖掘的要求。
基层民警的数据认识影响了数据采集的质量。公安数据采集工作主要由基层一线民警实施,由于基层一线民警对数据采集工作重要性认识不足以及对信息技术了解有限,民警在数据采集中采集范围不够、质量不高、实时性不强、应付了事的情况仍然一定程度存在。如上海“新执法办案综合信息系统”采用了先进的电子笔录的形式,以实现数据结构化录入和采集,但是,由于基层民警对系统使用不够熟练,以及系统自身不够稳定导致智能笔录与执法办案综合信息系统无法直接关联,致使很多基层民警采取打印智能笔录中的笔录文件后拍照上传的形式来采集数据,将原本应该结构化的数据非结构化,大大影响了数据的采集质量以及今后数据应用和挖掘。
数据的重复采集影响了数据的质量。在日常工作中,不同的设备之间、不同的民警之间以及设备和民警之间由于所属部门和业务领域不同,在数据采集过程中存在反复、多次采集相同数据的情况,这会增加今后数据挖掘的难度。
(二)数据汇聚瓶颈不少
数据清洗工作量大。根据“智慧公安”的要求,民警采集的数据要全部汇总上传至公安“阿里云”进行统一清洗和关联。在数据汇聚过程中,由于数据量巨大和数据汇聚中存在的数据信息琐碎、部分数据非实时性、数据源异构、数据需求不明确,以及上级单位对基层业务不够了解等多方面问题,导致数据清洗工作量巨大。如上海实有人口库中标准地址为市、区、路、弄、号的形式,“上海市普陀区怒江路XXX弄XX号”,但是外部数据形式有“上海市市直辖普陀区长风街道怒江路XXX弄XX号”,早期手工录入非规范化数据时还会使用“石泉X村X号XXX-X室”,甚至由于历史遗留问题,存在“XXX号一楼灶间”等大量机器无法自动识别、匹配的数据,这些数据在入库“上云”前必须经历大量的清洗、规范和结构化工作。
数据分类和索引亟需规范。由于采集数据来源不同,开发公司使用的环境和语言差异,数据表名、结构、字段不同,给公安业务部门在海量数据库中进行数据查找和应用带来十分不便。上海公安警务“阿里云”在短时间内汇集了公安网、指挥网、视频网等海量信息,“阿里云”汇集库存在分类混乱,字段、表名称索引不规范的问题。如上海实有人口信息中采用的字段名为“姓名”、“通讯方式”,其他数据库中字段名为“居民”、“联系方式”,虽然其中内容相同,民警可以理解其为相同信息的不同表述,但是机器无法自动识别、关联,这样导致在数据关联和数据查询时出现壁垒。
数据更新不及时。由于设备自动采集和民警人工采集的数据存在大量的非结构化数据,导致相同意义的数据重复采集、存储多条,无法做到“一次采集,全网通用;一次变更,全网更新”,不仅造成人力、物力的巨大浪费,同時还增加了数据挖掘和应用的难度。
数据共享比较有限。目前,公安系统内部基本打破了数据壁垒,实现了数据的流通和共享。但是,公安与政府其他部门、公安与社会企事业单位之间的数据仍未实现实时、全面共享。特别是现今数据分析中较为重要的水、电、煤、外卖、快递等数据没有实时共享到公安数据中,直接影响了大数据应用分析、研判的质量。
数据标准亟待确定。海量的数据来源,各开发公司使用的不同开发语言、开发环境、版本号以及不同品牌和型号的硬件设备都会对数据的整合使用产生影响。现有前端感知设备比如门磁、烟感、消防栓、窨井盖、电子巡更等没有统一标准和规范数据结构,需要各个开发公司分别上传公安“阿里云”,而开发公司在对不同数据结构清洗、汇总、撒点时容易出错,且多家公司沟通联调难度大。大数据的去冗,数据存储的内容取舍和时效性都亟待公安相关职能部门和相关专家进行统一协商制定数据标准。
(三)数据应用程度有限
数据开发利用滞后。大数据本身并不能解决问题,大数据只有与业务需求进行充分融合的基础上才能彰显价值。从近期来看,公安系统内部数字信息资源开发利用滞后,数据处理分析能力不足是“智慧公安”建设和应用面临的最大短板,随着“一中心、一平台”建成后数据的大量汇入,丰富的数字资源积累与数字信息资源开发利用不足之间的矛盾将愈演愈烈。缓解矛盾的关键就在于数据处理方式的演化,重视数据在实际操作当中的运用,这是整个数据运行过程中最重要的部分。
数据应用形式单一。数据应用既包括无目标的从复杂多源异构的数据中进行深度挖掘和分析研判,也包括有目标的数据需求和数据模型的建立。目前公安系统内部仅掌握简单的数据分析、数据对比等数据应用,对于数据深度挖掘和数据建模的应用形式尚未熟练掌握。
数据应用方式简单。在数据信息处理中,公安系统内部多沿用传统的数据分析工具和分析方法,数据处理多是简单的累加、比对和百分比计算,在数学模型构建等方面创新不足,数据应用智能化水平偏低。
公安数据模型数量少。阿里巴巴公司有320万个数据模型,而目前上海公安只有几百个数据模型,差距十分悬殊。模型开发和业务需求联系紧密,有限的模型数量严重影响了 “智慧公安”在实战中的作用发挥。
(四)数据管理出现偏颇
部分领导存在重建轻管的思维。当前,在“智慧公安”建设和推进中,部分单位领导仍然存在重建设轻应用的思想,觉得硬件系统搭建完成就大功告成了,缺少系统的扩展性和维护更新的意识。
系统开发过于依赖企业。由于公安机关数据应用系统大多数依赖于开发公司,以致公安系统内部人员对系统了解不多,在后期管理维护中很难进行技术维护,这会给系统正常运行带来很多问题, 从而影响系统作用的充分发挥。
高水平计算机人才缺乏。系统开发技术含量高,公安内部缺乏高水平的计算机技术人才,无法自行开发复杂的信息系统,一般都委托软件开发公司进行分析、设计、编程和维护。由于开发公司对于公安业务了解甚少,导致无法全面准确了解公安需求,系统应用效果有待加强。
(五)数据安全隐患不少
系统自身存在安全隐患。由于公安内部开发系统实力有限,各级公安机关的系统开发往往由外部软件开发公司承包,技术资料由软件开发公司掌握, 系统维护、升级都要依赖软件开发公司,系统后台数据库及管理权限对开发单位是完全透明的,鉴于计算机行业人员流动频繁, 公安信息系统存在着一定的安全隐患。
数据伪装和数据犯罪。随着信息技术的快速发展,数据伪装和新型数据犯罪要引起我们高度重视。一方面,在信息源上,社会空间中充斥着伪造或刻意制造的数据,而错误的数据信息被提取运用后往往会误导使用单位做出错误的研判预测和管理决策;另一方面, 在信息传播上,数据存储和分析处理过程中可能会出现“黑箱操作”, 人工主观干预的数据采集过程可能出现误差, 导致数据失真与偏差。此外,我们还要高度警惕针对公安大数据分析、研判的新型数据犯罪的出现,做到防患于未然。
(一)保障设备和系统的高效运行
保障系统的性能稳定。开发公司在开发软件系统时常常会追求功能完善而忽略性能稳定,但这恰恰是公安平台系统最重视的要素。目前,各种公安新系统的初期使用常常使民警怨声载道就是因为性能不稳定造成科技累警,民警的敷衍了事,不规范使用又会为后期数据的清洗和研判造成困难。为了便于民警操作、使用,在保证友好用户界面的同时需要保障系统的性能稳定,在新系统全局推广之前充分做好测试完善工作,最大程度上减少系统漏洞。
提高感知设备的数据采集质量。相关部门要采取措施使得原有政府采购的感知设备与新增设备的灵敏度、采集精度、采集范围、单位面积内个数尽量保持统一标准,要统一收发数据格式,提高数据采集质量,构建社会泛感知数据的建设和采集汇聚标准。
保持数据接口和数据库的稳定性。相关职能部门在软件系统开发过程中要保证开发语言、开发环境、开发版本的兼容性和系统的稳定性,防止出现系统开发完成后相互不兼容而返工现象。对各类数据库提供的服务,相关职能部门要进行必要的前期规划和评估,确保数据和接口的安全、稳定和统一。
(二)重视对广大干警的数据意识和能力的培养
在“智慧公安”建设和应用过程中,公安机关各级领导干部要带头学习大数据相关知识,提高数据意识,培养数据思维,避免重硬件设备轻应用管理的传统思维。各级领导干部要学会并善于用数据说话、用数据决策、用数据管理、用数据创新警务工作。此外,各级领导干部要重视数据挖掘工作,善于发现和培养大数据人才。
切实增强“全科民警”的数据采集和应用能力。基层一线岗位“全科民警”是数据采集和应用的第一人。“全科民警”首先要提高数据认识,深入理解“智慧公安”建设的紧迫性以及数据在“智慧公安”中的重要性,充分显现“全科民警”在“智慧公安”中的重要地位和作用。同时,市局相關部门和公安学院要重视和加强“全科民警”数据能力的培训工作,强化对“全科民警”数据采集所需的设备使用、数据形式、采集时间等规范性训练。此外,“全科民警”还要加强自身学习,尽快熟练掌握各种数据采集所需的新系统、新设备,并能够基于自身经验对数据应用模型的开发完善提出建设性意见。
大力加强“专科民警”的数据业务能力。“专科民警”要努力提高数据意识,学会使用数据决策、数据管理。非“数据警察”岗位的专科民警要能够结合自身工作需要提出数据模型需求,为条线业务的智慧化发展贡献力量。“数据警察”是既懂公安业务又懂大数据技术的专业人才,要不断学习和钻研大数据,并能够敏锐嗅察出海量数据深度挖掘背后的涵义,能够精准把握其他岗位民警提出的数据模型的可行性、实现方案和模型搭建等重要事项。
(三)充分发挥“智慧公安”相关业务部门的职能
加强“智慧公安”的顶层设计和規划。“智慧公安”相关职能部门要对“智慧公安”的建设和推进进行顶层整体设计和规划,对可能存在的问题、潜在的问题以及已经暴露的问题要有相应的解决对策和方案。同时,相关职能部门要与政府其他相关部门、社会企事业单位进行主动协调,实现水、电、煤、外卖、快递等重要数据的共享,丰富数据类型,完善数据内容。
强化对数据开发的技术支持。市局“智慧公安”相关职能部门要加强公安系统与开发公司之间协调工作,在明确数据统一标准之后,协同开发公司落实技术标准,开展数据汇聚前的梳理工作,并及时组织进行数据清洗、关联和索引,为数据查找和数据应用提供技术保障。
重视“数据警察”人才培养工作。市局“智慧公安”相关职能部门和公安学院要对“数据警察”的培养建立长效机制,为“数据警察”业务能力的不断提升创造良好的条件。
(四)进一步强化与数据相关的制度保障
加强“智慧公安”的标准化建设工作。市局“智慧公安”相关职能部门在设备采购、系统开发过程中要制定相关标准,规范相关设备、开发语言、开发环境、配套接口等标准,避免出现市局与分局、不同分局、不同业务部门之间在数据采集、数据汇聚、数据共享、数据应用中存在不统一、不兼容等问题。
建立“智慧公安”相关激励机制。市局“智慧公安”相关职能部门和各分局在“智慧公安”建设和推进过程中要逐步建立和完善相关激励机制,注重调动全体干警的“智慧公安”建设的积极性,促进“智慧公安”的快速、健康、有序发展。如在市局模型开发上,市局相关职能部门和各分局可建立相应激励机制,鼓励基层民警积极提出数据模型需求,扩大数据模型数量,择优挑选优秀模型并进行进一步完善、打磨,实现模型落地,在保证数据模型数量的前提下提高模型质量。
规范民警数据应用的权责。市局相关职能部门要制定相关规章制度,在充分保障民警合理行使其工作职责范围内的数据查询、数据应用权利的同时,防止和杜绝民警乱查、乱用数据,泄露隐私,私建模型等违法乱纪行为的出现。
加强对软件开发公司的制度监管。在“智慧公安”建设和推进过程中,软件开发公司在开发系统、建立数据模型中对全局数据拥有较高的查询、使用权限,系统后台数据库及管理权限对开发公司是完全透明的,由于计算机行业人员流动频繁,不少员工法律意识淡薄,市局相关职能部门要加强对软件开发公司的监管制度建设,经常督促软件开发公司加强对其员工的日常管理和教育,减少数据安全隐患。
重视公安数据非法应用防范制度建设。针对日益发展的大数据技术,市局相关职能部门要重视公安数据非法应用防范机制建设工作,提防针对公安数据采集、数据应用、数据研判可能出现的各种数据伪装问题,逐步开展检测伪装数据的安全算法建模工作,建立相关机制,将数据进行安全等级划分,针对不同安全等级的数据使用不同等级的安全算法(数据安全等级低,使用的安全算法性能高、安全性低;数据安全等级高,使用的安全算法性能低,安全性高),防止不法分子攻击公安信息系统获取或修改相关数据。相关部门高度警惕可能出现的针对公安大数据的新型数据犯罪,建立好防范机制。
作者单位:上海公安学院