蒋霁帆
在信息和科技化高度发达的今天,信息科技程度的高低已经成为衡量一个国家综合国力强弱的重要标准之一。而大数据作为信息化时代重要的产物,影响着一个国家的军事、政治、文化和人民的物质生活。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有很多种分类,而不同的煤矿的挖掘成本又不一样。与挖矿类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,怎样去更好地利用这些大规模数据是赢得竞争的关键。
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数据巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息计算和服务业态。《中华人民共和国国民经济和社会发展第十三个五年规划纲要》其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。具体包括:加快政府数据开放共享、促进大数据产业健康发展等。这体现了国家对于大数据建设的持续关注。
无独有偶,为了响应国家“大数据”战略,实现跨界融合、提振经济,由上海大数据联盟、chinahadoop 大数据研究网策划并发起2016 中国(上海)数据产业峰会,旨在探讨如何借“大数据”战略东风,推动华东乃至全国大数据产业化和传统产业与大数据产业的结合发展,融合创新,促进整个行业持续、健康、快速发展,启动新一轮经济增长之门。通过专业化的市场运作和全方位的资源整合,打造和呈现中国大数据应用与创新领域顶级盛会,大力促进传统企业及大数据企业的竞争力与影响力进一步提升。2017 年12月,习近平总书记在主持中共中央政治局第二次集体学习时明确提出了“大数据是信息化发展的新阶段”这一重要论断。同时2018 年政府工作报告指出,要实施大数据发展行动,加快制定大数据发展规划,加快建立和完善全社会统一的数据标准体系,统一规划和建设全国开放共享的大数据平台,深度开发大数据资源,实现大数据应用百花齐放,为数字中国和智慧社会建设提供强大支撑。
大数据是数字中国、智慧社会的核心驱动力之一,全国人大代表杨杰在建议中表示,数字中国、智慧社会等是我国对未来经济社会发展的美好愿景,十九大报告已将其列为“建设创新型国家”的重要组成部分,它们均离不开大数据的发展和应用。
首先是经济社会的数字化,通过“数字孪生(Digital Twin)”技术,将硬件设施转化为可度量的数字、数据,为后续的实时感知、分析和控制奠定基础;其次是经济社会的网络化,通过泛在网络,将分布在不同区域的现实生产生活互联起来,实现数据共享;再次是经济社会发展的智能化,在万物互联的基础上,生产、消费和社会治理等领域广泛采用大数据和人工智能技术,实现自学习、自适应、自优化;最后是经济社会运行的协同化,通过开放、透明的机制,实现各环节、各流程运行更加顺畅。
以智慧社会建设中的智慧交通为例,通过道路、车辆、人员、天气、交通管理等数据的全面感知和联网,实现交通指挥、路段收费、事故处理的高度协同和智能。与以往的经济社会发展相比,数字中国、智慧社会等更加强调信息基础设施和数据资源的共建共享,必须从更高层面出发,强化上下一盘棋的大局观和系统思维,统筹规划,协同推进。
大数据对经济社会发展的重要性主要体现在三个方面:一是未来的经济是数字经济。未来的社会是数据社会,大数据将成为继能源和材料之后的又一战略性资源。有预测表明,2020 年我国数据总量将达到8.4ZB,占全球数据总量的24%,成为数据第一大国。二是大数据将大幅提升经济社会发展效率、降低运行成本。如工业大数据、农业大数据、交通物流大数据、医疗健康大数据等广泛应用,能够优化产品结构、提升产品质量,降低生产服务过程中的原材料、人工和交通拥堵等成本。三是大数据能提升用户体验,提高满意度。“让数据多跑路,让群众少跑腿”的智慧政务、基于图像大数据分析直接“刷脸”的支付认证、依托用户数据画像提供个性化服务的智慧家庭等都是用户体验提升的重要方面。
“电动自行车丢了能自动报警,如果报警后找不回,还可以获得保险公司1200 元赔偿。”这个消息已经在贵州大街小巷传开了。它背后的黑科技就是大数据“物联网”!
2017 年,贵州省贵阳市公安局与贵州广电网络共同打造了“万物互联”警务项目,主要帮助摩托车或电瓶车车主实时监控车辆是否被盗。广大车主只需每年交纳50 元的保险费,下载专用APP,注册并进行预登记,即可免费到附近安装点安装RFID芯片。车上装“车卡”,随身携带“人卡”。
APP 已连接到警方的自动报警平台,当人车分离到一定界限值,监控平台就会自动一键报警,车主的手机就会接到信息提示,警方也会向你确认车辆是否涉嫌被盗。一旦你确定车辆被盗,警方会立即追查被盗车辆。如果最终未能找到车子,保险公司将对失主赔付1200元。
2018 年开局之日,上海市公安局交通管理部门联合海康威视科技公司,在上海各个交通复杂路段安装智能监控摄像头,并实现了公安无线网络在繁华路段的全部覆盖,做到360 度无死角实时监控,利用远程计算机控制,结合人工智能,有效解决了高峰路段车辆拥堵的问题。对每一辆路过监控摄像头的汽车进行云端扫描登记,及时筛查出可疑车辆进行查控。
无独有偶,面对外滩群众人流量大、密集度强的情况,上海警方根据高科技手段感知获得的精准预警信息,对南京东路实施交通管制,并对外滩江堤部分通道实施“只下不上”措施。据统计,外滩江堤区域在2018 年跨年当天累计游客突破32万人次,创近年新高。但由于预警精准,预案充分,一切井然有序。
黄浦区是上海中心城区,辖区内南京路、外滩、豫园、新天地、田子坊等旅游热点区域众多,每到重要节点必然形成大人流聚集,尤其是在游客云集的南京路至外滩区域,安保工作压力巨大。近年来,黄浦分局以“智慧公安”建设为契机,坚持“科技+管理”双拳出击,在人群聚集公共场所大客流疏导方面进行了积极探索。经过几年实践,黄浦分局已经建立起较成熟的“客流监测与预警指挥系统”,基本实现了对短期客流趋势的预测。同时,该系统还可以与往年数据进行对比,更好地掌握人流变化规律。在大数据提供人流实时数据和变化趋势的基础上,可以更加准确地对安保预案进行调整和完善,根据实际人流情况精确施策,从而实现了更加科学、灵活用警。
“让数据多跑路,让老百姓少跑腿、不跑腿。”随着互联网全面融入社会生活的方方面面,南京公安“微警务”巧用“互联网+”,将老百姓日常“最关心、最直接、最贴心”的26项公安服务功能,搬到了“掌上”。
据悉,江苏省南京公安“微警务”不仅可以为老百姓办理新生婴儿出生登记、居住证、户口迁移,而且还可提供一键报警、在线办理签证、会见预约律师、养犬登记等26项服务。“微警务”也因此化身“手机里的派出所”“移动化的报警台”“网络里的签注官”“E 时代的看守所”。值得一提的是,“微警务”也还是“指尖上的交警队”。打开“微服务”,轻微交通事故快处、违法曝光处理、6年年检标志申领、驾驶人记分学习、驾驶证期满换证、证件号牌补换、联系方式变更和驾驶人模拟考试等13类服务映入眼帘。许多业务都不需要到现场排队办理,在线办理,省时省力。
目前南京公安“微警务”在交管、出入境等业务模块还开通“微支付”功能,实现了网上缴费,微端完成订单式的全流程办理。“微警务”还将互联网大数据应用与公安警务改革深度融合,把与群众生活紧密相关的公安内外部资源进行充分整合,通过数据的规范接入和统一标准,最大程度地实现了公安业务与政府多部门数据的一网融合共享。相关负责人表示,南京公安“微警务”依托微信公众平台,引入图文短讯、视频直播等多种新媒体传播模式,展现公安好声音、彰显警察好形象,不断拉近警民关系。同时主动将社会创新引入公安改革,鼓励有资质的合作企业加盟入驻开放平台,创新研发“群众需求、公安需要”的新应用、新产品,大力推行“微警务”建设供给侧改革。
1.对公安大数据的重大理论问题缺乏系统研究,基本概念和问题认识不清。例如,对什么是公安大数据、怎样建设、如何充分发挥作用等基础问题还未研究清楚。对公安大数据的理解犹如盲人摸象,各有各的看法,甚至有错误的认识,这对公安大数据建设产生了负面影响。
2.公安大数据缺少明确的战略目标和清晰的发展理念。各地公安机关都认识到大数据的重要性,但全国公安大数据建设具体如何布局和定位还不统一,更没有具体的实施路线图。大数据建设呈现出了一定程度的盲目性,亟待更新发展理念和数据治理、业务处理、协作协同和管理决策的模式和方法。
3.低水平重复建设,无法持续优化。对各地公安机关开展的大数据建设案例与实践经验缺少系统性总结和提炼,对实践中出现的问题没有深入开展研究,各地大数据建设容易在低水平重复。而全国公安大数据建设不能在数据总量、存储能力和处理能力等方面形成整体合力,建设模式无法持续优化,无法形成规模效应。
1.数据壁垒导致的“信息孤岛”现象仍然存在。目前,公安信息网、涉密网、视频专网等多种网络之间仍然存在数据共享不充分和业务流程衔接不畅的现象;反电信网络诈骗、NGO 管理等新建专题业务系统也仍然存在只注重利用系统外部数据资源,而以涉密或业务程序等借口而回避自身数据资源和业务接口的对外开放和共享问题,形成了新的“单向信息孤岛”。同时,大量数据分散在不同的业务部门,无法有效共享,形成了极大浪费。这当中,既有利益格局造成的人为壁垒,也有数据安全问题带来的安全壁垒,还有技术障碍带来的技术壁垒等,需要认真研究,加以破解。
2.公安机关外部数据资源汇聚融合不充分,存在接入目标不明确、可实施性较差等问题。然而各地开展的警务云、大数据工程都强调外部数据资源接入的重要性,但对于需要接入哪些外部数据资源、接入后如何应用、服务哪些目标并不十分清楚,从而导致了外部数据资源接入混乱、数据资源管理成本和处理技术难度增加等问题,数据应用成效无法彰显。
3.各地公安机关数据中心建设是“集中化”而非“集约化”。虽然各地公安机关纷纷建立以云计算技术为支撑的数据中心,但实际上是各自为战,在技术上采用阿里、腾讯、华为等不同厂商的技术解决方案,互通性存在较大问题,在数据信息管理上也没有实现真正的统一,无法做到资源的统一调度,达不到集约管理、高效运用的目标。
目前的公安大数据运用,还没有按照大数据的内在要求结合公安的特点进行改造和创新,一些所谓的技术创新缺乏针对性,往往只是把系统创新和技术创新生硬地嫁接到传统业务上。以至前端信息采集、查询对比和后台数据支撑与推送服务,以及相应的实战指导都跟不上基层需求发展,基层大数据实践中出现了业务与技术两张皮现象。这就造成民警既要用传统的老方法,又要用系统的新方法来开展工作,费时费力,效用叠减。然而基层民警应用能力普遍不足,同时也是影响数据效用发挥的重要因素。
各地方大数据建设的组织机构力量薄弱,组织乏力,既缺乏业务专家,又缺乏技术专家,很难体现出权威性,难以形成推动大数据警务建设的整体合力。部分公安机关虽然在文件上有统筹引领的规划内容,但运行机制缺乏协同性。引领作用无法充分发挥,统筹引领在实际工作中缺少有力抓手,没有把平台建设、数据整合、统一标准放在优先建设的地位并贯彻执行。
Palantir 在洛杉矶警局通过技术与业务的深入交流与合作,采用的是Palantir的Gotham平台,构建了一套洛杉矶警局的语义知识搜索挖掘平台,用于日常的警方业务工作中。该平台全面整合警情日志文档、电子表格数据、数据库等结构化数据和图片、录像等非结构化数据,对各类多源异构,繁杂的信息进行清洗梳理,总结提炼为八个关键的信息实体:人、车、位置、罪案、逮捕、文件、备注与其他。实体本身还有不同的属性,不同个体之间还存在相应关联。Palantir 公安大数据语义知识搜索平台建立以后,警方就可以通过非常简洁的前端搜索页面,来搜索指定的各类实体与线索。
Palantir 的搜索结果与百度、谷歌等通用搜索引擎完全不一样,并不完全基于关键词,而是探索搜索背后的关联关系。通过Palantir 平台,可以快速将各类庞杂的数据通过可视化平台的形式汇聚到一起,最终我们发现案犯综合立体化视图,其中包括:使用的手机,入境记录,逮捕时开的车,逮捕的案子,同时涉嫌一起盗窃案,包括已有的两次审讯记录。点击任何一个节点,右边会展示其详细的属性与其他实体的关联关系。例如,点击嫌疑车辆,可以展示出该车的历史所有被抓拍的照片与数据。办案人员同时可以根据关联连接一层一层往下挖,并人机互动,补充各种筛选条件,将模糊的破案线索逐步求精,最后极大的提高破案准确性与效率。
大数据的实质是对数据的管理与开发利用,与当前以信息资源开发为核心的公安工作具有广泛的共通性。如何借助大数据技术推动公安工作的发展和变革,技术选型非常重要。在各个企业和组织纷纷助推下,大数据领域的相关技术呈现百花齐放局面,涵盖数据收集、存储、计算、挖掘、资源调度等,下面就以最核心的计算层和存储层两个维度介绍下有关技术路线和发展趋势。
1.数据处理。简而言之,不管对何种应用,当数据量很大时就无法在一台服务器上解决计算问题,此时分布式计算优势就体现出来,而Hadoop MapReduce 的重要创新便是当处理一个大数据集时会将其任务分解并在运行的多个节点中处理,这种批处理框架常用于离线的复杂的非结构化数据处理,如ETL、数据挖掘等场景;与Hadoop 的使用硬盘来存储数据不同,Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合;而Storm 则是专门针对实时数据类型的流式计算分析框架,应用在低延迟的场景中,实现海量事件的实时分析、处理和决策。除此之外,为应对不断增长的海量结构化数据的存储和快速处理以及灵活的业务建模需求,数据库系统必将引入分布式架构、MPP处理技术。
2.数据存储。上面提到了MapReduce 将任务分发到多个服务器上处理大数据的能力。而对于分布式计算,每个服务器必须具备对数据的访问能力,这就是HDFS所起到的作用,HDFS 有着高容错性、高吞吐量的特点,适合大数据集的应用。与此同时,业内也有很多其他范例的文件系统推出,不但能解决了传统存储体系结构存在的困难,又能提升存储利用率和数据读写机能,可以替换HDFS作为Hadoop架构的底层文件系统/数据存储。不同的技术思路各有偏重,由于公安业务种类繁多,大数据应用场景多样化,除了建立各类基础大数据资源库之外,还需要做到事前预测警务研判、事中实时情报分析及事后案事件分析,及可视化查询统计等,建议公安用户基于智能融合的大数据架构构建上层应用,积极引入大数据领域的先进技术,推动公安工作迈入大数据发展阶段。
大数据是信息化发展的新阶段,全国公安机关应充分利用大数据技术,强化警务流程再造。实现数据流、业务流、技术流、管理流有机融合,积极构建大数据支撑,精准化应用的警务实战新机制。具体应在以下几方面着力:
1.以实战为导向,围绕公安工作需要,明确人才梯队规模和层次,编制人才发展规划。应涵盖规划、建设、运维、应用等领域,应包括通识人才、应用技能人才、技术人才和专家人才等各个层次。借鉴互联网众筹、众包等方式,解决公安实战中的数据共享、模型算法和战法应用等典型问题,充分发挥人才的网络化规模应用效应,使人才“不为所有、但为所用”。
2.创新公安大数据人才选拔和使用机制。善用竞争性机制,通过开展创新大赛和技能竞赛等活动选拔特殊人才,建立相关人才库;善于利用大数据环境,创新使用和评价机制,创建人才协同协作平台。
3.依托公安院校,积极构建实战导向的人才培养体系。应构建大数据思维通识教育课程和教材,利用网上、网下等方式面向全警开展教育培训,普及大数据知识,提高全警整体认知和应用水平;要针对急缺或者热点大数据应用方向,开设短期技能培训班,学习大数据技术的新方向、新技能和新成果;在公安院校开设大数据相关专业,培养复合型应用技术人才,尤其应尽快开展大数据技术方向的警务硕士教育,培养公安大数据高级创新人才。利用智能技术驱动大数据挖掘分析,实现智能化高端应用,推进智慧公安建设。
大数据时代,数据已成为战略资产,但数据自身不会自动产生价值,只有将算法和计算能力结合才能充分挖掘数据价值并发挥效用。智能算法是海量数据发挥效用的直接驱动力,人工智能更是大数据发展的创新引擎。同时推进大数据与人工智能、云计算等技术的有机结合,利用智能技术驱动大数据挖掘分析,实现智能化高端应用。
4.提高数据深度开发能力,服务实战。应利用知识图谱技术,构建全国实体及实体关系库,突破数据整合难题。建设公安知识图谱,通过对公安结构化信息和非结构化信息数据关系挖掘。
通过数据分析、文本语义分析等,抽取出人、物、地、组织等实体,并根据实体的属性联系、时空联系、语义联系、特征联系等建立相互的关系,构建一张具有公安特性的多维多层的实体与实体、实体与事件的关系网络。
5.构建全国公安大数据机器学习平台并开展智能化应用。构建物理分布逻辑统一的全国公安共性大数据机器学习平台,开展大规模协同协作的知识资源管理与开放式共享,并针对重点领域开展大数据智能化应用:在户籍、出入境、交管等民生服务领域开展自主无人智能系统的警务应用;在反恐处突、侦查破案和指挥调度等领域开展基于人工智能的预测、预警、预防、动态管控和精确打击等应用。
6.对公安大数据的智慧应用进行总体规划,编制实施路线图并分步启动。建议将规划命名为“机器警察”系列规划,对智能化应用总体布局,对技术路线、平台建设、主体责任和配套机制进行系统规划设计。按照实战需求和技术成熟度,率先启动“安防警察”计划,依托公安院所,通过公安大数据和安防大数据,实现规模化深度学习,培育机器智能。通过“互利网+安防服务”的方式,提供“安防警察”问答机器人。这样可以全时空为人民群众提供基于人工智能的安全咨询、安全预警信息和社会安全指数预报等公安安全服务内容,满足新时代人民群众对公共安全的新需求。