王立河,陈伟,谷国栋
(深圳市赛为智能股份有限公司大数据研究院)
坐落于湘西的苗族城市的吉首市,在社会、经济及民生等各项事业飞速发展的同时,由于其基础设施落后、管理手段单一、经验方法欠缺等问题,制约着城市化步伐的进一步发展。“智慧城市”是运用先进的信息技术手段来实现城市的智能化管理,解决城市发展道路上的难题,从而促进城市和谐、可持续发展。而“智慧吉首”项目正是在“智慧城市”概念基础上,通过考察调研国内外智慧城市实践结果,结合自身区域、经济及文化等特点,综合研究制定的PPP(政府和社会资本合作)模式项目建设方案。
“智慧吉首”大数据分析平台通过大数据、云计算等信息化手段,搭建起具有预测分析功能的数据共享分析平台,串联各类政务信息平台与各城市应用系统之间的联系,实现政务部门之间的数据共享,为各类智慧型城市应用提供公共数据资源、时空信息承载和决策支持等服务[1]。
大数据分析平台集数据计算、分析和应用功能为一体,是智慧城市能够实现“智慧型”管理的核心和关键。平台对下可对接相关部门智慧应用子系统,实现业务数据的集中和整合,以此为政务部门、企业、社会公众提供可靠的大数据计算及云存储服务;对上可依靠统一的接口为各智慧应用系统提供数据支撑服务,实现智慧应用运营质量与管理能力的提高[2]。
整个大数据分析平台主要由数据来源层、数据采集层、数据存储层、数据分析层及数据应用层组成。数据来源层,主要为交通、旅游、社区等公共服务类应用批量采集的结构化数据,以及互联网行为日志中实时采集的半结构化和非结构化数据。数据采集层,根据数据类型及应用差异,采用多种数据处理工具混合抽取的方式,完成数据的导入工作[3]。数据存储层,使用混合架构的大数据存储处理技术,即MPP(大规模并行处理)分布式数据库与Hadoop平台(一种分布式系统基础架构)相结合的数据处理模式,来满足各种数据类型的处理分析和建模需求。数据分析层,采用多种统计分析理论算法相结合的方式完成数据的挖掘分析,实现数据从“信息—知识—预测”形式转变的过程。数据应用层,由城市智慧应用子数据分析平台组成,包括智慧交通、智慧旅游、智慧社区、智慧停车及智慧医疗等,如图1所示。
图1 大数据分析平台整体架构
大数据分析平台的数据处理能力影响着城市管理者的最终决策结果,没有数据分析支持的决策将会越来越不可靠,而数据挖掘分析可以为用户带来更佳的决策服务,引领城市向着智能化的方向发展[4]。
Hadoop是云计算中较为重要的数据处理平台,通过在Docker虚拟化容器中布署Hadoop云资源服务平台,并向PaaS(平台即服务模式)提供基础资源隔离和标准化打包部署服务,实现Hadoop的构建与镜像发布,方便服务节点的添加和替换。通过Docker技术可实现底层网络资源、存储资源和计算资源的管理,并根据需求实现底层资源的动态分配,从而满足业务发展的需要和城市信息化应用平台的支撑需求。云服务资源平台向用户提供基础语言运行环境、存储计算等扩展服务,以及包括消息中间件、分布式缓存在内的通用基础服务。
大数据统计分析系统由多种数据分析算法组成,包括相关性分析、探索性分析、数据分布分析及统计分析等。
相关性分析,是对两个变量之间线性、非线性关系的描述,而变量间的相关程度则利用相关系数、皮尔逊相关系数、spearman相关系数等统计指标进行度量。探索性分析,通过原始数据分布情况,结合作图、方程拟合、特征量计算等统计建模手段实现数据结构分析和分布规律探索,完成包括频率、标准差在内的数据指标分析,探索数据是否存在异常、缺失、冗余等现象。数据分布分析,主要用来对定量数据和定性数据的分布特征和类型进行分析,并按照数据分布的测度类型划分为集中趋势测度、离散程度测度以及偏态与峰度测度。统计分析,包括描述统计和推断统计2个部分,描述统计通过计算数据走向趋势的外在性指标来反映事物数量上的差异与变化,推断统计通过对样本数据的计算处理来推断总体数据的特征和规律。
大数据平台监控系统通过采集系统日志文件挖掘分析其关联的规则。平台使用Beats(一种轻量级的数据采集工具)作为日志搜集器,将采集到的日志数据传送到Logstash(一种开源服务器端数据处理管道)解析处理,进而输出到Elasticsearch(一种开源搜索引擎服务器)存储集群,最终通过Kibana(一种开源的分析和可视化平台)工具实现行为数据的可视化呈现。
日志采集模块使用分布式Beats工具采集大数据平台各个服务器中的基础配置、网络信息和日志行为数据,并设置相应的采集规则完成数据的预处理服务。日志传输模块实现日志数据的解析处理,利用Logstash内置的正则表达式算法完成数据在字段、格式上的统一。日志存储模块将标准数据存储在Elasticsearch中,为数据展示分析模块提供的分布式全文搜索服务。日志展示分析模块利用Kibana实现以柱状图、热力图、线性图等形式的可视化数据展示与分析服务,并提供给用户查询、检索及地理位置分析等服务。
交通数据的分析及运行状况的掌控,对解决交通拥堵问题具有重要的决策支持意义,可以提升交通规划、建设、管理决策的科学水平。
通过科学有效的集成方法建立城市交通拥堵评价指标体系,完成包含道路交通运行指数、拥堵里程比例、拥堵持续时间、道路交通负荷度等在内的指标计算,从宏观、微观、定量及定性4个方面分析交通拥堵现象的时空分布特征,以及不同拥堵强度在时间、空间上的范围影响,实现整个城市道路综合交通网络的运行监控及决策分析。
景点安全是游客和旅游企业时刻关注的重要话题,而通过大数据智慧旅游分析系统完成旅游资源的采集、分析和整合,可实现服务资源的优化调配,在提升服务管理水准的同时,也为游客提供更好的安全服务保障。
游客分级预警模块通过园区景点布置的视频监控设备,实时统计当前监测点的游客流量,并以当前游客承载占比为基准划分流量等级,启动对应预警响应。旅行线路规划模块基于游客历史行为数据划分最佳线路推荐,并根据季节、地点、主题类型等形成不同的观赏路线供游客参考。游客推荐模块利用移动网络信令采集的方式,实时捕获景区覆盖区域的手机终端位置变更、开关机状态等信令事件,实现游客流量、景区热度等数据的统计分析。利用采集到的手机运营商归属地信息确定游客来源地,并结合用户年龄段等特征划分游客群体,实现有针对性的旅游产品介绍推荐服务。
舆情大数据分析系统通过对民众态度及网络动向信息的收集整理,实现用户真实倾向的挖掘,进而向管理者提供舆情搜索、统计分析及正负面监测服务,帮助政府实现城市品牌形象的维护与提升。
舆情分析处理包括舆情数据源确定、舆情信息获取、信息甄别、信息分类及舆情的最终确定。分析系统通过监测网络上社会媒体、自媒体对热点事件的曝光和评论确定舆情数据源,通过爬虫工具抓取舆情信息数据。舆情指标评价系统是甄别有价值信息的重要方式,通过建立传播力指数、影响力指数、舆情倾向指数等舆情二级监测指标体系,对获取的舆情信息进行量化统计和定性分析。舆情信息的情感分类利用机器学习算法来实现,通过提取舆情数据特征、标注情感语料、构建语料特征分类器等步骤,选择最优化模型算法完成舆情分类。根据分类结果形成正负面舆情趋势对比和传播平台分布图,并从传播源头及传播途径控制恶性舆情的进一步扩展。
此外,“智慧吉首”大数据分析平台还包括智慧园区、智慧医疗、智慧政务、智慧物流、智慧建筑等子数据分析子系统。各智慧应用子系统通过政务信息平台实现数据共享与服务功能整合,搭建起推进吉首市公共服务便捷化、基础设施智能化、城市管理精细化以及生活环境舒适化发展的信息化平台。