朱宏列 戚欣
摘 要: 利用数据挖掘技术能够从智慧城市建设产生的海量数据中挖掘出有价值的信息,有效地推动智慧城市的建设和发展。文章主要论述了数据挖掘技术的基本概念和技术分类,介绍和分析了数据挖掘技术在智慧城市建设中城市规划、气象预警、交通、电网的应用。
关键词: 数据挖掘; 智慧城市; 城市规划; 应用
中图分类号:TP399 文献标识码:A 文章编号:1006-8228(2020)10-40-03
Abstract: The application of data mining technology can tap valuable information from the massive data generated in the construction of smart city, and effectively promote the construction and development of smart city. This paper discusses the basic concept and technical classification of data mining technology, introduces and analyzes the application of data mining technology in urban planning, meteorological early warning, transportation and power grid in the construction of smart city.
Key words: data mining; smart city; urban planning; application
0 引言
目前,城市越来越倾向于使用专门技术来解决社会、生态等问题,而随着物联网技术和大数据兴起,促使智能建筑、智慧小区、智慧城市等新概念被提出。智慧城市利用信息和通信技术将经济、文化、交通、娱乐等方面都与数字信息紧密的联合在一起,城市数据的激增为城市的设计和管理带来了新的可能性,而通过数据挖掘技术处理大数据,可以极大地促进城市结构、可持续性和宜居性方面的发展。
1 数据挖掘的概念与技术
数据挖掘是从大型数据库中抽取出未知的、有意义的关系、趋势、和模式的过程,是数据库研究中具有重要价值的研究领域,其广泛应用在金融、医疗、电信、人工智能等领域[1]。
数据挖掘技术主要涉及关联规则、分类、聚类、偏差、序列模式等。
⑴ 关联规则:关联规则是目前数据挖掘应用中运用最广泛的方法,主要是描述数据库中两个或多个对象之间存在的某种联系[2]。
⑵ 分类:分类是根据数据集的特性构造分类器,将样本对象划分到给定类别之中的方法。该过程分为两步,构造分类器和利用分类器对数据进行分类。分类是一种有监督学习,在分类之前就已经确定了划分的类别。
⑶ 聚类:聚类是将大量数据分成若干组或簇,使得每个类之间的相似性最小,每个类中的数据相似性最大。聚类是一种非监督学习,要划分的类别是未知的。
⑷ 偏差:在海量数据中会出现个别数据与其他数据之间存在很大误差,这类数据在处理时往往被舍弃,但是误差数据在某些特定问题分析上具有重要作用,被广泛应用到金融市场风险预测。
⑸ 序列模式:序列是描述数据库中数据项之间存在的时间规律或者其他关系。序列模式与关联规则相比较,其重点考虑数据之间的时序关系。序列模式广泛应用在DNA序列分析,Web日志序列模式挖掘,自然灾害预测等。
2 数据挖掘在智慧城市中的应用
2.1 城市规划
城市规划是智慧城市建设、管理与发展的重要依据,而智慧城市是一个多元化空间结构,故在构建城市结构、功能区域划分时,应当注重以人为本和环境保护,以建设服务型城市为根本。但是目前城市规划面临着老工业区迁入和划分、商业区与居住区的功能升级、城中村改造等问题[3]。基于智慧城市的大数据,数据挖掘技术可以从中挖掘出城市变化规律与人们的生活规律、市场变化等,这对城市规划起着重要作用。
针对城市建设规划问题,谢榕[4]提出基于数据仓库的城市规划决策支持系统的基本框架,为规划部门提供全局范围战略决策和有效分析提供支持。
在功能区识别方面,韩昊英等[5]以数据挖掘技术构建了城市功能区识别模型,利用北京市公交刷卡數据,实现对其功能区的快速识别,对把握城市结构和规划具有时间价值。
陈世莉等[6]利用时空语义挖掘方法对广州市6个区的GPS以及兴趣点数据进行挖掘并建立狄利克雷模型,为研究人类活动对城市建设的影响提供新的视角。
2.2 气象环境预警
近年来,我国极端天气频发,暴雨、暴雪、高温、大风、冰雹等天气都会对城市基础服务设施以及建筑造成严重破坏,经济损失极大,所以提高气象环境预警的准确性成为智慧城市建设的重点。气象数据庞大,蕴含大量气象规律,传统预警方法在处理气象数据上显得力不从心,而基于数据挖掘技术的气象环境预警,大大提高了气象灾害预警时效性。
Bartok等[7]介绍了数据挖掘对预测大雾和低云量的参数化模型以及运行预测模型、训练模型和挖掘数据所需的分布式气象数据的集成方法,能够高效预测天气变化。
Vathsala等[8]选取36个变量作为印度夏季风降水的可能预测因子,将关联规则挖掘应用于36个变量的属性选择,对印度地区、中西部地区和半岛地区的降水进行预测,具有较好的效果。在文献[9]中,Vathsala又提出了一种数据挖掘与统计技术相结合的算法,利用关联规则选择预测器,然后对预测器进行聚类,利用印度热带气象研究所的数据,验证了该方法的精准度。
2.3 智慧交通
近年来,城市人口不断增加,城市交通压力也随之增加,随着城市经济的不断发展,城市居民对于出行体验也越来越重视。智慧交通是以GPS数据、客流数据、视频监控数据为基础,充分利用信息技术、传感技术、物联网技术等实现对交通管理、交通监控的应用,而智慧交通的引用成为减缓交通压力的重要措施,也使得智慧交通成为智慧城市建设的重要部分。但是智慧交通中的数据越来越庞大,面对交通管理中产生的海量数据,传统技术已无法从中获得有利信息,因此数据挖掘技术可以更好地应用到智慧交通中来。
在智能交通系统(ITS)中,张汝华等[10]提出将信息融合与数据挖掘技术集成到系统中,以优化系统结构与数据处理能力,为交通系统运行提供决策支持。
Sinha等[11]提出了一种新的路径选择方法,利用网络模型和无监督机器学习来对现有的路径规划算法进行改进,利用网络和支持向量机,为每个分区网格生成路由表,并确定有效的导航路径。
Madani等[12]提出了一种识别感兴趣区域的新算法,通过实验证明该算法能够抵抗各种相机分辨率、交通量、光照条件、相机抖动等情况,并简化大规模开放式摄像机交通视频挖掘任务的整体设计。
2.4 智慧电网
近年来,随着绿色能源、节能减排、可持续发展等理念的提出,我国开始关注能源问题,将信息技术和通信技术应用到电网建设中以优化能源效率成为一大热点。智能电网作为一种现代化的输电网络,运用挖掘技术发现可用信息来调整电力生产和分配、优化电力系统的管理成为一种需求。
牛东晓等[13]针对负荷数据预处理提出基于模糊分类器和灰色关联分析的数据挖掘技术,再由SVM预测系统对短期负荷进行预测,有效提高了预测精度。
Saleh等[14]提出一种基于数据挖掘技术的负荷预测策略,采用基于距离的异常值抑制、混合特征选择以及结合NB和KNN算法的负载估计方法,有效提高了电力负荷预测的精度、灵敏度、准确性等。
3 结束语
就目前的情况来看,大数据已经成为了智慧城市建设的重要依托,数据挖掘技术成为智慧城市规划与建设的重要技术手段。现阶段智慧城市建设被广泛关注,其面临诸多问题如数据海量化、碎片化、种类多,如何在不同问题上选择并优化挖掘算法是目前的研究重点,未来应研究城市智能一体化框架,将多方面城市建设汇集在一个平台上实现数据共享,并坚持“以人为本”的思想,保证数据隐私安全,切实提高智慧城市的服务质量。
参考文献(References):
[1] 王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004.32(2):246-252
[2] Tan PN, Steinbach M, Kumar V. 数据挖掘导论[M].人民邮电出版社,2011.
[3] 牟乃夏,张恒才,陈洁等.轨迹数据挖掘城市应用研究综述[J].地球信息科学学报,2015.17(10):1136-1142
[4] 谢榕.数据仓库及其在城市规划决策支持系统中的应用探讨[J].武汉测绘科技大学学报,2000.25(2): 172-177
[5] 韩昊英,于翔,龙瀛.基于北京公交刷卡数据和兴趣点的功能区识别[J].城市规划,2016.40(6):52-60
[6] 陈世莉,陶海燕,李旭亮等.基于潜在语义信息的城市功能区识别——广州市浮动车GPS时空数据挖掘[J].地理学报,2016.71(3):471-483
[7] Bartok J, Habala O, Bednar P, et al. Data Mining and Integration for Predicting Significant Meteorological Phenomena[J]. Procedia Computer Science,2010.1:37-46
[8] Vathsala H, Koolagudi SG. Closed Item-set Mining for Prediction of Indian Summer Monsoon Rainfall a Data Mining Model with Land and Ocean Variables as Predictors[J]. Procedia Computer Science,2015.54:271-280
[9] Vathsala H, Koolagudi SG. Prediction Model for Peninsular Indian Summer Monsoon Rainfall Using Data Mining and Statistical Approaches[J].Computers & Geosciences,2017.98:55-63
[10] 张汝华,杨晓光,严海.智能交通信息特征分析与处理系统设计[J].交通运输系统工程与信息,2003.3(4):27-33
[11] Sinha S, Nirala MK, Ghosh S, et al. Hybrid Path Planner for Efficient Navigation in Urban Road Networks Through Analysis of Trajectory Traces[C]//2018 24th International Conference on Pattern Recognition (icpr), Piscataway: Ieee,2018: 3250-3255
[12] Madani A, Kumar S, Nguyen LB, et al. A Robust Road Region of Interest Identification Scheme for Traffic-video Data Mining[C]//2019 International Conference on Computing,Networking and Communications (icnc), Piscataway: Ieee,2019: 905-910
[13] 牛東晓,谷志红,邢棉等.基于数据挖掘的SVM短期负荷预测方法研究[J].中国电机工程学报,2006.26(18):6-12
[14] Saleh AI, Rabie AH, Abo-al-ez KM. A Data Mining Based Load Forecasting Strategy for Smart Electrical Grids[J].Advanced Engineering Informatics,2016.30(3):422-448