叶雯
摘 要:近年来,数据挖掘技术的研究与应用和大数据的研究与应用无疑将数据推向了更加核心的位置。文章结合数据挖掘技术与无线网络的现状进行剖析,对校园用户的无线轨迹大数据进行研究与分析,可对在校学生的学业生活行为做预警。
关键词:数据挖掘;轨迹大数据;无线网络
没有数据,一切无从谈起。大数据时代,方方面面的数据错综复杂、种类繁复,网络数据不可不谓是其中比较特殊的一种。网络数据既可以被记录、被修改,又可形成规律或轨迹,但想从变化万千的网络大数据中寻找到值得的信息或希望发现的规律,难度是非常大的。既不可能仅通过人力做筛选和甄别,也不可能完全依靠机器学习来实现某个特定的目标。目前这方面的研究较为浅显和稀少。
1 数据挖掘
数据挖掘是从大量不完全、有噪声、模糊、随机数据中作归纳推理,挖掘潜在模式,提取隐含知识[1]。
数据挖掘技术以传统数学(Traditional Mathematics)和统计学(Statistics)为基石,增加模式识别(Pattern Recognition)、机器学习(Machine Learning)、数理统计(Mathematical Statistics)、人工智能(Artificial Intelligence)等多种技术方法,运用流数据(Stream Data)和数据库(Data Base)实现工作机制。在计算机信息科学技术不断向前发展的各个阶段,还逐步地融汇了数据安全(Data Security)、数据结构算法(Data Structure Algorithm)、信息检索(Information Retrieval)、信号处理(Signal Procession)、信息论(Information Theory)等多种技术[2-6]。
大数据的研究和数据挖掘技术应用的关系是相辅相成的。在研究大数据过程中采用数据挖掘的方法是必须、也是最佳的途径,并且也只有借助相对成熟的数据挖掘技术才能实现大数据的研究。随着大数据的研究愈发深入,也势必会促进和完善数据挖掘技术的研究与应用。
2 轨迹大数据的特征及应用
轨迹大数据是大数据类库中一种较为有特点、非典型性的数据种类。轨迹大数据是随着卫星导航、无线通信、普适计算技术的不断发展,人们在使用带有定位功能的智能移动设备的同时,主动或被动地留下了移动轨迹数据,并被记录保存而形成了时空轨迹数据[7]。个人或群体的轨迹大数据包含了时间信息以及该段时间内个人或群体随着时间推移的位置变化信息,甚至包含个人或群体在该段时间内某个时间点的移动方向以及运动速度等信息。
大数据具有4个“V”[8]:数据规模(Volumes)巨大、数据种类(Variety)繁多且复杂、数据价值(Value)密度低和数据处理速度要求(Velocity)精而快(1秒定律)[9]。轨迹数据符合大数据量大、多样、实时的3个“V”特征,但轨迹大数据的采样受人或设备、采样方式方法、采样频率、数据存储方式等因素的影响,具有时空序列性、异频采样型和数据质量差等特性[10]。因此,轨迹大数据的采集、数据预处理与预处理数据的应用等过程都较为繁琐和复杂,每一步的精确性与精准性都将影响下一阶段数据运用与实现的效果。
大数据时代,对个人或群体的轨迹大数据分析,无疑对社会体系中各种社会问题的解决和推进都有重大的意义,比如高校环境下通过无线网络对学生移动终端的记录,可以有效地对学生的行为进行分析,做到有效、及时的学生分析、教务分析、消费分析、学工分析、网络分析、图书馆分析以及失联预警分析、网络预警分析和消费预警分析等。
3 无线网络发展
无线通信技术发展的势头甚至比计算机发展的鼎盛时期还要迅猛,计算机科学技术的发展也已经从网络时代逐步过渡到了无线互联时代。相较于台式电脑,甚至笔记本电脑,人们越来越更偏好轻巧便捷、体积较小、便于随身携带的移动终端设备,比如智能手机和平板电脑等电子产品。新兴的无线网络技术,例如WiFi,WiMax,ZigBee,Adhoc,BlueTooth和超宽带(Ultra Wide Band,UWB),在办公室、家庭、高校、工厂、公园、餐饮店、咖啡厅等大众生活的方方面面都得到了广泛应用。基于无线网络的定位技术在设备跟踪监控、社区安防、仓库货物监控、人员紧急救护等领域显示了广泛的应用前景[11]。如耳熟能详的支付宝、微信、云闪付、各大银行网银系统平台等消费支付手段,也涉及了社会生活的各行各业,如办公、购物、餐饮、文化、娱乐、休闲、交通等各个方面。无线网络可谓无处不在,也大大方便了人们的生活,提高了生活效率。“一部手机行天下”的生活已不是梦,现金支付方式,甚至现金,也离人们的生活愈發遥远,出行不再担忧没有现金、找不到ATM或者钱包被盗。很多人,尤其是年轻的受众群体,几乎不再依赖于现金支付的生活;付现找零的交易方式既易出现假币、找错钱等问题,也比较浪费时间,扫码支付大大节省了消费者的排队和付款时间,相应缓解了高峰期交通或运营排队通道的压力。
4 无线网络轨迹大数据研究
在高校校园中,也开始普及无线网络的应用,学生在教学楼、图书馆、食堂、宿舍等场所就能实现移动终端的无线网络连接,也自然而然会形成学生用户的轨迹数据信息。南京工程学院建成的大数据分析平台中的轨迹分析功能模块就是抓取学生用户的校园无线网络使用数据,进而查询到该学生用户的行为轨迹,如图1—4所示。
目前,基础无线网络数据的获取存在缺失与遗漏等问题,导致用户行为轨迹数据偏少。后期基础无线数据足够丰富的情况下,无疑可以形成较为完整的轨迹数据信息,并对学生用户的生活行为习惯做出合理的推测,将有效对学生的学业、成绩、出行等情况做出预警,大学生的在校安全又多了一份保障[12]。
5 结语
目前,基于大数据分析平台的校园无线网络数据还不尽完善,抓取到的学生上网信息比较杂乱,信息同步问题也还有待考量,因此会造成产生的轨迹数据可能存在纰漏、缺失或不严谨,对轨迹数据的预处理也是一个可能的研究问题。对轨迹数据中的错误和缺失,通常没有固定算法,很多预处理中的决定都依赖于分析人员的经验和对问题的理解。然而,对于大量的轨迹数据,人为一条轨迹一条轨迹地清理也是不现实的。因此,计算机的处理不可或缺,由此衍生出来的可视化分析结合了人的智慧和计算机的高效,应该很适合解决轨迹大数据的数据预处理问题。
[參考文献]
[1]李鸿,罗键.基于粗糙集的数据挖掘在无线网络入侵检测中的应用[J].现代计算机,2007(3):110-112.
[2]董雪.基于数据挖掘技术的校园无线网络优化[J].电子设计工程,2018(17):40-44.
[3]魏革.基于Web条件下数据挖掘算法与数据仓库的接口设计与实现[J].电脑知识与技术,2015(35):3-4.
[4]徐卓函.大数据时代人工智能的创新与发展研究[J].科技资讯,2015(33):30-31.
[5]白勇,罗文娟.论数据挖掘在高校图书馆用户管理中的应用[J].电子制作,2014(22):60.
[6]ZIAD S,THOMAS S,PHAM D.The efficiency of the RULES-4 classification learning algorithm in predicting the density of agents[J].Cogent Engineering,2014(1):986262.
[7]许佳捷,郑凯,池明旻,等.轨迹大数据:数据、应用与技术现状[J].通信学报,2015(12):97-105.
[8]刘鹏,吴兆峰,胡谷雨.大数据—正在发生的深刻变革[J].中兴通讯技术,2013(4):2-7.
[9]杨刚,杨凯.大数据关键处理技术综述[J].计算机与数字工程,2016(4):694-699.
[10]高强,张凤荔,王瑞锦,等.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017(4):959-992.
[11]唐炜,郑小林,干红华,等.基于运动估计的ZigBee无线网络定位方法[J].计算机工程,2010(20):256-258,261.
[12]王祖超,袁晓如.轨迹数据可视分析研究[J].计算机辅助设计与图形学学报,2015(1):9-25.
Research on the large-scale data of the wireless network
Ye Wen
(Network and Information Centre of Nanjing Institute of Technology, Nanjing 211167, China)
Abstract:In recent years, the research and application of data mining technology to the research and application of large data has no doubt pushed the data to the more core position. Based on the analysis of the data mining technology and the current situation of the wireless network, the paper studies and analyzes the large data of the wireless track of the campus users, and can prejudge the school life behavior of the students.
Key words:data mining; track big data; wireless network