文/邢德奇 康乐
大数据技术在北斗用户管理系统的现状分析
文/邢德奇 康乐
本文分析了北斗用户管理系统数据工作存在的问题,根据大数据的发展现状与趋势,提出了北斗用户管理系统对大数据技术的新需求,简要介绍了大数据存储管理、大数据并行计算和大数据分析等大数据关键技术,并针对北斗用户管理系统实际大数据需求提出了未来大数据应用的建议。
大数据 北斗用户管理 存储管理并行计算
大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到2000年前后。伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对现有的大数据处理体系进行扩展,使之能在更多的场景下使用。
大数据是新资源、新工具和新应用的综合体,具体是指随着信息存储量的增多,通过数据的开放、整合和分析,发现新的知识、创造新的价值,从而为社会带来“大科技”、“大利润”、“大智能”和“大发展”的新机遇,其具有Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)和Veracity(真实性)5V特征。
随着北斗用户管理系统数据的飞速增长和数据类型的日益多样化,为了适应大数据时代的潮流,更好得将数据服务于用户,北斗用户管理系统大数据工作应满足以下需求:
北斗用户管理系统多种类结构化和非结构化海量数据的集中采集、保存与维护管理,构建大数据存储网络,建立大数据集中管理平台,保证数据的“质”和“量”。
面向用户需求,开展北斗用户管理系统大数据的集中处理分析方法研究和深层次分析挖掘技术研究,用以支撑故障诊断、性能调优、科学研究与辅助决策。
北斗用户管理系统大数据的对外共享开放服务,为各类用户提供开放的数据。
北斗用户管理系统各部门的数据管理维护全部分离,通过各自的数据管理系统独占数据资源,各部门之间数据交换主要依靠光盘传输,未实现真正意义上的数据集中统一管理和共享开放,集中处理计算和联合分析更是无从谈起。
存储架构采用传统的NAS+SAN结构,存储和计算的物理设备分离,不适应大数据的密集型计算,易出现I/O瓶颈现象。数据存储仅依靠数据库入库软件和文件存储,低效,无法适应大数据海量存储的要求。
长期归档备份的数据文件首先要经过长时间的解压缩过程才能筛取获得,短期数据库数据与长期归档备份文件数据的联合使用完全靠人工实现。
目前的数据分析主要以系统需求为目标,为了系统的联调联试以及稳定运行,做了大量的数据分析,但缺乏面向用户需求的数据分析,需要开展专题研究用户对北斗用户管理系统数据的需求。
数据分析缺少统筹规划,首先分析数据“散”,运控系统超过一定时限的历史数据大都以离线方式保存,无法支持长期数据的关联分析和深度挖掘;其次分析行为“散”,缺乏先进技术手段以支持运控海量数据的集中分析处理,缺乏数据智能自动化分析方法,大量数据仅仅是被动地等待用户,而不是主动综合分析,无法产生更大的效用。
数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。大数据存储管理技术主要采用分布式架构的分布式文件系统HDFS(Hadoop Distributed File System),将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约。
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。与传统“数据简单、算法复杂”的高性能计算不同,大数据的计算是数据密集型计算,对计算单元和存储单元间的数据吞吐率要求极高,对性价比和扩展性的要求也非常高。传统依赖大型机和小型机的并行计算系统不仅成本高,数据吞吐量也难以满足大数据要求,同时靠提升单机CPU性能、增加内存、扩展磁盘等实现性能提升的纵向扩展(Scale Up)的方式也难以支撑平滑扩容,需要研究适应大数据计算的分布式并行计算技术。
目前的大数据分析主要有两条技术路线,一是凭借先验知识人工建立数学模型来分析数据,二是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。
针对目前各种分离管理的北斗用户管理结构化和非结构化数据,结合大数据管理技术,建立大数据采集网络,采用分布式管理的方式管理错综复杂的海量数据,实现北斗用户管理系统大数据的采集、保存、维护、分析、共享与集中管理。
研究调研北斗用户管理系统和用户需求,开展面向系统和用户的分析研究工作,实现北斗用户管理系统大数据的集中处理计算和深层次分析挖掘,用以支撑故障诊断、科学研究与辅助决策。
通过大数据共享平台的建立,实现北斗用户管理系统大数据的对外共享开放服务;通过标准化的数据接口完成信息的交换与整合。
[1]舒文琼.数据量爆发式增长物联网引入大数据技术迫在眉睫[J].通信世界,2013(12).
[2]谭琳.大数据技术初探[J].科技创新导报,2014(04).
[3]熊定鸿.Hadoop平台下的分布式SVM算法及其应用研究[D].西南交通大学,2016.
[4]赵琳琳.云存储模拟器及资源管理策略研究[D].华南理工大学,2014.
作者单位 中国电子科学研究院 北京市 100041