□李丹
浅谈对历史频谱数据的数据挖掘
□李丹
本文主要探讨了如何利用数据挖掘技术来实现对频谱资源的直观展示和深入探索,进而对我国目前的频谱资源管理提供有价值的信息和解决方案。
频谱资源;数据挖掘;大数据
(一)大数据的定义
关于大数据的确切定义,目前尚无获得统一公认的说法。IBM用4V特性来描述大数据所拥有的特点:巨大的数据量(Volume);高速率(Velocity),体现了大数据产生效率的实时性;多结构化数据(Variety),则从数据类型的角度体现了大数据的多元化,除了传统的文本数据外,图片、影视频数据也成为现阶段大数据技术的热门存储对象;价值密度低(Value),意味着要从低价值的原始海量数据中进行深度挖掘和计算,总结出具备高价值的数据。
(二)基于大数据的数据挖掘技术
数据挖掘的目的是从大数据中获得知识,很多时候数据挖掘也被称为KDD,即数据库中的知识发现。显然,一个数据挖掘项目所需要的知识涉及到各个层面:决策层面需要知道数据挖掘能干什么;设计层面需要掌握行业相关知识和数据挖掘相关知识;技术层面需要高等数学、概率学、统计学、数据库原理、分布计算、编程语言、具体算法原理等知识;应用层面则要知道数据挖掘怎样结合行业领域的需求,以及如何应用数据挖掘的结果来解决问题等等。许多软件公司及开源机构为了处理海量的信息,并对数据挖掘算法进行普及,开发了众多数据挖掘工具软件,而Hadoop生态圈则是目前主流的分布式海量数据挖掘平台。
(一)频谱资源和频谱资源管理
无线电频谱是一种非常宝贵且有限的自然资源,是属于国家的重要战略性资源。近年来,无线电频谱需求不断增加,频率冲突越来越严峻,给频谱资源的监测和管理带来了新的困难与挑战,对无线电频谱的监测与管理是有效使用无线电资源的前提,因此,如何开展对信道和频段使用情况的有效监测,记录全频段和全时段内所有信号的基础数据,掌握用频变化,评估信道占用度和利用率,把握频谱的整体使用情况,提高频谱感知与管理能力成为亟需解决的问题。
频谱资源管理是指对无线电频谱资源的使用进行规划与控制的活动,而无线电频率管理是无线电频谱管理的核心。为了对频谱资源进行合理的管理,我们不但必须掌握现阶段的用频情况,也需要对以往的频谱数据进行分析,掌握一段时期内的用频变化,以此来对下个阶段的无线电频率划分进行决策。
汉日IT新词的词义表达,符合语言修辞理论中的明晰性原则(clarity principle)(leech 1983:67)。每个词汇除了语音结构和语义之间维系一种透明、直接的关系外,在词义上也避免了歧义的出现。原因在于IT新词所表达的是前所未有的新概念和新事物,新词与新概念、新事物之间呈明确的对应关系,因此词义本身具有很强的明确性,很少有歧义发生的情况。
(二)历史频谱数据挖掘的过程模型
对于数据挖掘项目,首先要建立过程模型,这里运用美国SPSS公司提出的5A模型,即评价需求(Assess)、存取数据(Access)、完备分析(Analyze)、模型演示(Act)、结果展现(Automate),来对历史频谱数据挖掘进行过程分析。
1.评价需求
通过对海量历史频谱监测数据的深入挖掘与分析,采用形式多样、丰富的统计方法,我们可以以文本、图片等多种形式提供直观、有效、全面的历年频谱资源展示,从而为目前的频谱资源管理提供综合性决策依据。我台频谱负荷收测主要涉及中短波广播业务,故此项目主要针对中短波广播频段频谱数据进行数据挖掘。
2.存取数据
利用Hadoop数据挖掘构架实现海量数据的快速存取,主要包括大规模数据分析工具Pig、数据仓库工具Hive、分布式编程框架MapReduce、数据状态存储HCatalog、分布式数据库Hbase以及分布式文件系统HDFS等。
3.对历史频谱数据的分析
(1)频谱占用度分析
频谱占用度分析是频谱分析的一种主要方法,通过对频谱的统计计算,能知晓一定频段和时间范围(一般是一个频谱收测周期)内广播全频段的频谱占用情况,从而能够帮助我们在横向(同一年相比较)、纵向(在时间跨度上相比较)上了解收测点附近(上海宝山地区)近60年的频谱占用度变化情况。一般以柱状图显示一定频段和时间范围内的频谱占用情况,占用度高低由不同颜色加以区分,频道带宽可设定,占用度可在时间和频段两个不同维度进行统计。
(2)已知电台分析
已知电台分析是以已知晓的各国际国内电台作为分类,在横向、纵向上对该台在我收测点附近的、可收测到的播音情况进行统计分析。通过电台分析,可以得知某一电台的播音总体变化,包括用频变化(点阵图或柱状图显示)、历年频时数变化(折线图显示)等。同时,按照国家、地区、使用语言(节目内容)等对电台进行分类。建立数据字典,将某一台曾使用过的台名、归属、发射地进行统一录入,方便在统计分析数据时保持完整性。
(3)使用语言分析
使用语言分析是对已知电台所播的语言种类进行统计分析。通过对各台各频率使用语言的统计筛选,可以对以我国为主要播向区的电台频率做进一步分析,包括用频变化(点阵图或柱状图显示)、频时总数变化(折线图显示)、发射方向图展示等,对我们把握此类电台频率的整体变化趋势有着重要的作用。
(4)未知电台、语言分析
我台的历年频谱数据中,包含一部分未知电台以及未知语言的频率。这一部分频率在频谱负荷表中以“?”表示,大多是能够收听到播音但无法通过播音内容或国际资料确定电台归属或播音语言的频率。对该类频率,可以通过对已知电台频率的数据分析,判断其可能的归属及播音语言。
4.频谱资源挖掘模型
数据挖掘的任务模式按照功能类型可以分成描述型和预测型两类,描述型任务一般用来刻画数据的常用特征,预测型任务则通过分析目标对象的模式和规律,对未来趋势做出合理判断。在频谱数据任务中,对历史频谱数据的分析可以归为描述型,而通过对未来频谱资源分配走向的分析则应归为预测型。
将任务进行分类后,需要将各个任务归纳入某一模型类型中。数据挖掘模型可以概括为二大类:聚类、分类、关联。聚类分析旨在发现不同簇间的差异性;分类是将历史数据按照用户的需求进行区分;关联分析则是重在挖掘两个不同关键词的内在共性。对历史频谱数据的数据挖掘可以归为分类模型。
5.数据结果可视化展现
项目最终能够通过快捷全面的前端展示平台,快速显示历史频谱数据挖掘结果以及对未来各电台频率变化走势的分析结果,让数据以更为灵活、直观、可视化的方式表达出来。展示平台主要应能实现:3D频谱、频谱数据地域性展示,统计数据多样化展示等。
无线广播频谱监测与管理系统通过对大量实测数据的分析,能够直观地向用户展示各项历史数据、频谱占用情况、非法电台等大数据背后的信息,对频谱资源的分析、合理利用,正是我们搭建无线广播频谱监测与管理系统的最终目标。而如何在庞大的数据中更高效地进行对数据的甄别、挖掘,从而向用户提出有用、合理的频谱资源问题的解决方案,是我们亟待解决的问题。
1.周鸿顺.频谱监测手册[M].北京:人民邮电出版社, 2006.
2.张俊林.大数据日知录:架构与算法[M].北京:电子工业出版社,2014.
3.黄标,李景春,谭海峰.认知无线电及频谱管理[M].北京:人民邮电出版社,2014.
4.[加]洪松林,[中]庄映辉,李堃.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.
(作者单位:国家新闻出版广电总局五五三台)