朱家麒 徐亚军
摘要:政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验。本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法。首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过TF-IDF将处理后的政府文本信息转换成二维矩阵,然后在spark计算框架中使用K-means算计进行聚类。最后分别在单机和使用spark框架的分布式计算环境下进行测试,三组实验结果表明,使用spark分布式计算框架进行聚类有着更高的计算效率。
关键词:Spark;公文聚类;TF-IDF;K-means
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)01-0210-03
随着大数据、云计算之类的信息技术的发展,面对大数据带来的数据采集、数据融合、数据传输、数据处理、数据计算、数据存储等一系列问题,许多新的大数据计算框架和模型值得我们开发应用。同时随着大数据的深入应用,国家已发布多个文件要求强化数据资源规划,强化数据资源管理,推进数据资源应用。要求在2020年底前,建成覆盖全国的“互联网+政务服务”技术和服务体系。在“互联网+”的背景下,针对政府要业务数据等各类数据的管理需求,走向“数据治理”成为实现治理体系和治理能力现代化的必然要求。信息渠道的变革,数据汇集管理也需要吸收新的技术。政府公文作为政府数据的一部分,需要对其进行分类处理。正对着一部分本文考虑用spark计算框架下的聚类技术,实行大数据技术下政府公文的分类,提高政府公文的分类效率。
1相关理论以及技术
1.1Spark并行计算框架
Apache spark是一种快速的集群计算技术,专为快速计算而设计。它基于HadoopMapReduce,在MapReduce计算框架基础上进一步实现了分布式计算,以有效地将其应用于更多类型的计算,包括交互式查询和流处理。MapReduce是基于磁盘的运行模式,运算结果会暂存于磁盘上,增加内存消耗和数据传输所占用的磁盘I/O的成本,极大的影响总体计算效率。而Spark将中间处理数据存储在内存中,数据在内存中的处理速度至少是在磁盘中的10倍,通过这样的方式减少对磁盘读写操作的数量,增加总体计算效率。
Spark是Hadoop在2009年加州大学伯克利分校的MateiZa-haria的AMPLab開发的子项目之一。它是在2010年根据BSD许可开放。
与Hadoop不同的是,Spark采用弹性分布数据集(ResilientDisTributedDataset,RDD)实现了以操作本地集合的方式来操作分布式数据集,对集群上并行处理数据在内存上进行分布式抽象,并基于RDD迭代式计算。RDD是spark最核心的部分,RDD必须是可序列化的。RDD可以缓存到内存中,迭代计算的结果都可以放到内存中,下一个操作可以直接从缓存中输入,省去了MapReduce大量的磁盘I/O操作这对于迭代运算比较常见的机器学习算法来说效率提升较大。Spark并行计算框架如图1所示。
Spark的工作流程为:
(1)构建spark应用程序的运行环境(启动Spark Context),SparkContext向Yarn资源管理器注册并申请执行器资源;
(2)资源管理器分配执行器资源,执行器运行情况将随着心跳发送到资源管理器上;
(3)SparkContext构建成DAG图,将DAG图分解成阶,并将任务发送给任务分时管理器。执行器向Spark Context申请任务,任务分时管理器将任务发送给执行器的同时Spark Context将应用代码发送给执行器;
(4)任务在执行器上运行,运行完毕释放资源。
1.2聚类算法
聚类算法是把距离作为特征,通过自下而上的迭代方式,快速的将一群样本分成几各类别的算法。聚类算法大致分为基于层次和基于划分的两种聚类,本文用到的K-means算法则是基于划分的聚类算法。
K-means算法的步骤包括:
(1)数据集随机选取k个数据作为初始的聚类质心;
(2)计算剩余的样本到聚类质心的距离,并将其分配到距离最近的簇内;
(3)将每个簇的样本平均值作为簇的新聚类质心;
(4)判断样本的簇是否改变,若改变则返回(2)。
K-means算法的优点有:
(1)算法快速简单;
(2)对大数据集有着较高的效率并且可伸缩;
(3)时间复杂度呈线性,适合挖掘大规模数据集。
K-means算法的缺点有:
(1)在K-means算法中的K需要事先确定,K的确定非常难判断,需要用不同的方法找出合适的K值;
(2)K的选取极大地影响了聚类结果,如果初始值选取的不好,可能无法得到有效的聚类结果。
1.3文本表示
文本是一种无结构的数据,想要进行聚类,首先必须把文本表示成计算机能够识别和处理的形式。本文采用最常用的向量空间模型(vSM),向量的每一维都由特征项及其权重组成,特征项的权重用TF-IDF的方法来计算。
其中tfik表示项tk在文本Di中出现的次数,N表示全部训练集的文本数,nk表示训练文本中出现tk。的文本频率数。Z的取值要根据实际来确定,一般取0.01。
根据香农信息学理论,如果项在文本中出现的频率越高,则它包含的信息熵越少;如果项表现较为集中,只在少量文中中有着较高的出现频率,那它则有着更高的信息熵。
考虑到文本长度也对权重有影响,还应该将权重公式做归一化处理,将各权重规范到[0,1]之间:
TF-IDF公式虽然不是一个严谨的计算公式,它只是根据以往经验获得的一个经验公式,但是其在文本聚类处理方面的有效性值得我们拿来应用。
2实验及数据分析
2.1实验环境
实验平台配置为4个服务器节点,每个节点均为双核、4GB内存的PC;其中一台作为master,其他台作为slaves;每个节点操作系统均为CentOs;Hadoop版本为3.2.0,Java开发包为JDK1.8.0版本,Hadoop程序使用java编写;spark版本为2.4.4,scala版本为2.11.12,spark程序由scala编写。
政府公文数据采集自北京市政府网站。实验分别在单机和spark集群上分别测试。
2.2数据预处理
为了将待聚类文本成功输入到spark的文本聚类程序,常规的去停用词操作还不够,还需要编写格式处理程序,将待转换的文本集合所有内容写入一个忪t文件,每一行存储一篇公文的id,标题和正文内容。其中正文内容是经过分词和去停用词的词序列,词和词之间使用空格隔开。如图2所示:
2.3基于Spark的数据处理
基于sDark的K-means聚类实现步骤有:
(1)提交聚类任务给Master节点;
(2)Master用手肘法确定合适的K值,用作初始的聚类质心;
(3)Master计算数据节点到质心的距离,将数据节点划分到相应的质心;
(4)Master根据聚类质心个数将任务划分,并分配到每个slave节点;
(5)Slave计算节点到聚类质心的距离,将节点划分到相应的质心;
(6)Slave计算新质心的平均值,更行聚类质心;
(7)计算准则函数;
(8)判断聚类是否收敛,是则聚類成功,否则转到(5)继续执行。
2.4实验结果对比
本文爬取了三个政府网站的公文,并对这三组公文分别做了聚类实验,可以发现单机环境下聚类的耗时都远远大于在spark平台上聚类的耗时。由此可以看出spark平台上处理相同数量的文本比单机效率有着显著提高。
3结论
本文在spark平台上,通过实验验证了基于spark平台的K_means公文聚类,发现聚类算法在处理大量公文时效率相比单机有着较为显著的提升。