基于大数据的烟叶质量评估平台的设计与应用

2014-10-21 19:57高荣孙忱
计算机光盘软件与应用 2014年24期
关键词:大数据

高荣 孙忱

摘 要:烟叶质量受多种因素的影响,为实现烟叶质量分析、预测和预警的平台,设计并实现了基于大数据分析和云计算技术的Web大数据挖掘平台,通过采集抓取互联网上涵盖烟叶的整个种植周期的烟叶种植区气候、环境、土壤、病虫害等信息,辅以其他检测数据,利用大数据分析技术评估和预测烟叶的质量。应用效果表明,利用大数据算法对影响烟叶质量的互联网数据进行挖掘分析,不仅可以用较小的人力物力完成更大覆盖区域的全面的烟叶质量评估,还可实现质量预测预警,为卷烟生产提供保障。

关键词:烟叶质量评估;大数据;Web数据挖掘

中图分类号:TS46

烟叶是卷烟工业企业生存和发展的基础,是对卷烟产品的发展具有制约作用的重要资源。烟叶的品质、产量水平受气温、大气环境条件、土壤以及病虫害等生态条件和生产措施因素的影响,而烟叶原料的采购又具有范围广、数量大、种类多、结构宽等特点。为保证烟叶的质量,需要对烟叶种植的整个周期进行监控。传统的方式需要依靠现场实地抽检、监测,有着耗费人力物力比较大、收集到的信息量比较少、覆盖的种植区域比較小、最终数据汇总和处理比较困难、企业之间数据互通比较困难等缺点。

随着全球信息化和互联网技术的高速发展,互联网上出现了海量的数据信息。大量的非结构化的天气信息、温湿度信息、病虫害的预报、土壤情况等信息都可以直接从互联网上采集到,利用这些数据来进行分析和预测,就是大数据处理技术的应用。建立基于大数据的烟叶种植质量评估平台,可以避免传统监控方式的缺点,更快速、有效、准确的实现烟叶质量分析、预测、预警,从而为卷烟生产提供更好的保障和条件。

1 系统架构

1.1 大数据分析与云计算技术

大数据分析是从种类繁多的海量数据中,快速获得有价值信息的一种技术,它是商业智能的演进,正在改变世界的各个领域,从商业到医疗卫生、政府机构、农业和经济领域、人文以及社会的各个领域。大数据分析的特点在于能够利用全部数据,而不是仅仅依靠随机采样的一小部分样本数据[1-2],因为可以收集、存储和分析所有的相关数据信息,就不会受到样本集小、样本有偏差或者随机性不够所带来的分析误差的影响,从而可以获得更准确合理的分析结果。目前已经出现了很多利用大数据进行分析和预测的例子。例如,谷歌利用聚合搜索数据对流感进行跟踪,可达到接近实时的效率和非常高的准确度[3]。后面探讨如何利用从互联网采集到的各种非结构化信息,结合企业自有的烟叶检测、采购数据,分析和预测收获时烟叶质量的方法。

大数据分析通常基于云计算平台实现,因为实时的大型数据集的分析需要非常强有力而又弹性可扩展的计算能力,云计算平台正好适应了这种需求。云计算是一种成本低的分布式并行计算环境,可以适应规模不同的数据,开发方便,向用户屏蔽了底层的技术细节,节点加载、数据的划分和任务调度无需用户考虑。使用云计算可以在不增加现有设备的情况下大幅度提高数据处理的规模和效率,节点的扩充非常方便,系统可以自动处理失败的节点,容错性能比较好。

1.2 平台框架

设计并实现了一个统一的基于云计算的可以灵活扩展的大数据处理平台(BDAP,Big-Data Analysis Platform),能够实现数据采集、实时分析,批量处理和数据导出等功能。平台具有以下特性:

(1)可从不同的数据源(Web数据、结构化数据、数据库等等)以很高的吞吐能力把数据存储在基于Hadoop的大数据中心中;

(2)可对实时数据做流分析;

(3)支持工作流管理,工作流支持与标准的企业信息系统或者是Hadoop操作进行交互;

(4)支持高效率的数据导出,可以把数据导出到NoSQL数据库或者关系数据库;

(5)支持不同数据源数据的协同分析。

该平台框架如图1所示:

整个平台由数据层、大数据处理层、管理层三部分组成,平台由数据流驱动,数据层负责将各种数据来源以流的方式提供给中间的大数据处理层;大数据处理层是建立在云计算平台之上的,负责对数据层传入的数据流进行分析处理,处理之后的数据由管理层展现给终端用户。

在BDAP平台的基础上,结合烟叶种植质量评估的需求,设计了具体的实施方案和关键算法,形成了基于大数据的烟叶种植质量评估平台(BDAP-TQ,Big-Data Analysis Platform for Tobacco Quality),下面将介绍该平台的技术实现细节。

2 技术实现

2.1 数据层实现

数据层实现数据采集和清理的功能,采用web界面的调度平台,实时监控云平台上的爬虫运行状况。获取的数据分类存入Hadoop分布式文件系统(HDFS)中或者数据库中,可以采集到浏览器能浏览的结构化和非结构化的内容,支持各种页面类型。数据层基于云计算平台,可以根据数据抓取的资源需求进行弹性扩展,具有高效的信息处理技术,可以准确获取系统所需求的内容。数据层的实现框架如图2所示:

关于采集数据的选择过滤,主要是对气象、大气、土壤、病虫害等信息进行提取,这是因为:

(1)烟叶的质量和产量受环境条件和生产措施的影响,从烟草品质来看,对气温条件的要求是前期较低,中期较高,气温过高和过低对烟叶质量影响都很大[4]。

(2)大气环境条件也是影响烟叶质量的重要条件之一,重金属铅在环境中容易污染植物叶片,作物中铅的含量富集程度以叶最高。作物中铅含量的调查表明,靠近公路两侧的作物的铅含量远远高于远离公路的作物,大气中的铅含量决定了农作物中的铅含量水平[5]。

(3)土壤是优质烟叶生产的基础,土壤因素与烟叶的品质和产量密切相关。随着吸烟与健康研究的深入开展,人们越来越关注烟叶含有重金属的问题,烟叶重金属的含量和其他作物有一定的相关性,因此可以通过互联网上大量的其他作物的重金属情况结合GIS进行关联性分析,可以得出种植区域烟叶重金属含量情况。

(4)烟草病虫害的爆发,会导致烟叶品质和产量降低。要实现优质烟叶生产,需要认真防治病虫害。在烟草从种植到生产的整个过程中,不论是鲜烟叶、调制后的烟叶或者是成品烟叶随时都有可能遭受到病虫害的损害,这将给烟农、烟草工商业带来巨大的损失。因此,烟草病虫害的防治是保证烟叶产量,提高烟叶质量,发展烟草生产的重要任务。

这些通过互联网采集到的信息,经过清理加工,得到模型化的数据存入HDFS中,再配合上企业原有的烟叶收购检测数据,就实现了数据层所需要的功能。

2.2 大数据处理层实现

要对数据层采集到的气象、环境、土壤、病虫害等数据进行处理分析,以得到烟叶种植质量的评估预测结果。评估算法以关联模型为基础[6-7],首先作如下模型定义:

设历年不同地点气象、大气、土壤、病虫害等数据的向量为X,烟叶检测质量数据的向量为Y,元组(X,Y)=X∪Y,对任意向量 ,定义I的支持度Supp(I)=Count(I),其中Count(I)表示I在向量集合{(X,Y)}中出现的次数;对任意向量 ,定义Xi→Yi的关联可信度为Conf(Xi→Yi)/Supp(Xi);设可信度阈值为λ,定义关联规则集合为{Xk→Yk}={Xk,Yk} where Conf(Xk→Yk)≥λ。

分析处理的算法流程如下:

(1)由数据层采集清理得到历年各地数据的向量集合{(X,Y)};

(2)选择阈值λ,计算规则集合{Xk→Yk},其中的{Xk}为条件集合;

(3)对欲评估的当前条件数据x,计算其与集合{Xk}中各向量的Jaccard相似度Sim(x,Xk)=|x∩Xk|/|x∪Xk|,并记Xm为使得Sim(x,Xm)=min{Sim(x,Xk)}的条件向量;

(4)取满足规则(Xm→Ym)∈{Xk→Yk}的Ym,即为评估预测结果。

由于以上处理均为大数据量计算和存储,所以本层是建立在基于Hadoop和MapReduce框架的云计算平台之上的,使用了分布式存储与并行计算技术,从而能够通过低成本的基础单元节点完成高性能的处理任务。

2.3 管理层实现

管理层整体框架基于SOA设计,可以根据需要增加新的服务模块,前台为基于HTML5的响应式Web设计,内容布局能随用户使用显示器的不同而变化,支持从移动终端进行访问,可以通过Web前台定制大数据挖掘的工作流,支持处理过的数据导出到关系数据库,可以通过Web界面检索数据分析的结果,并且实现了决策支持系统。信息发布服务模块支持与手机终端的交互,烟农可以利用手机APP或者是短信平台来获取平台推送的种植和预警信息。

3 应用效果

介绍了利用互联网上大量非结构化的天气、温湿度、土壤情况、病虫害等信息,作为数据源构建的BDAP-TQ平台,辅以从相关行业获取的结构化专业数据,利用Web数据挖掘技术通过关联分析,对烟叶种植质量进行全面的评估,并可以预测最终收获的烟叶的质量,而不用派遣大量员工去田间地头采集数据。通过该平台除了监控预测国内烟草种植以外,还可以分析预测进口烟叶的质量。

其中,在土壤检测方面,还尝试了结合相关作物分析的方式,这是因为目前我国还没有遍布全国的土壤检测网络,土壤的检测主要是靠抽检和农民送检。传统方法对重金属只能采用抽样法检测,缺点是费时费力,检测的区域比较小,粒度太大,效率比较低。通过互联网上大量其他作物的重金属情况结合GIS进行关联性分析,可以得出所关心的种植区域烟叶重金属的含量情况。

随着国家对大数据越来越重视,建设一个基于大数据的烟叶种植质量评估平台是非常必要的。目前BDAP-TQ平台已经完成了数据层全部模块,大数据处理层的数据分析部分和管理层的部分模块,因为需要从互联网上抓取大量的数据来计算相应的模型,数据的积累需要一个过程,在数据量还不足够大的情况下,分析和预测的结果可能还不够好,后续的工作是继续完善和增加BDAP-TQ的功能模块,扩大数据来源,积累更多的数据,增强数据处理能力,缩小需要实时处理数据的延迟时间,增强BDAP-TQ平台的实用性。

参考文献:

[1]Fernández A,del Río S,Herrera F,et al.An Overview on the Structure and Applications for Business Intelligence and Data Mining in Cloud Computing[C].7th International Conference on Knowledge Management in Organizations:Service and Cloud Computing.Springer Berlin Heidelberg,2013:559-570.

[2]Viktor Mayer-Sch?nberger,Kenneth Neil Cukier.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].Hodder Export,2013-03-14.

[3]Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza epidemics using search engine query data[J].Nature,2008(7232):1012-1014.

[4]陆永恒.生态条件对烟叶品质的影响研究进展[J].中国烟草科学,2007(01):43-46

[5]李義强,李成富,许立峰.我国部分烟叶产区土壤和烟叶重金属现状及相关性研究[C].中国烟草学会2006年学术年会论文集,67

[6]Anand Rajaraman. Mining of Massive Datasets[M].Cambridge :Cambridge University Press,2012

[7]Jiang N, Gruenwald L. Research issues in data stream association rule mining[J]. ACM Sigmod Record,2006(01):14-19.

作者简介:高荣(1979.02-),男,助教,硕士研究生,研究方向:云计算、数据挖掘;通讯作者:孙忱(1981.08-),女,工程师,博士研究生,研究方向:企业信息化。

作者单位:广西财经学院 信息与统计学院,南宁 530003;广西中烟工业有限责任公司信息中心,南宁 530001

基金项目:广西财经学院数量经济学创新团队基金(2014CX02);广西自科然科学基金 (2013GXNSFBA019274)。

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路