王小平 张望 姜继勤
摘 要:在家蚕规模化养殖过程中,投资决策者需要对家蚕养殖过程中每个环节的情况有所了解,对市场需求、市场存量、上下游配套关系等进行数据分析,才能做到科学决策。文章利用大数据分析手段,从技术的角度探讨了家蚕养殖行业大数据分析系统平台的设计和实现,对家蚕养殖产业具有一定的参考作用。
关键词:智慧养蚕;生态链;大数据
在家蚕养殖的智能化改造升级过程中[1],研究人员发现大规模智能化养蚕将结束蚕茧行业散乱差的局面[2],但是迎来的问题也是前所未有的。家蚕养殖涉及的产业链包括桑树的种植、家蚕养殖、茧丝绸生产销售、丝绸医药等应用环节。我国目前蚕茧年产量约60~80万吨,如果各地规模性地投资智能化养蚕系统,势必将对上下游产业链产生重大影响。引入大数据分析技术,可以精准了解桑叶产能及国际国内蚕茧市场行情,方便政府及行业进行战略决策,以保证整个产业生态链健康有序发展,为企业投产辅助决策。
1 选型及边界
调研智慧家蚕养殖企业,明确了业主关心的是对家蚕蚕茧市场(包括国际国内)的整体分析,对家蚕养殖原料(主要是桑叶)的市场行情分析,以及对养殖过程中的相关数据分析,如图1所示(数据主要来自于网络)。根据该应用场景对大数据平台进行技术选型。
大数据平台第一个要素是数据源,要处理的数据源包括家蚕养殖数据、销售系统数据、桑树种植数据、桑叶产量数据、各地政策等业务数据;数据分析不会直接对业务的数据源进行处理,而是先经过数据采集、数据预处理、数据存储,之后才能进行数据分析及结果展现等。完成数据工程需要大量的资源,利用监控和协调分派来控制和协调这些资源;部署要更方便、更容易地大规模的数据,确认是否需要集群,还涉及日志、安全以及与云的结合,这些在实际设计的时候需要明确下来。
2 系统设计
系统包括数据采集、数据处理、数据分析、数据解释及展现4个部分,如图2所示。
(1)数据采集是指将来自于RDBMS的结构型数据、来源于网络Web的半结构型数据以及文档型数据进行数据采集、数据整合[3]。
(2)数据处理及存储指将采集到的数据进行数据清洗、分类、修正,形成可信数据,最终将相关联的数据进行存储。外部数据的结构跟企业内部数据的结构不一样,需要进行转换,爬虫爬取的数据结构更乱。大数据平台里需要进行数据的提取、转换、加载、清洗、去重、去噪。爬虫爬过来的数据往往是非结构性的、文档型的数据,还有视频、音频,需要去做数据清洗、数据预处理等工作。
(3)数据分析是指运用数据挖掘、智能算法、云计算等技术对处理并存储后的数据进行分析,形成历史趋势分析报告,并在此基础上预测下一年乃至于几年蚕桑养殖行业的发展趋势。
(4)数据解释及展现是将结果以数据、图表、曲線、模拟等方式展现给用户,供用户阅读和决策参考,是呈现给用户最终的结果。
3 系统实现关键点
3.1 数据采集的实现
结构型数据属于企业内部数据,需要与企业生产系统对接(如各养殖基地在养殖过程中的产量、原料消耗等数据);半结构型数据(如交易市场蚕茧销售交易数据)和文档型数据(如企业报告给当地政府商务局的报表)属于外部数据,有两种处理方法:(1)要获取的外部数据本身提供API,可以调用API获取。(2)数据本身不提供API,需要通过爬虫技术爬取过来。图3为爬取处理过程。
3.2 数据处理的实现
通过系统本身的业务数据、管理员录入的业务数据、日志数据,通过不同的方式采集后,存入到HDFS[4],HBASE中,对数据进行预处理,如图4所示,包括数据清洗、日志解析、分类合并等工作,最后进行数据统计分析、数据展现,并存入HIVE数据仓库[5]。
3.3 数据分析及展现的实现
将处理并存储后的数据运用数据挖掘、智能算法、云计算等技术,对数据进行分析。本系统需要做3个方面的数据分析:(1)统计分析,使用MapReduce[6]或Spark。(2)做查询检索,同步写到HDFS的同时还要考虑写到ES里。(3)做统计分析,先建立一个Cube,然后再进入OLAP的场景[7-8]。
数据分析后形成历史趋势分析报告,并在此基础上预测下一年乃至于几年蚕桑养殖行业的发展趋势。如图5所示,通过报表及报告的形式展现给不同的用户。
4 结语
通过本次大数据平台系统设计,本研究搭建了基本大数据分析框架,并利用Java语言进行了实现,基本满足了企业、行业以及政府部门对蚕桑养殖行业上下游产业链的数据分析需求。但在功能上还有很多不完善的地方,需要在后续过程中迭代完善。
[参考文献]
[1]聂萌瑶,张峙.大数据下基于Hadoop的智能物流平台架构[J].无线互联科技,2018(17):15-16,40.
[2]雷军,叶航军,武泽胜,等.基于开源生态系统的大数据平台研究[J].计算机研究与发展,2017(1):80-93.
[3]董贺,徐凌宇.基于云平台的软件服务流体系结构[J].上海大学学报(自然科学版),2013(1):14-20.
[4]曹宁,吴中海,刘宏志,等.HDFS下载效率的优化[J].计算机应用,2010(8):2060-2065,2240.
[5]纪俊.一种基于云计算的数据挖掘平台架构设计与实现[D].青岛:青岛大学,2009.
[6]万至臻.基于MapReduce模型的并行计算平台的设计与实现[D].杭州:浙江大学,2008.
[7]梁年贵.家蚕省力化养殖技术探讨[J].南方农业,2015(3):144-145.
[8]李建琴.蚕桑产业转型升级理论与路径[J].蚕业科学,2017(3):361-368.
Analysis on the platform architecture of big data analysis system for
upstream and downstream ecological chain of smart sericulture
Wang Xiaoping, Zhang Wang, Jiang Jiqin
(Chongqing City Management College, Chongqing 401331, China)
Abstract:In the process of large-scale sericulture, as an investment decision-maker, we need to understand the situation of each link in the process of sericulture, and analyze the data of market demand, market stock, upstream and downstream supporting relationship, to make a scientific decision. Using big data analysis method, this paper discusses the design and implementation of big data analysis system platform in sericulture industry from the technical point of view, which has a certain reference role for sericulture industry.
Key words:smart sericulture; ecological chain; big data