王亿,刘继芳,王梁,孙伟,4,5,孔繁涛,曹姗姗,4,5*
1.新疆农业大学计算机与信息工程学院,乌鲁木齐 830052
2.中国农业科学院农业信息研究所,北京 100081
3.北京市畜牧总站,北京 100081
4.国家农业科学数据中心,北京 100081
5.中国农业科学院国家南繁研究院,海南三亚 572024
6.中国农业科学院特产研究所,长春 130112
鸡蛋是人们日常生活餐桌上的食物之一,同时也是人类身体所需营养重要来源之一。鸡蛋中包含了人体健康需求的多种矿物质和蛋白质,其中蛋黄中包含大量的各类矿物质,蛋清中包含8 种人体需要的氨基酸和必需的金属微量元素[1-3]。中国国土面积宽广,人口数量众多,同时也是鸡蛋生产和消费的大国,鸡蛋在国民日常饮食中占据着举足轻重的地位,大力发展蛋鸡养殖业满足国民对鸡蛋的消耗是有必要的[4]。
我国居民日常饮食对鸡蛋的大量需求,推动着我国蛋鸡养殖业规模的迅速发展。近年来,我国鸡蛋价格波动频繁。鸡蛋价格的大起大落不但会影响居民的生活消费,也会损害养殖户的利益[5]。同时蛋用雏鸡价格作为对鸡蛋价格重要的影响因数之一,构建针对蛋用雏鸡价格的数据集是有必要的[6-8]。通过数据集可对蛋用雏鸡历史交易价格数分析,精准分析出蛋用雏鸡价格对利润影响大小以及蛋用雏鸡价格波动的规律性,准确把控未来蛋用雏鸡价格的涨幅动向,为政府制定扶持政策提供依据,从而保障养殖户的基本利益,促进蛋鸡产业链的发展。
目前蛋用雏鸡价格数据散乱在网络中的各个网站上,与多种农副产品和畜牧产品价格数据混合在一起,专门的蛋用雏鸡交易价格数据查找困难。因此,本数据集收集了2000–2019 年全国蛋用雏鸡集市交易价格数据。蛋用雏鸡价格基础数据为月度交易平均价格数据,通过计算得到季度、年度平均价格数据。为展示数据的变化情况,计算出每个时空维度的环比变化率和同比变化率。本数据集中的价格数据与变化率数据可以对养殖利润影响分析及利润预测提供有力支撑。
本数据集针对全国蛋鸡产业链养殖环节蛋用雏鸡集市交易价格进行收集整理。数据获取途径为全国畜牧总站(http://www.nahs.org.cn)和中国畜牧业协会(https://caaa.cn)。数据采集方式为爬虫程序定时抓取,爬虫程序抓取到目标数据后转为EXCEL 格式文件输出,文件中包含不同地区不同时间范围的原始数据。
为确保数据的准确性、完整性、可信性等,对数据进行筛选、时间对齐、甄别等方式进行处理。数据预处理步骤:(1)先将收集到的数据文件按照地区进行合并整理,如数据在地区重复,则选取数据缺失量较少且时间覆盖范围较大的数据文件,地区一致而时间不一致的则按照时间对数据进行拼接处理。(2)对第一步获取的数据以时间取交集,获取数据的最大时间覆盖范围,得到2000 年至2019 年的数据。(3)分析数据中缺失情况,以月份为基准,将连续缺失超过3 个月数据的地区进行删除丢弃,对缺失数据月份少于3 个月的地区,将缺失值相邻的上下月份取均值填充。最后得到26 个省(自治区、直辖市)蛋用雏鸡集市平均价格共6240 条月度数据,作为构建数据集的基础数据。
数据集中包含4 个EXCEL 文件,共26487 条文本类型数据。文本数据包括蛋用雏鸡平均价格、环比变化率、同比变化率。
文件中包含各地区月度平均价格6240 条、环比变化率6214 条、同比变化率5928 条,季度平均价格2080 条、环比变化率2054 条、同比变化率1976 条,年度平均价格520 条、环比变化率496 条,以及全国月季年平均价格共340 条、环比变化率337 条、同比变化率304 条。
数据集中蛋用雏鸡平均价格以“元/只”为单位,环比、同比变化率均保留两位小数百分比。文本数据的时间覆盖范围从2000–2019 年,时间维度为月度、季度、年度,空间维度上划分为全国和26 个省(自治区、直辖市)。各时空维度数据元素包含蛋用雏鸡集市平均价格、环比、同比变化率,数据类型均为浮点数据。平均价格数据保留EXCEL 工具计算后的原始数据,小数点后9 位,不足9位按计算结果保留。通过数据处理后,得到如表1 全国月度蛋用雏鸡价格部分数据和表2 全国年度蛋用雏鸡价格部分数据。
表1 全国月度蛋用雏鸡价格部分数据Table 1 Partial data on monthly egg chick prices nationwide
表2 全国年度蛋用雏鸡价格部分数据Table 2 Partial data on annual egg chick prices nationwide
为验证爬虫程序采集数据的准确性,对采集到的基础数据进行随机抽样5%得到312 条抽样数据,根据抽样数据的时间和地区,使用人工查询方式,与抽样数据进行对比核实,核实结果均准确无误。
为保证数据集的质量,数据均根据完整性进行预处理,最终得出蛋用雏鸡交易价格数据集。数据集时间覆盖范围长,地区覆盖范围广,并且计算出同比和环比变化率展示数据波动性。为保证数据的准确性,数据均计算二次进行校验核对。针对不同研究人员对数据精度要求不同,平均价格按照计算工具计算出的原始数据精度保留小数点后9 位。
获取的基础数据部分地区数据缺失量较大,对其采用了数据删除操作,剩余地区缺失量小,并使用平均值填充,不影响数据集的使用。基础数据收集为月度数据,故时间维度上缺少周度数据。
本数据集的价值主要体现在:(1)为蛋鸡养殖相关的科学研究提供数据支撑,可通过蛋用雏鸡历史交易价格和变化率,分析出影响蛋用雏鸡价格的重要因素,从而实现对蛋用雏鸡价格的监控和宏观调控,亦可作为蛋鸡养殖业盈利情况的判断依据。(2)节约研究人员数据收集时间。
本数据集可作为蛋用雏鸡价格预测的基础数据,通过构建BP 神经网络或循环神经网络模型,将环比变化率构建为序列,作为模型的输入。这里以BP 神经网络为例,建议将连续的11 条月度环比变化率作为输入序列,将第12 条变化率作为标签进行训练。预测时为模型输入需要预测的序列,模型预测得出一条变化率,将变化率与输入序列的第11 条数据所对应的价格计算出下一个月的价格,从而实现蛋用雏鸡价格预测。
数据作者分工职责
王亿(1994—),男,四川省南充市人,硕士生,研究方向为计算机技术。主要承担工作:论文撰写。
刘继芳(1965—),男,山东郯城人,博士,研究员,研究方向为农业信息技术。主要承担工作:数据分析。
王梁(1982—),男,山西晋城人,硕士,高级畜牧师,研究方向为农业信息技术。主要承担工作:数据采集,数据更新。
孙伟(1978—),男,山东海阳人,博士,副研究员,研究方向为农林时空信息智能分析。主要承担工作:组织实施、论文指导与修改。
孔繁涛(1968—),男,山东滕州人,博士,研究员,研究方向为农业信息技术。主要承担工作:数据录入整理、数据校对。
曹姗姗(1984—),女,黑龙江哈尔滨人,博士,副研究员,研究方向为农林时空信息智能分析。主要承担工作:数据整合与处理、综合管理。