王光武, 周纯玉, 贺宝华
(大连海洋大学, 沈阳 大连 116023)
关键字:辽宁12316;农业大数据;采集体系
农业大数据是大数据理念、技术和方法在农业领域的实践。农业大数据涉及到耕地、育种、播种、施肥、植保、收获、储运、农产品加工、销售、畜牧业生产等各环节,是跨行业、跨专业的数据分析与挖掘。[1]辽宁“12316”金农热线始建于2005年,是国家“十一五”重点信息工程——“三电合一”在辽宁的推广项目。平台目的是为农业、农村和广大农民提供专业信息服务的资讯咨询平台。有效满足了农民群众日趋多元化的信息需求。12316经过多年的运营,已经记录了大量的农业数据,包括农户数据、农产品价格数据等。未来随着12316的进一步发展与壮大,将数据采集拓展到更多领域,不仅仅收集农作物的耕地、播种、育种、施肥、植保、储运、收获、农产品加工、销售等农业全生命周期的数据,还会包含农民自身生活方面息息相关的信息,如生产收入、消费、文化娱乐等数据。
12316就此打开了农业大数据之门,为农业生产、农业科研、政府决策、涉农企业发展等提供新方法、新思路。
1.接听。用户拨打12316进入本呼叫中心,通过自动语音分配系统分配到终端的话务员坐席。坐席接听电话,同时在计算机上弹出用户信息界面。如果用户首次拨打则为采集界面,用户若是二次以上拨打则显示用户具体详细信息界面(比如:用户地点、主要的种植产品、以前有过什么问题、解决问题的程度等信息)。
2.解答。话务员可以自主解答用户提出的问题,当话务员对用户提出的问题,无法做出满意的答复,可通过浏览历史记录或查询典型案例库寻找相关问题的答案进行回答。
当用户提出的问题在平台上无法查到答案时,可以通过坐席平台进行三方通话申请,以拨通专家电话,让专家进行解答,同时把答案记录到软件平台经典案例系统,以便其他日后话务员进行查询。
3.记录。用户觉得满意挂机时,结束通话。话务人员可同时采集用户提问,并把案例记录保存到案例数据库中,方便日后相关业务查询。
用户咨询结束后,咨询记录按不同的形式,采集到各相应的数据库中。数据库对不同种类的数据进行分类统计,经过审核后,数据可应用在不同领域。
从话务数据类型上分,主要包括:案例数据、价格数据、供求数据、用户数据4种。
从咨询内容上区分,主要包括:生产技术咨询、市场行情资讯、政策法规咨询、医疗健康咨询、其他类咨询5种。
从解决的程度上区分,分为普通案例、典型案例、效果案例、焦点案例4种。
将热线产生的数据进行加工,形成不同的信息产品,应用在不同的发布渠道中。
市场分析预测。主要是将热线产生的价格信息,进行分析、加工,预测未来的农产品价格走势,对农民进行市场性指导。该类信息通过审核后,可发布在热线语音信箱、电视、广播、网络、平面媒体及微信平台之中。
典型案例汇总。主要是将热线产生的典型案例进行编辑整理,以丰富热线的问题资源,更好地为后续农民解答相关问题,同时典型案例还可编辑出版,同时应用于热线语音信箱、电视、广播、网络、平面媒体及微信平台相应的节目和栏目之中。
供求信息发布。通过整理核实的供求将通过热线语音信箱、电视、广播、网络、平面媒体及微信平台的形式对外发布,以寻求合作。
用户信息。经过整理核实之后,可配合调研和热线宣传服务之用。
12316金农热线建设十几年来,各方面都取得了很大进步。尤其在平台信息化建设方面,如平台网络构建、系统优化、平台门户网站以及扩大服务区域等方面,都取得了可观的成绩。随着信息化技术的不断发展,平台也暴露出一些限制发展的问题。尤其是针对以应用为驱动的农业大数据方面,整体平台还未达到农业大数据应用所需的要求。
为实现12316的大数据采集与分析,平台在数据采集内容上、采集标准及采集界面上,都需要进行增加与调整,例如:话务员正常打开的话务记录页面的设计。同时,设计还要考虑到数据的延伸问题,即当某一样本记录完成之后,根据具体问题情况可继续搜寻周围的样本做延伸记录,进而发现问题的普遍程度或严重程度等。
从近几年热线发展来看,热线建设工作虽然得到了相关涉农政府职能部门的大力支持与热情参与,但是由于信息化工作体制缺少顶层设计与统筹规划,有效建立与梳理机制不健全,不可避免地出现了各自为政、各司其职、建设分散的问题。导致子系统繁多,资源难以整合与数据无法共享的问题出现。所以必须建立高效的工作体系,才能保证国家各项惠农政策的有效实施。
各节点单位在平台开发方面,缺乏统一规划,各自为政,导致平台建设的重复率较高。表现在:对于信息化需求,各节点单位均单独采购成型的信息化产品或者自行开发,导致各子节点所管理的不同业务的信息系统越来越多,而各系统开发语言、运行环境、数据标准都仅适用本单位,这些异构系统无法有效的结合统一起来,形成资源共享,造成重复建设。
数据割据造成的资源分散,部门间数据沟通效率低。不同系统之间,由于编码、数据格式、应用环境不同等原因,导致系统间无法互联互通,数据资源难以有效共享。尤其是各系统还存在信息隔离、接口不公开等因素,客观上造成了“信息孤岛”的产生[2]。
由于各地区、各系统无法互联互通,难以实现区域型的跨部门业务协作,面向公众的互动和服务能力难以有效提升。借鉴当下统一门户、统一数据的基础平台建设经验,首先建立完整统一的数据标准,并加强管理,严格要求各子节点单位遵循标准规范。通过基础平台的建设,将打通各自节点各类应用系统,通过其统一数据、统一门户、统一身份认证等子平台,保证各类数据的及时性、准确性和共享性,为农民农村问题提供更加便捷、高效的服务。
在具体建设过程中,将以12316农业综合信息服务为切入点,以应用驱动为根本目的,根据国家“创新、协调、绿色、开放、共享”的五大发展理念,注重创新精神,在体系、技术、服务和机制上积极改进与创新,努力推动12316农业信息服务体系与大数据采集体系建设[3]。
为实现12316大数据应用的目标,对平台采集方面的改进原则主要有:一是要在大数据基础之上构建,从大数据的要求出发;二是要精准设计,按照标准术语精准记录。同时,系统还应该实现通过农户咨询的问题、记录的数据等查询,能够将自动核算对该问题全省的发生情况、趋势判断、预警分析,并以新窗口的方式弹出提示(辅助话务咨询,或者给领导者显示);同步弹出的还有相关的案例(来自于案例库中)、知识点(来自于知识库中)、适用专家列表等。待业务结束后,这些辅助弹出的窗口将自动关闭或手动关闭。
根据对农业大数据进行需求分析,对原有采集内容进行了改进,设计出了基于农户需求的12316大数据采集表,如表1所示。
表1 农户需求数据采集表
?
?
此表可以称作总表,相关数据关联采集表都是从此表中分离出来的。具体数据采集过程,如图1所示:
图1 数据采集过程
农户电话咨询某一个问题,话务员在解答问题过程中要同时将该问题归类,在大类问题中打开当期关注度最高、排位靠前的数据采集表进行询问并做好记录。例如,当农户咨询病虫害问题时,如果当期主要关注农资价格问题,那话务员就可打开农资数据采集表对该农户农药农肥情况、使用数量及效果、购买价格等信息进行询问并做好记录。同时,话务员需要从中选取重要关键词单独登记,便于以后方便查询分析。
通过上述咨询中的数据采集,可以测算相关结果。例如:农业生产中化学品使用程度;不同厂家和品牌的化学品使用效果;化学品施用与灾害对应情况等。
1.数据主页。为每个农户建立一个数据主页,通过表单式界面用以记录基础数据(包括收入水平、位置、地址、姓名、联系方式等)和相关数据。例如在电话咨询过程中的玉米数据采集,每个农户可能会有以此关联出多个相关数据采集内容,玉米是生产数据采集,还有收入数据采集、消费数据采集、生产投入数据采集、产地交易数据采集、生活习惯数据采集等。可以将上述关联的内容设计成系统采集表,通过基本数据采集时进行相应的触发,以此达到多类数据采集的目的。例如收入、消费情况,初步设计分别如表2、表3所示:
表2 收入情况采集表
表3 消费情况采集表
2.逻辑设计(以化肥数据采集为例)。农户打进电话问玉米价格,根据农户的问题,在话务工作界面上选择对应的种类——玉米;在咨询过程中,以关心的口吻主动询问了解种的什么品种,种了多少亩,用了什么肥,效果怎么样(可分解成A-产量增加多少,B-长势如何),花了多少钱,村里多少人家在用,购买渠道是哪里等,填入表二;是否接受热线推荐化肥(品类农户自选),是否需要贷款等,填入表三,如此类推。如果该农户数据已经被近期采集,则该类数据按钮呈现颜色变化;间隔时间较长的数据,则用闪烁来表示紧急。
表1:可以在话务界面设置一个“数据”按钮,默认为自动打开,打开后呈现为一个分类导航条,以生产为主,分为种植、养殖两大系列,细分到品种;生活部分另加。
表2:选择品类后立即弹出的表,是根据这种品类设计的关联数据采集表。
表3:实际上是表2附加的部分,是指应该填入的相关关系数据,如是否需要贷款,农户用的手机、电视品牌,家里是否装了宽带等。
3.机制设计(如何让农户接受并乐意报告)。农户基础数据库建立是农村信用累积的基础,一是可以给与农户分值奖励。农民打电话奖励积分,每次按时长赋分,累计分值可兑换手机充值;每采集一次数据,奖励积分若干;农户上报数据,奖励分值。二是可以设立农村移动手机观察员,一方面作为农业数据提供者,定期将其生产生活数据进行上报,另一方面参与每年两次的问卷调查,完成情况较好的观察员每年可获赠话费等奖励。
4.相关数据库。实际上也在整体数据库之中。包含了大量长期收集距离较远的相关数据,如互联网上与农业生产相关的情况——股市、重大政策出台、期货、汇率、存款利率、失业率、GDP、涉农信息总量变化、天气气象等。
5.图片与视频音频嵌入方式。系统可以实现随时随机嵌入各种格式的文件,如音频与视频。比如,在农户页面上可以嵌入其相关的咨询录音;或者打开转发的视频,做为佐证和参考(可通过微信,也可以通过致富通)。
1.采集样本量推算。依托于12316业务运行,进行数据的采集。分为固定样本采集和常规样本采集。其中,固定样本以月为周期,每人每天采集20个样本,按100个座席规模计算,每月总样本数约为6万个;常规样本以年为周期,以采集基本数据为主,通过不断累加增加样本数量规模,每人每天发展记录新用户5人,记录老用户20人,按100个座席规模计算,每年发展新样本数量约为18万个,记录旧样本数量约为72万个,全国则分别为540万个、2160万个。
2.确定采集时间区间。根据数据特点不同,有些数据是短期采集的,有些数据需要长期跟踪采集,还有一些数据是需要固定某一个时间段进行采集,因此应制定数据的采集时间区间,根据需要确定采集的开始和结束时间[4]。例如采集玉米种植增减情况数据就是一个长期的工程,可以不断地增加样本量,增强数据力量;而比如8月份采集粘虫的数据,则限定了时间区间应在8月这一个月。
3.标准术语编制。依托已有案例库海量信息,分类整理各种术语,建立起一套标准体系,在此标准体系基础上将原案例库重新改造和命名,形成术语库。这样在随后的咨询服务或采集数据时,都可以与案例库及时关联,弹出案例库中相应案例,以帮助回答问题等。
举例:农民问猪不咋吃食,落到文字上的术语就是猪“厌食”;再如玉米粘虫害,H7N9禽流感等。
中国自古以来就是一个农业大国。但是从整体农业发展状态来看,并非走在世界前列。充分利用农业信息化手段,是实现农业的现代化的最有效的出路。农业大数据为农业现代化提供了强大的推动力,农业信息化为农业大数据提供了有利的基础保障[5]。对农业生产活动产生的大量数据进行加工和清洗,得出的结论反馈与农业生产中,提供科学的指导,使农业生产更为精准有效,推动农业现代化发展,形成良性循环。
辽宁12316金农热线的建设,不仅仅只靠技术力量与日常的信息积累,还需要社会各界人士的广泛积极参与,农业专家、农业大户、科研院所、农业院校、大学生村官等等,都是辽宁12316强有力的支撑。通过政府强有力的主导,商业企业的大力配合,运行商广泛的支持,以及媒体的积极帮助,以此形成12316新时代的创新机制。