李辉
对农业而言,大数据既是机遇,又是挑战,只有挑战大数据,使信息技术处于农业领域的制高点,才能充分发挥大数据的优势为农业发力。
关于农业大数据的认识
农业大数据是指以大数据分析为基础,运用大数据的理念、技术与方法处理农业生产、销售整个链条中所产生的大量数据,从中得到有用的信息以指导农业生产、经营、农业流通和消费的过程。农业数据应用作为农业大数据产业的落地点,要分析挖掘数据的价值,还原大数据结论,反映行业问题。换言之,将农业大数据应用于粮食安全、土地经营、病患防治、动植物育种、农业结构调整、农产品价格、农副产品消费等领域,解决农业生产过程中遇到的问题。但农业数据是很复杂的,具体表现为数据源分布广、可控度低、作物干扰大、类型多样、结构复杂和获取困难等,因此导致我国农业大数据面临着诸多挑战和问题:首先,大数据研究普遍存在着只有数据、没有充分应用取得价值的问题,导致搜集数据、存储数据的付出被让位;其次,数据类型单一,只有结构化数据,半结构化、非结构化数据的缺失导致数据的不完整。同时,也缺乏农业现代化与信息化的深度融合,区域视角缺乏全国视角;最后,基础数据采用业界的Hadoop开源技术简单堆砌,很难保证未来的实用性。
目前,专门从事数据科学与应用研究的人才比较紧缺,大数据人才的招募、培养、使用是农业大数据研究面临的最大挑战。因此,大数据产业的发展对大数据人才提出了新的需求,国内各高校陆续进行大数据学术研究的同时,也在考虑将大数据相关课程纳入培养体系,以满足社会对大数据人才的需要。在我国,除以山东农业大学为首的农业大数据产业技术创业联盟之外,还有江苏、中科院大数据实验室等陆续成立。中国农业大学作为中国农业院校的领军者,在大数据领域集中圈地建立农业大数据实验室。同时,在全国农业领域的积累以及联合全国优秀的企业共同建立农业大数据实验室,并将农业大数据实验室教学尽快纳入培养体系之中,确保中国农业大学在农业大数据领域后来居上,达到国家级大数据重点实验室和农业大数据领域的领先地位。
在人才培养中,结合农业行业的相关应用特点的实验室教学是关键环节,满足农业行业的人才技能要求,需在本科的相关学科中强化基于农业行业相关数据的实验教学环节。首先要立足于信息与电气工程专业,面向全校本科生开展双学位大数据教学,从验证性、实际性和创新性三个层次设置实验,确保中国农业大学各个专业的学生可以通过此课程,了解大数据发展的新趋势和新动向,及其对现代农业的影响和意义。其次,信息技术的发展为丰富教学手段提供了可能,通过开放共享大数据实验室资源,以联合大数据的科研院所开展农业大数据教学科研工作,全面提高整个农业院校的科技现代化教育水平。综上所述,为培养大数据教育的高新技术加农业相关分析技术结合的教育是一个大的尝试,从而为中国的农业现代化与信息化的快速发展提供合格的后备人才。
农业大数据本科实验室教育建设的目标
按照中国农业大学厚基础、宽口径、重实践、重交叉学科的要求,科学设立大数据人才培养方案,既要熟悉数据分析,又针对相关业务的不同要求,开始酝酿本科的农业大数据实验室教学设置,可以让学生了解农业大数据分析技术原理和实验方式,掌握大数据对农业相关专业所能带来的帮助及变革。为此,要达成四个建设目标:
目标一:建设业界领先的农业大数据实验室。结合中国农业大学在农业领域的丰厚积累和宝贵资源,以大数据技术与应用概论这门学科为公共课,使各专业本科均能受益,成为各大院校农业大数据实验室建设的样本,进而成为国家级农业大数据重点实验室。
目标二:建设融合农业行业经验、业界最新技术、科研教学实践与业界实际案例同时运行的新一代农业大数据实验室教育平臺。此平台的建设不是一蹴而就的,而是随着大数据技术的发展及农业实际案例的不断发展迭代更新,保证教学内容与时俱进,最大程度避免传统教育知识陈旧,为农业现代化、信息化与先进技术的接轨和同步奠定基础。
目标三:运用先进的“互联网+”教育的线上线下相结合的教学模式,进一步扩大农业大数据实验室的覆盖范围。其中的重点是在上述的农业大数据实验室平台上建立相应的大数据技术与应用概论课程,包括实际案例教学材料、教师教案实验用书、学生案例实验用书、答疑等相关教学工具与教学辅助材料。
目标四:面向学生就业和社会既定需求为前提的方向转变。针对农业经济、农业气象、生物信息、食品营养、食品安全、食品风险监测等专业的实际案例,实现大数据行业应用范例教学材料,可以考虑分期实施并根据需要进一步扩充和优化。
农业大数据本科实验室建设的可行性
为达成面向本科的大数据实验课程目标,中国农业大学采用了业界先进的平台和贴近农业实际的相关案例分析,充分考虑技术和专业的融合,从而保证课程的可行性和有效性。考虑到中国农业大学除信息与电气工程专业的学生之外,以及其他学院的学生并非为农业大数据相关专业。因此,课程的设计过程必须考虑广泛的实用性,进而将其细分为农业大数据技术应用课程与农业大数据创新与开发课程。
首先,学校师资资源的充裕保证。因为中国农业大学已建立了数据科学研究中心。同时,基于信息与电气工程学院的师资资源可充分保证农业大数据实验室的授课资料。
第二,本科生乐于拥抱大数据技术。以中国农业大学之前开设的大数据选修课基本情况反馈来看,本科生普遍热衷于学习新的技术,并运用新的技术解决新的问题。无论是校内大数据科研中心还是外部企业,对大数据的巨大人才缺口都是潜在的要求。
第三,校企联合可保证大数据实验室的先进性和实用性。实验室的搭建与农业案例的开发可以联合业界优秀企业保证其先进性、可靠性、实用性,同时通过后期服务不断地进行升级,保证技术不断地更新与同步。
农业大数据本科实验室建设的方案
基于农业大数据实验室的建设目标与可行性分析,提出了建设方案,主要包括农业大数据源数据包、农业大数据实验室软硬件平台、农业大数据实验室平台、农业大数据实验室教学资源开发、大数据实验平台设计方案和大数据实验案例教学开发等六个方面的内容。
第一,农业大数据源数据包。数据是大数据分析的基础,主要包含农业经济、农业迹象、生物信息等数据来源,数据来源多种多样,数据类型除来自各个应用系统传统意义上的结构化数据、半结构化数据外,更多的是非结构化数据源,这些是大数据平台的原材料,我们将其称为“裸数据”。
第二,农业大数据实验室硬件平台。大数据的分析必须要有硬件平台做支撑,农业大数据实验室硬件平台包括服务器、存储设备、网络投影仪和大屏幕等硬件,这些是大数据软件平台的定性基础。
第三,农业大数据实验室平台。农业大数据实验室平台主要包括数据准备、数据处理、数据建模和展现等软件平台。在数据准备方面,与商业智能类似,如果数据需要通过大数据平台进行处理,数据的前期准备工作显得尤为重要,如数据的抽取、清洗、转换和加载,相当于对于原材料进行粗加工,以便为大数据处理做好充分的前期准备。在数据处理方面,主要用ETL工具准备好数据,首先存储到分布式文件系统中,利用一系列商务智能分析对结构化数据进行分析和处理,进而达到数据挖掘和价值发现的目的,这是实现数据变为有效信息的第一步。数据的建模与展现方面,结果数据处理后,数据的价值可以通过进一步的建模工具、可视化工具从不同应用进行深度数据挖掘、决策支持等工作,让大数据针对某一行业或应用场景进行二次开发,这一步是信息变为知识的关键一步。
第四,农业大数据实验室资源的开发。数据实践运营中都存在开发实践教材资源,农业大数据实验室资源的开发主要是教学案例的开发,包括农业相关专业的数据模型开发、数据可视化等内容,农业大数据实验室资源的开发主要包括大数据应用实验教程、大数据实际开发实验课程,农业大数据实验课程幕后的开发将知识供学生立即使用,农业大数据实验室教材的开发主要针对于教室和学生两个方面进行编写。
第五,大数据实验平台设计方案。大数据实验室平台的搭建以多节点、集群服务器平台作为农业大数据建设的硬件平台,提供大数据机能和分布式存储平台,以Hadoop作为应用的分布式存储平台,这个平台可以形成六大优势:第一,一个平台可以覆盖从数据到信息、从知识到支配全生命周期的流程;第二,数据模型可支持99%的数据接口,降低数据的接口难度,同时可支持结构化和非结构化的数据类型;第三,高度提升系统,无需面对多种系统混杂在一起,堆积模式带来的管理或复杂难题;第四,高性能,采用共享式文件系统,大大提高数据处理和分析速度;第五,采用对等架构,降低故障风险;第六,基于GUI的管理模式,大大降低管理难度。
第六,大数据实验室案例教学的开发。为让学生真正了解大数据在农业相关专业具体的应用场景和关键作用,有着感性和理性的认识,大数据作为当今的先进技术,对传统农业的升级有着巨大的推动作用,可以激发学生的学习热情,提高学生的创新思维能力,从而为学生将来的就业及推动农业现代化和信息化的发展奠定坚实的基础。为此,在大数据实验平台,针对农业专业方向提供相关的案例也是很重要的,如农业经济大数据案例、农业气象大数据案例、农业生物信息大数据案例等等,对于案例的设计和研发建议本着忠于实际、分步实施的原则应用于教学,在教学反馈中快速迭代后续的案例开发,从而始终保证案例的真实性、可用性和有效性,更好地将大数据理论、实验平台与案例相结合,从而达到学以致用的目的。
随着实验教学的展开,越来越多的学生会对新技术产生兴趣,从而成为我国农业教育的领航者,打开教育改革的新篇章,为大数据教学提供很好的思路,加快大数据在我國支柱产业农业方面的应用和发展。
(作者系中国农业大学信息与电气工程学院博士)