夏吉安,母文涛,徐荣旺,杨善群,袁望皓,朱俊
(南京工业职业技术大学 计算机与软件学院,江苏南京 210023)
2015年8 月,国务院印发《促进大数据发展行动纲要》,提出要推动大数据发展和应用[1];2021年11月,工业和信息化部印发《“十四五”大数据产业发展规划》,指出目前我国需要培育数据驱动的产融合作、协同创新等新模式。推动要素数据化,引导各类主体提升数据驱动的生产要素配置能力,促进劳动力、资金、技术等要素在行业间、产业间、区域间的合理配置,提升全要素生产率[2]。开展大学生创新创业项目的目的是改变现有高校的人才培养模式,强化学生创新创业技术能力培养,培育适应创新型国家建设需要的高水平创新人才[3-4]。通过以大学生创新创业训练计划项目为切入点,将大数据领域的相关技术与精准农业应用场景相结合,进行产学研融合研究和学科交叉的创新应用,可以培养学生的科研创新应用能力。
2022年3月,农业农村部印发《“十四五”全国农业农村信息化发展规划》,提出建立贯通信息采集、分析决策、作业控制、智慧管理等各环节的智慧农业集成应用体系[5]。现代农业的发展需要借助大数据、云计算等学科的优势,结合智慧农业的发展需求进行创新应用,为精准农业的发展提供理论与技术的支持[6-8]。
目前,高校大数据相关专业实践实训教学偏重于教授大数据相关框架与工具的操作和使用,未将大数据技术与具体应用场景进行结合培养学生解决实际工程问题的能力[9]。由于大数据相关技术理论知识点分散并且关联度不高,缺乏对于大数据技术应用技能的连续培养,学生难以全面掌握大数据领域的知识点与技术,进而影响学生使用大数据相关技术进行创新应用。利用大学生创新创业项目,将大数据相关技术与精准农业应用场景相结合,进行学科交叉的创新应用,可以培养学生大数据创新实践能力[10-14]。
“大创”实验实训项目与江苏省农业科学院农业信息研究所开展合作,大田作物反射光谱采集于江苏省农业科学试验田。实验实训方案设计包括对农业光谱大数据进行数据预处理与标注、数据挖掘、大数据框架应用、并行数据库、并行机器学习算法等方面的研究。实验总体设计方案如图1所示。使用Hadoop和Spark框架搭建大数据平台,同时指导学生学习基于Spark框架的并行数据挖掘算法,利用Hadoop提供的HDFS、HBase进行数据分布式存储。最后使用Spark框架提供的MLlib机器学习库进行自主学习和探索性研究,针对具体农业应用场景进行数据挖掘算法的分析与研究,实现交叉学科的创新型应用。
图1 创新实践总体设计
图2 大田作物平均反射光谱
原始的作物反射光谱数据包含水稻在三个生长周期(分蘖期、拔节期、抽穗期)中使用三种不同水层(干旱)处理的水稻反射光谱(共180×3=540条光谱数据),如图1所示。原始光谱数据中包含光谱噪声,需要指导学生进行大数据预处理与数据标注。使用5点Savitzky-Golay多项式回归方法对于反射光谱进行平滑滤波。
式(1)中,j为相邻的5个数据点,Xj为平滑处理的数据点。
同时计算一阶和二阶导数光谱。
式(2)中,F'(x)为所求数据点的一阶导数。
使用南京工业职业技术大学计算中心的云计算资源构建大数据计算平台,同时分组指导学生进行大数据平台相关硬件与软件的安装与配置,掌握大数据平台与框架的工作原理。大数据平台包括三台Intel(R)Xeon 6230R服务器提供计算资源,16GB DDR4内存,80GB硬盘存储容量,CentOS 6.9操作系统,如表1所示。
表1 大数据平台配置
大数据平台使用Hadoop 3.2.2和Spark 3.3.0作为大数据计算框架,其中通过Hadoop 3.2.2 提供的HDFS(Hadoop Distribute File System)为光谱数据文件提供分布式存储,Master主机作为Namenode节点,存储光谱数据文件,Node1和Node2主机作为DataNode节点,存储光谱数据文件副本,Hadoop采用完全分布式运行模式。Spark框架工作在Standalone模式,其中Master主机作为Master节点,负责接收提交的任务以及进行任务与资源的分配调度,Node1和Node2主机作为Woker节点,负责具体作业和任务的执行。
大田作物的反射光谱数据包含大量的作物生长信息,包括叶绿素、花青素、水分含量等,对于采集的大量的光谱数据,需要使用合适的数据挖掘算法进行数据降维、特征转换、特征提取,以及使用分类算法对于不同水分处理的反射光谱数据进行分析与处理。通过指导学生学习经典的机器学习与数据挖掘算法,如K-Means、支持向量机、神经网络等算法,使学生掌握数据挖掘算法的建模与调参方法,加强学生对于基于大数据的数据挖掘算法的自主学习与创新应用的能力,如图3所示。
图3 大数据平台光谱数据挖掘运行环境
使用Hadoop和Spark框架对反射光谱特征提取和分类识别之后,指导学生使用基于Spark的MLlib(Machine Learning Library)机器学习库对于光谱数据进行进一步的并行数据挖掘。MLlib机器学习库针对大数据平台提供了大量的算法模型,使用其提供的特征转换、特征提取、数据降维、回归与分类、模型转换等相关算法,建立光谱数据挖掘模型,如图4所示。针对不同算法在具体应用场景的运行效率进行探索性分析,分析不同算法的适用性和效率,进一步加强学生对于大数据与数据挖掘相关技术的应用与探索分析能力。
图4 基于MLlib的并行数据挖掘算法
一方面,通过将大数据相关技术与农业领域的实际问题相结合,使用大数据框架、数据挖掘算法对大田作物不同水分处理的光谱数据进行特征分析和分类分析,建立基于大数据平台的作物光谱特征分析与分类识别系统,可以有效对大量作物光谱数据进行分布式存储与并行数据挖掘,加快农业光谱数据的分析与处理速度。另一方面,通过将大数据技术应用在具体的农业信息学场景,可以提高学生对于大数据技术的学习兴趣,培养学生的创新思维能力。此外,通过大学生创新创业项目,进一步将科研、教育、生产一体化,探索我国高校产学研合作发展的路径与方法。
大数据技术专业实验实训教学需要将大数据相关技术与具体应用场景相结合,在培养大数据专业人才的同时,以大学生创新创业项目为驱动,将产学研合作的教学思想融入实践实训教学体系。在注重学生实际操作技能培养的同时,将创新应用和探索性研究融入实验实训教学,有利于培养学生自主学习和创新能力,同时也为应用型人才的培养探索新的发展路径和培养方法。