席振 熊立伟 刘芬良
摘要:R语言是一种统计计算和绘图的语言和环境,当前在地理信息科学专业背景下开设的《R语言》课程以统计学和概率论为基础,在融合GIS专业背景方面,存在着GIS相关内容较少、新算法学习滞后等问题。针对这些问题进行探讨,提出对应的改革方法,以加深学生对R语言智能处理地学信息的理解,使学生更好地掌握地理信息科学专业知识,提升专业知识技能。
关键词:R语言;地理信息科学;机器学习;教学探索
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2021)31-0227-02
Exploration of R language teaching under the background of geographic information science
XI Zhen, XIONG Li-wei, LIU Fen-liang
(School of Municipal and Geomatics Engineering, Hunan City University, Yiyang 413000,China)
Abstract: R is a language and environment for statistical calculation and drawing. The current "R Language" course offered under the background of geographic information science is based on statistics and probability theory. In terms of integrating the background of GIS, there are problems such as less GIS-related content and lagging in the learning of new algorithms. To discuss these issues and propose corresponding reform methods to deepen students' understanding of R language intelligent processing of geoscience information, so that students can better master the professional knowledge of geographic information science and improve their professional knowledge and skills.
Key words: R language; geographic information science; machine learning; teaching exploration
R是一种统计计算和绘图的语言和环境。R有很多独有的特征:完全免费,全面的统计研究平台,制图功能十分强大,囊括了其他软件所不可用的、与时俱进的统计计算程序,新方法的更新速度是以周来计算的 [1]。正是由于R有这么明显的优势,在很多高等院校多种专业都开设了R语言相关的课程。
从MOOC平台查询R语言课程可以发现有多门R语言相关的课程。国家精品课程包括《多元统计分析与R语言建模》《多元统计分析》。其他包括《R语言与金融数据挖掘》《大数据中的R语言编程》等。其中《多元统计分析与R语言建模》是统计学专业的核心课程。课程内容包括多元统计分析概述;多元数据的数学表达;多元数据的直观表示;多元相关与回归分析;广义与一般线性模型;判别分析及R使用;聚类分析及R使用;主成分分析及R使用;因子分析及R使用;对应分析及R使用;典型相关分析及R使用;多维标度法及R使用;综合评价方法及R使用。除了慕课平台,在Bilibili站中有大量R语言的教学视频,主要分为两类:其一为R入门基础课程,主要包括R的基础语法与操作教学视频,有各高校上课的视频也有网站个人录制的视频;其二为R语言处理专业数据教学视频,如医学统计学、生物信息学、金融学等,这方面的视频以个人录制为主,讲解面向对应专业,有的放矢,一般有理论分析,也有案例解析,对具有专业背景学生学习R语言处理专业数据的理想教学视频。在其他的教学网站,如智慧树也有许多R语言相关的课程,课程内容大体与上述两类类似。
从已设置R语言课程可以看到,当前R语言课程的教学内容主要包括R语言的基础编程、可视化编程、机器学习算法及其在某些专业的应用内容。
1 GIS专业R语言教学内容分析
地理信息科学专业旨在培养学掌握宽厚的地理信息科学与地图学的基本理论、基本知识和基本技术。具备数据采集、编辑、处理和分析以及地理信息系统应用开发能力,能在城市规划、国土资源以及测绘和地理信息行业的企事业单位和政府相关部门从事数据采集、处理、分析以及应用开发等工作。R语言与地理信息科学专业课程之间存在三个方面的紧密联系:
1.1 基于地理位置的可视化
地图学是地理信息科学的一门主要课程,空间数据的表达和可视化是本专业一项基本工作。R语言在地图可视化方面有大量优秀的函数包,如GISTools包提供多个常用的地图制图和空间数据处理工具,具有完善的综合制图功能。recharts包是基于Echarts接口的交互式可视化二次开发地图可视化包。leaflet包提供基本的在线地图(如Google Map、OpenStreetMap)可视化功能,支持地图的交互式操作,支持不同来源地学信息的叠加可視化。
1.2 空间统计分析
R作为专业的统计软件,在数据分析中,可以快速一键式的完成定性分析到定量分析。空间地学数据除了具有一般数据的数学特征外,还具有空间地理特征的属性,R语言有许多可以一键式快速分析空间数据的空间统计分析函数工具包。另外,R语言由于语言的特性,对处理数据的规模大小不敏感,这是显著优于其他的空间统计软件。如spdep是空间决定性工具包,包括空间权重矩阵计算、空间自相关分析、空间滤波模型等空间统计分析数据,功能十分强大。GWmodel包是空间关系异质性地理加权技术函数包,囊括了地理加权相关的回归、主成分分析、汇总统计、判别分析等地理加权建模技术,是当前地理学中研究热点和研究难点之一[2]。
1.3 空间数据的机器学习模型
机器学习是研究计算机模拟或实现人类的学习行为,以获取新的知识和技能,重新组织已有的知识结构不断改善自身性能。设计多学科知识,如统计学、概率论、算法复杂度理论等。是当前和今后一段时间持续的一个研究热点。R语言中的机器学习函数包从古典的判别分析、贝叶斯方法到神经网络、深度学习等,覆盖全面,更新以周为单位[3]。在地理信息科学中,对空间数据的分析、模拟和再现是地理信息科学重要的一环。当前,GIS自我学习的能力还不足,自我检验与验证是各类地学数据分析的重要研究内容之一。基于机器学习的空间数据分析技术与应用包含数据的建模与分析、空间优化、智能主体模拟等,可以充分地与R语言中机器学习算法函数包相结合,以提高效率,提高精度。
2 GIS专业R语言教学内容探索
对于GIS专业设置的《R语言》课程,目的是加深学生对R语言在地理信息专业中的应用理解,使学生更好地掌握R语言的编程技巧。我校地理信息科学专业《R语言》课程设置为32个学时,16个学时理论课,16个学时实践课。
对于GIS专业设置的《R语言》课程,目的是加深学生对R语言在地理信息专业中的应用理解,使学生更好地掌握R语言的编程技巧、对应地理信息科学的相关算法,提升处理和分析专业地学信息的技术,为学生将来更好地融入不同的工作岗位,适应地理信息科学日新月异的发展变化奠定良好的基础。从地理信息科学专业设置的《R语言》课程中理论讲授内容、数据和方法及实践内容等四个方面,把《R语言》课程设置为32个学时,16个学时理论课,16个学时实践课。
2.1 理论教学
R语言基础语法、数据常规处理及基本可视化是R语言学习深造的基础,特别对以前从未接触过R语言的初学者。因此,课程理论课中8个课时为基础入门教学设置。内容包括:简介与语言环境安装;数据结构与基础语法;常用数据处理函数;基础可视化。
第二部分为R中的空间数据表达与处理。引入R语言处理和可视化空间数据的内容,使学生能够更好地理解地理信息科学专业课的内容,更快地融入到专业学习上。首先需要指导学生掌握空间数据与普通大数据在R中不同的数据结构;而后学习空间数据在R中的模型建立与分析;最后是R对空间数据的可视化和交互式可视化(与WebGIS课程教学互动)。这里,根据地理信息科学其他专业课程的教学进度,要把空间分析、遥感图像处理、WebGIS二次开发等内容引入到R语言中,详细学习并实践专业课程内容在R中的体现,使同学们能够根据实际情况灵活运用R语言解决遇到的问题。
2.2 实践课程设计
结合理论教学,地理信息科学背景下的《R语言》实践课程需要让学生理解并熟练应用下列内容:R语言数据结构与基础语法;基础可视化与空间数据表达;空间数据处理与分析;简单的大数据挖掘模型。围绕这四块内容,16个课时的实践课程设置为:数据结构与基础编程语法(2课时);基础数据读写与数据处理(2课时);统计数据可视化(2课时);空间数据结构与数据分析(2课时);空间数据可视化与交互式可视化(2课时);线性回归与空间数据探索性分析(2课时);选址与预测综合分析(4课时)。
3 结语
随着信息社会的快速发展,R语言在地理信息大数据的处理方面发挥越来越重要的作用,在地理信息科学专业开设R语言的课程十分必要。我校从2019年在地理信息科学专业开设R语言课程,在课程的教材选择与教学内容筛选方面一直在摸索。通过对R语言与地理信息科学专业结合应用的分析,从教学内容、数据和方法实践等方面进行深入讨论,建议将R语言强大且更新周期短的新型算法用于地理信息科学专业R语言的理论和实践教学中,设置一定的课时量在理论和实践设计中添加空间数据与机器学习相结合的内容,避免出现地理信息科学专业背景下R语言课程脱离专业实际。
参考文献:
[1] 汪浩,李莹.大数据/人工智能背景下IT专业基于R的概率论与数理统计教学改革[J].计算机教育,2021(3):180-184.
[2] 卢宾宾. R语言空间数据处理与分析实践教程[M].武汉:武汉大学出版社.
[3] 宋关福,卢浩,王晨亮,等.人工智能GIS软件技术体系初探[J].地球信息科学学报,2020,22(1):76-87.
【通联编辑:李雅琪】
收稿日期:2021-05-22
基金项目:湖南省普通高等学校教学改革研究项目(HNJG-2020-0787)
作者简介:席振(1986—),河南驻马店人,博士,講师,研究方向:地质资源与地理信息处理。