数据科学与大数据技术专业背景下《数据可视化技术》教学内容探讨

2019-09-18 08:06刘三民石建国詹郭睿
牡丹江教育学院学报 2019年7期
关键词:可视化分析方法

杨 丹 陶 皖 刘三民 石建国 詹郭睿

(安徽工程大学计算机与信息学院,安徽 芜湖 241000)

一、研究背景

2016年2月,北京大学、中南大学及对外经济贸易大学等3所高校获批数据科学与大数据技术专业;2017年3月,复旦大学、中国人民大学等第二批32所高校获批;2018年3月,南开大学、厦门大学等第三批248所高校获批。据教育部统计共283所高校获批数据科学与大数据技术专业。该专业重点培养具有以下三方面素质的人才:一是理论方面的,主要是对数据科学中模型的理解和运用;二是实践方面的,主要是处理实际数据的能力;三是应用方面的,主要是利用大数据技术解决具体行业应用问题的能力[3]。文献[7]分析了大数据技术的产生背景,介绍了大数据的基本概念以及重要的应用领域,归纳总结了大数据处理的基本流程:包括数据采集、数据处理与集成、数据分析和数据解释4个阶段。针对其中的关键技术,如MapReduce、GFS、BigTable、Hadoop以及数据可视化等,介绍了基本的处理过程和组织结构。文献[8]从认知、可视化、人机交互的综合视角出发,分析了支持大数据可视分析的基础理论,包括支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论。并讨论了面向大数据主流应用的数据可视化技术:面向文本、网络、时空、多维的可视化技术,同时探讨了支持数据可视分析的人机交互技术。文献[9]围绕大数据分析的本质, 对大数据可视化技术的内涵进行了剖析, 然后从人的视觉原理和可视化两个角度对可视化分析技术原理进行了综述, 最后介绍大数据可视化在新闻传媒和态势感知两个领域的应用情况。文献[10]从是否开源的角度,对大数据可视化工具进行比较分析,并介绍3个典型可视化工具的教学实例。

综上所述,在大数据与人工智能技术快速发展以及数据科学与大数据技术专业大量开设的背景下,如何在新工科教育理念指导下开设好《数据可视化技术》这门主干课程成为当务之急。本文归纳总结课程定位以及课程目标,对该课程的教学内容进行了详尽的探讨。

二、课程定位分析

本课程的先修课程有高等数学、线性代数、数据结构、数据分析语言及应用、大数据技术基础、数据挖掘与分析等课程。后继课程有专业方向综合实践、毕业设计(论文)。

数据可视化有三个基本功能:

1.信息记录:将浩瀚如烟云的信息记录下来最有效的方法就是信息成像或图记载;

2.信息推理和分析:数据分析的任务通常包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联和关系等。将信息以可视方式呈现给用户,可引导用户从可视化结果中分析和推理出有效信息,提高信息认知的效率。

3.信息传播与协同:俗话说一图胜千言,人类从外界获取的信息70%以上来自于视觉感知[2]。将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,达到信息共享、信息协作、信息修正和信息过滤等目的。当大数据以直观的可视化的图形形式展示在人面前时,人往往能够一眼洞悉数据背后隐藏的信息并转化为知识[8]。如图2所示是自然科学领域1431种杂志的文章之间的217287个相互引用关系网络的简化结果。所有1431个结点被分割聚合成54个模块,每个模块结点是一个聚类,大小对应聚类中原来结点的数目。

图1 自然科学领域的1431种杂志互相引用的聚类数据可视化

从上面的分析可以看出,在数据科学与大数据技术专业培养目标中,不管是用在数据分析的可视化呈现阶段还是单独的数据可视分析,数据可视化都具有相当重要的作用和地位。

如图2是安徽工程大学2018级数据科学与大数据技术专业课程配置流程。

图2 数据科学与大数据技术专业课程配置流程

通过本课程的学习,考虑到数据可视化技术的应用领域和当今数据可视化技术发展趋势,要求学生在课程学习中从人、数据、可视化流程三个层面理解数据可视化基本概念[1],掌握包括时空数据、地理信息数据、高维非空间数据、层次与网络数据等不同类型数据的可视化方法[2],使学生具备解决实际问题的能力,为继续学习相关知识和今后的工作打下坚实的基础。

本课程的任务是通过课堂教学,使学生掌握时空数据、地理信息数据、层次与网络数据等不同类型数据的可视化方法以及对数据可视化综合应用的了解,为数据可视化技术在人工智能和大数据等其他行业应用打下基础。支撑专业学习成果中相应指标点的达成。

课程目标对学生能力要求如下:

由图3可知,当训练样本大小为3000时,准确率ACC(Accuracy)、查准率P(Precision)、F1值皆达到最大值,且ROC曲线下面积AUC(Area Under Curve)达到最大值。AUC可用于评价模型对客户是否逾期的区分能力,AUC值越大,模型的区分能力、泛化性能越强。为保证良好的模型训练效果,同时减少训练成本,本文确定训练样集大小为3000。在实证研究中从训练集分层随机抽取3000样本对SVM模型进行训练,得到训练的模型,并用测试集进行检验,输出结果,各项指标如表3所示,图5为ROC曲线图。

课程目标1。深刻理解数据可视化技术的含义,掌握数据可视化技术的基本原理与方法,掌握数据可视化技术的相关概念。

课程目标2。具有针对不同的数据可视化数据类型和不同的应用场合,运用多方面数据可视化的应用设计能力,具备查阅学习相关数据可视化软件及方法的能力。

课程目标3。理解数据可视化技术在大数据技术应用中的重要性,培养学生将数据可视化应用于信息管理系统和大数据分析的能力[6]。使用Python、Gephi、Matlab等工具实现基本数据类型的数据可视化,具有分析实验结果的能力[3]。

三、课程教学内容探讨

(一)理论教学内容

本课程的理论教学内容共10章,采用启发式教学,激发学生主动学习的兴趣,培养学生独立思考、分析问题和解决问题的能力,引导学生主动通过实践和自学获得自己想学到的知识。并采用电子教案,多媒体教学与传统板书教学相结合,提高课堂教学信息量,增强教学的直观性。穿插案例教学,理论教学与工程实践相结合,引导学生应用基本理论知识对数据可视化案例进行分析。并突出课内讨论和课外答疑相结合的互动式教学方式。理论教学内容及要求如下:

1. 数据可视化简介:要求掌握数据可视化的基本概念、数据可视化的发展和应用领域。

2. 视觉感知与视觉通道:要求掌握视觉感知与认知的定义和相对性、视觉通道的类型和特性[2]。

3. 数据:掌握数据属性和数据相似性度量;掌握数据统计特征和数据的不确定性;掌握数据质量、数据预处理步骤、数据预处理与可视化;掌握文件存储、数据库、数据仓库、数据存储;理解统计分析方法、探索性数据分析、数据挖掘、可视数据挖掘与可视分析[1]。

4. 数据可视化基础:掌握数据可视化流程;掌握数据滤波、数据降维、数据采样以及数据聚类和配准;掌握可视化编码元素的优先级以及统计图表的可视化;掌握可视化设计框架、数据的筛选、视图选择与交互设计、数据可视化的直观映射以及可视化隐喻[5]。

5. 时空数据可视化:掌握一维标量数据可视化;掌握颜色映射法、等值线提取法、高度映射法、标记法等二维标量数据可视化方法;理解等值面绘制、直接体绘制等三维标量数据可视化方法;了解多变量空间数据可视化方法;掌握时序数据可视化方法。

7. 高维非空间数据可视化:掌握主成分分析法、多维尺度分析法等高维数据变换;掌握高维数据的可视化呈现;理解高维数据的可视化交互方法[2][5]。

8. 层次与网络数据可视化:掌握层次数据可视化方法;掌握网络数据可视化的方法;了解动态网络数据的可视化;了解图可视化中的交互与简化。

9. 跨媒体数据可视化:掌握文本可视化释义及基本流程;掌握单文本以及多文档可视化方法;掌握社交网络可视化的基本方法以及案例分析;理解系统日志数据可视化。

10. 可视化交互与评估:掌握布局、过滤、分组等可视化交互方法[8];了解可视化价值和评估方法。

(二)实验教学内容

实验是本课程一个重要环节,对学生完成数据可视化技术的教学具有重要的作用,通过实验使学生掌握数据可视化技术的基本原理与方法。巩固课堂所讲授的内容,提高分析问题解决问题的能力。要求态度认真、原理清楚、方法正确、程序完整、实验报告工整。

完成6个实验项目(其中4个必做实验,2个选做实验),按照自编实验指导书要求独立完成或团队协作完成,并提交实验报告。在实验教学的基础上,授课教师可以酌情增加综合实践环节,以提高学生的工程实践素养以及解决实际问题的能力,将知识无缝转化为实践动手能力和问题解决方案。实验项目名称及要求如下:

1.数据可视化绘制与编辑:要求用Python编程实现NumPy库、Matplotlib库中可视化绘制与编辑基本函数及方法。

2.统计图数据可视化:要求用Python语言编程实现饼图、散点图、盒须图等统计图数据可视化。

3.二维数据可视化:要求用Python语言编程实现向图表中添加数据表、使用subplots子区、创建等高线图、用散点图理解数据等[3]。

4.三维数据可视化:要求用Python语言编程实现3D柱状图、3翼面图、3D直方图等三维图形的创建[4]。

5.层次与网络数据可视化(选做):要求用Gephi实现层次与网络数据导入、结点筛选、结点大小、结点颜色、链接、标签等功能[6]。

6.数据可视化交互(选做):要求用Gephi实现整理图形、力导向布局、筛选数据、分组、动态图形等交互功能[6]。

四、结语

在大数据与人工智能技术快速发展以及数据科学与大数据技术专业大量开设的背景下,本文在新工科教育理念指导下归纳总结《数据可视化技术》课程定位以及课程目标,对该课程的教学内容进行了详尽的探讨。通过信息管理与信息系统(大数据方向)专业2014级和2015级两轮教学实践的不断改进与优化,取得了良好的教学效果,为数据科学与大数据技术专业《数据可视化技术》课程开设打下了坚实的基础。

猜你喜欢
可视化分析方法
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
思维可视化
自然资源可视化决策系统
隐蔽失效适航要求符合性验证分析
分析:是谁要过节
电力系统及其自动化发展趋势分析
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法