朱卫平 陈佳玲
摘 要:文章介绍在“商务智能与数据挖掘”课程教学内容中如何反映大数据时代的基本特征,在教学过程中如何引导学生对具有大数据特征的课程项目进行实践并开发相应智能教学工具,同时还讨论如何将数据挖掘与数据库和法律课程在大数据背景下进行联动教学。
关键词:大数据;数据挖掘;商务智能;智能科学;课程改革
0 引 言
随着近年来信息系统互联和接入技术的广泛发展,工作和生活中的许多数据被汇聚起来,使得我们进入大数据处理的时代。然而,数据如果只是“大”并没有太大意义,关键是如何最佳地挖掘高价值的数据和使用这些数据,使这些数据成为“智能数据”。在未来,智能数据可以告诉我们一个系统正在发生什么、为什么会发生、接下来会发生什么,以及我们应该如何应对[1]。智能数据将很大程度改变企业的商业模式和人们的生活方式。
由于巨大的社会需求和国家的政策宣传,对大数据处理相关的学习已经成为高等院校计算机类学习的一种新时尚。笔者所在院系,只要与大数据相关的毕业设计选题都有众多学生报名,竞争激烈,只要与大数据相关的课程学生都非常感兴趣。兴趣驱使对于教师的教学有很大的帮助,但也给教师在新形势下的课程提出更多的挑战。
数据挖掘是指从海量数据中自动识别具有某种特殊联系信息的过程,它包含数据收集、数据创建、数据管理、数据分析、产生价值信息等多个方面[2]。商务智能是指利用包括数据挖掘在内的信息技术对商务过程和决策进行优化而实现商业价值的一种技术。“商务智能与数据挖掘”课程就是讲授数据挖掘的基本理论和方法,并将其运用到商务智能方面的一门课程。随着当今信息量不断增长和商务智能需求的不断提高,该课程所涉及的内容已经成为当前信息技术领域研究和应用的热点。在新形势下,该课程具有以下几个特点:①新颖性。随着大数据浪潮的到来,商务智能和数据挖掘技术受到研究领域和工业领域的空前重视,许多研究课题不断涌现,并且其关注热度还在提高。②复杂性。数据挖掘的任务包括分类规则挖掘、聚类规则挖掘、关联规则挖掘、时序规则挖掘、特征规则挖掘等多个内容。每项内容都有专门的挖掘技术和众多的算法。在教学上必须对内容有所选择和侧重,保证适度的广度和深度。③交叉性。与多个学科与广泛的技术交叉,包括数据库技术、机器学习、统计分析、模式识别、信息检索、智能计算以及法律、经济等[3]。该课程的讲授需要和各个学科进行配合,统筹发展。
1 教学内容的变化
“商务智能与数据挖掘”课程教学内容应该反映大数据时代的基本特征,尤其应该在数据体量和数据多样性上与大数据处理紧密关联,同时可以采用目前流行的大数据典型应用作为课程例子讲授相关内容,方便在之后的大数据处理上进行扩展。
首先,在教学内容中应该体现数据体量的大小。在传统的数据挖掘课程中,对数据的处理并没有强调数据量的大小,更没有考虑到当今数据量极大膨胀和快速增长的情况,而且例子和习题的数据量也是小规模的,这与当前的大数据处理要求不符,因此有必要将数据挖掘的处理目标进行扩展。 教师可以使用典型应用来强调数据挖掘在大数据时代下新的处理目标,如讨论搜索引擎(谷歌、百度等的设计)和谷歌的流感趋势分析(Flu Trends),搜索引擎需要对大规模的数据进行爬取、关联、聚类、分类、存储等各种操作,并在数据的体量和运算速度上有较高的需求;谷歌的流感趋势分析则创新性的将人们在互联网上的操作与现实生活联系在一起,这两个例子涵盖了数据挖掘的主要方面,且内容新颖,易于激起学生的兴趣。
其次,在教学内容中应该体现数据多样性对处理复杂度的影响。在对“数据认识”这一内容的教学中,可以扩展到大数据处理需要的各种数据类型。只有对数据有基本的认识和分类,才能更好地挖掘数据。传统的数据挖掘課程对数据类型进行逐类分析,包括标称属性、二元属性、序数属性、数值属性等。这些都与大数据处理中数据类型的多样性相关,在讲授该部分内容时候应该予以强调,同时还应该将大数据处理中的重要概率如结构化数据与非结构化数据、静态数据与流式数据的概念对学生进行讲解,为他们以后的数据处理打下基础。
最后,在教学过程中的案例应该挑选具有大数据处理特征的典型应用。理论知识的教学只能算是教学的一部分内容,要想让这些理论知识变得生动有趣,需要在整个教学过程中适当加入一些结合大数据时代热点、有意思的实战案例。在实践中可以采用学生在日常生活中遇到的一些项目作为案例,如电子商务网站的物品排列与推荐、支付宝信用分计算、ofo小黄车的位置计算等。
2 教学方法的变化
在教学过程中,教师应该引导学生对具有大数据特征的课程项目进行实践,提高其对现实中各种限制条件的理解和处理能力,同时应该制作具有大数据特征的教学工具,让大数据技术为本课程的教学服务。
2.1 指引学生使用课程知识进行科学研究
数据挖掘是一门实践性很强的课程,想要学生有效地运行课堂中学习到的各种知识,最好的方式就是让学生亲手去实现各种算法和系统。在新的时代下,可以引导学生对精选的具有大数据特征的项目进行实践。
对于项目的选择应该符合两点:一是尽可能多地使用课程教学内容。在课程中,关联规则、分类、聚类和离群点分析是教学的重点,应该尽量包含进去,促进学生理解;二是具有大数据时代特征的最新应用。在实践中,笔者选取“大规模群组消费识别与行为预测”项目,该项目通过用户手机和环境传感器数据来识别商场中存在的消费群组并进行消费推荐。在获取大量的用户行为数据后,使用聚类算法将具有各种相似性的人员识别为群组。在进行聚类算法之前,可能需要将原始的传感器数据首先识别为动作数据如跑步、行走、握手、拥抱等,这需要使用到分类算法。在消费群组识别出来之后,可以基于历史数据进行关联分析,将与当前轨迹和动作最匹配的未来轨迹和动作预测出来。在所有的这些过程之中,可以使用离群点分析去除不相干的数据。endprint
在进行项目研究的过程中,应该让学生学习大规模数据下各种算法的限制和进行优化的必要性。当前的计算机类学生,普遍存在重编程而轻算法的现象,一方面是编程能力的培养容易进行且立竿见影,而算法的设计却需要较深的理论基础从而较难提高;另一方面也是学生未能感受到进行算法设计的必要性。因此,教师在引导学生进行项目研究的过程中,应该引导学生提高大数据处理算法的设计能力,如FP-growth算法在教材所给定的数据集上可以很快执行完成,而在大规模数据集合上可能相当长的时间内无法获得结果。类似这样的实践性问题不宜由教师细致解答,而应由学生自行讨论和解决。教师可以在旁观察讨论过程,鼓励学生进行各种尝试和探索,既培养学生解决实际问题的能力,又培养学生严谨的研究精神。
2.2 基于大数据的教学工具开发和运用
在鼓励学生理论结合实践的同时,教师也应该在教学工具的开发和运用中体现大数据时代的优势和特色,一方面使得学生感觉到大数据就在身边,数据挖掘算法触手可及,另一方面可以利用大数据的特点有效辅助教学,更好地开拓学生视野,培训其独立的学习思维能力。课程网站和课程微信号就是两个这样的教学工具。
1)支持大数据智能获取的课程网站。
课程网站应该在数据资源的获取上体现大数据时代的特征。在传统的课程网站中,所有的内容都是网站管理人员如教师手动进行更新,这就导致网络上存在大量重复建设的网站,但很少有网站能实时反映最新的知识点和教学资源。可以使用网络爬虫技术对网络上的相关内容如分类算法、聚类算法、关联规则等进行定时爬取,并展示相应的链接。这帮助学生在学习课堂内容之后,可以很方便地进行扩展学习,做到课上课下相结合。爬取的内容可以包括使用搜索引擎查找相关网页,如各大慕课和学习网站的视频资料以及相关专业领军研究团队的主页。
2)智能聊天微信公众号。
微信是目前学生广泛使用的工具。如果能开发微信公众号作为教学助手将可以有效地促进学生学习。微信公众号不应只是课程网站的简单复制,而应该体现其主动性和智能性,与课程网站错位发展。课程网站的特点是支持文件类型多,功能可以任意复杂;而微信公众号则胜在日常使用。微信公众号除了基本内容展示外,应该着重通知推送提醒和智能聊天。当教师发布通知时,如作业提醒、调换课、考试等,微信公众号向学生的微信进行推送,使学生可以实时接收到信息,同时微信公众号还提供智能聊天功能。使用聊天机器人设计在很大程度上可以吸引学生使用该教学工具,并促进学生利用碎片化的时间,随时随地方便快捷地进行在线学习。在线学习最主要的特点就是学习具有自主性,学生可以对学习和休闲做出合理安排,从而调动学生自主学习的意识,做到学习和休闲两不误[4]。教师也可以通过参与讨论和观察微信公众号的后台数据掌握学生的学习情况,并根据不同学生的情况进行针对性指导,从而达成一个教学上的良性循环和教学闭环。
对于该学习助手的开发,同样体现了大数据下的数据挖掘特征。智能聊天系统的搭建最重要的是构建知识库,知识库其中的很大一部分是通过文本挖掘的方式构建的。如何收集数据、如何进行文本分析和聚类、如何进行存储,对这些问题的解决可以锻炼学生的动手实践能力。
3 相关课程联动教学
数据挖掘是一门交叉性强的学科,其理论体系涉及数据库技术、机器学习、统计分析、模式识别、信息检索、智能计算以及法律、经济等多个学科内容。各类课程之间不仅有前置后置关系,也有相互影响的关系。在进行这些课程教授时,需要在整体上对各课程内容和教学目标有良好设计,促进各学科的联动性教学。
3.1 与数据库课程的联动教学
1)重复教学内容的简化。
数据库和数据挖掘作为计算机类专业与数据相关的重要课程,在计算机知识体系中有着重要地位,并且相互关联,因此背景知识可以统一进行讲授,这样更有利于学生学习该学科的完整结构。另外,随着时代的不断发展,数据库技术也在适应着时代的脚步,对于学生数据库学习的要求也随着增加,需要学生掌握一些数据库高级内容,如NoSQL、 OLAP、大数据管理等。由于这些内容与数据挖掘内容有交叉,同时其适用性和需求性来源于数据挖掘和大数据处理,建议在数据库课程教学中将此类内容去除,把更多的精力放在核心知识上面,同时将这些内容合并到数据挖掘课程中讲授。
2)与数据挖掘课程的衔接。
加强数据库课程和数据挖掘课程之间的相互衔接。数据挖掘的实体是数据,可以从数据属性、数据之间的关系、数据存储一致性等几个方面剖析数据。在此基础上,可以指导学生构建出适合数据挖掘的数据源。数据源是数据挖掘的前提,其体量大小和存取性能会直接影响到后面“挖掘”出知识的正确性和准确性。其次,教师可以在数据库课程中加强对数据结果进行分析的能力。数据挖掘的结果最终存储回数据库,如何对获得的结果进行观察和分析将是数据挖掘的基本技能。具体而言,可以要求学生对数据基本统计方法、数据可视化技术、数据结果分析工具进行学习;如果学有余力,还可以对一些高阶工具如SAS、SPSS、Matlab、WEKA等进行学习。
3.2 与法律课程的联动教学
大数据给人们观察世界带来了全新的視角,同时这种新技术的到来也对人们的生活和法律产生重大的影响[5]。2015年,世界经济论坛发布的《全球风险报告》指出,随着越来越多的实物连接到互联网上以及日益敏感的个人信息(包括健康和财务)被企业存储到云端设备中,导致在影响力和发生概率两方面超出平均水平的风险[6]。而个人隐私和数据信息的所有权也成为广泛关注的问题。
对大数据时代下数据挖掘的学生而言,一方面对技术的探索永无止境,但另一方面对于使用该技术所造成的后果和法律风险却知之甚少。在数据挖掘的课堂中,在教授相关前沿知识的同时,有必要对学生进行相关的法律普及,使得在今后的工作中明白何者能为何者不能为,规避法律风险,使得相关技术工作符合社会利益。同时,也应该注意到,由于新技术出现过快,很多内容对现行法律制度也造成了相当的影响,很多内容具有相当的争议性。应该组织相关的讲座,对现有的已出台的相关法律法规,如《中华人民共和国网络安全法》,《电信和互联网用户个人信息保护规定》等进行解读,同时针对教师普遍关心的问题如“人肉搜索”、数据爬虫等进行讨论。在这些过程中,教师可以进行三个层次的探讨:一是法律明令可为和不可为的内容;二是具有法律争议的相关技术应用的社会考虑和相关风险;三是是否可以利用更先进的技术解决这些问题,如“匿名化”技术、分布式记账技术、事后追责技术等。
4 结 语
“商务智能与数据挖掘”是针对高年级本科生或研究生开设的计算机类重要课程,该课程在大数据时代下体现了新的特征。笔者介绍讲授该课程时在教学内容和教学方式方面的改变,并且和其他相关学科的联动教学,发现使用大数据理论对传统教学内容进行改变可以提高学生的学习兴趣,而和学生一起开发基于大数据智能获取的课程网站和具有智能聊天功能的微信公众号则提升了学生的动手实践能力。教师可以看到,虽然数据挖掘逐渐成为了各高校的热门课程,但在教学上仍然有很大的改进空间,教师需要不断提高自身知识水平,创新教学思维和教学方式,使学生能够熟练掌握理论知识并将其应用于实践,为社会创造更多的高质量人才。
参考文献:
[1] 钛媒体. 从“大数据”到“智能数据”[EB/OL].(2014-10-26)[2017-04-03]. http://www.tmtpost.com/162182.html.
[2] 马守东, 龚永峰. 关于数据挖掘课程教学探索[J]. 电脑编程技巧与维护, 2013(24): 136-137.
[3] 詹少强. 大数据背景下的数据挖掘课程教学新探[J]. 长春教育学院学报. 2014, 30(22): 81-82.
[4] 何肖潇. “学习助手”公众平台[J]. 教育界, 2015(27): 192.
[5] 李海英. 大数据的法律挑战和建议[J]. 大数据, 2016, 2(2): 100-107.
(编辑:史志伟)endprint