张小松 郭琳虹
摘 要:大数据技术的快速发展,导致大数据人才市场需求也在发生着变化。对应大数据技术体系各个阶段的技术人才需求,根据数据科学学科特点和专业关键能力研究,通过数据科学与大数据技术专业课程建设实践,构建符合新工科要求的以培养能够从事大数据相关工作的应用型和创新型大数据专门技术人才为目标的课程体系。
关键词:数据科学;大数据技术;课程体系
中图分类号:G642 文献标识码:A DOI:10.3969/j.issn.1003-6970.2021.02.017
本文著录格式:张小松,郭琳虹.新工科背景下数据科学与大数据技术专业课程体系建设探索与实践[J].软件,2021,42(02):
057-060
Exploration and Practice of the Construction of Data Science and Big Data Technology Major Curriculum System under the Background of New Engineering
ZHANG Xiaosong, GUO Linhong
(Tangshan University, Tangshan HeBei 063000)
【Abstract】:The rapid development of big data technology has led to changes in the market demand for big data talents. Corresponding to the needs of technical talents at each stage of the big data technology system, the characteristics of the data science discipline and the research of key professional capabilities are researched and analyzed. Through the practice of data science and big data technology major curriculum construction, the curriculum system that meets the requirements of the new engineering is constructed with the goal of cultivating applied and innovative big data specialized technical talents who can engage in big data-related work.
【Key words】:data science;big data technology;curriculum system;
0引言
数据科学与大数据专业的设置,完全契合了“新工科”建设的需求,即学科交叉融合、解决产业新问题与引领未来技术和产业。作为本地区第一所开设该专业的高校,在多年应用型人才培养经验的基础上,引入新工科专业建设思维,加强专业课程体系建设,采用“大数据+”的培养模式,努力培养具有多学科交叉能力的大数据工程与应用实践方面的人才。对于数据科学与大数据技术专业的人才培养,从专业要求角度看,“有技术、懂业务”应是人才培养设计的核心[1]。而文献[2]给出了数据科学人才培养的四点建议:重视基础学科的学习,系统地掌握知识发掘方法,掌握高效的数据处理方法以及精通数据科学在不同领域中的应用。
数据科学是一个新兴的科学领域,它需要一種多学科的方法,并且与大数据和数据驱动技术有着紧密的联系,这些技术为所有研究和行业领域带来了变革性的影响。他们的可持续发展需要对传统的教育模式和现有课程进行重新思考和重新设计。但是,目前大多数现有的大学课程和培训计划都是基于可用的课程构建的,涵盖了数据科学和通用数据管理专业人员相关的有限能力和知识领域。这可能会导致未来的数据科学毕业生在实际工作环境中,在知识和能力方面造成差距。
数据科学教育需要新方法,教育和培训数据科学与大数据技术专业人员需要一个新模型,该模型必须在设计中反映研究和行业领域中数据的整个生命周期,并要求拥有广泛的技能来使用数据洞悉组织过程及其改进[3]。这种模型必须建立在对现代数据科学要求的透彻分析之上,以定义能力概况、所需技能和其他专业智能特征。在科学、技术、研究、商业和教育等相互联系的部门中连接不同的术语,操作模型也面临着概念上的挑战,这些共同为一个新兴的职业创造了一个生态系统。
图1说明了EDISON数据科学框架[3]的主要组成部分及其相互关系,这些概念为数据科学与大数据技术专业的发展提供了概念基础。数据科学能力框架包括数据专业人员在工业,研究和整个职业道路的不同工作环境中成功工作所需的共同能力。数据科学能力框架包括使数据科学与大数据技术专业人员参与团队并在现代敏捷数据驱动型企业中工作所需的常见软硬技能。数据科学能力框架为定义数据科学知识体系提供了基础,数据科学知识体系是数据科学从业人员执行其职业中与数据相关的所有过程所需的知识。数据科学示范课程可以被视为一个蓝图,教育者和培训者可以使用它来制定各种教育机构和针对不同目标群体的课程。数据科学示范课程的定义应结合最佳实践,并以教育理论为基础,以实现所需的学习成果。数据科学人才与职业分类定义有效的组织结构和相应的角色,同时还可以用于建立个人职业道路以及组织和经济部门之间的相应能力和技能转移能力。数据科学科学学科分类将用于保持四个核心组成部分之间的一致性。
2 数据科学与大数据技术专业的特点
2.1数据科学的跨学科性质
数据科学本質上是跨学科的。处理数据需要掌握各种能力和概念,包括许多传统上与统计、计算机科学和数学领域相关的能力和概念。数据科学融合了所有这三个学科的许多教学内容,但它既不是这三个学科的简单交集,也不是这三个学科的超集。以数据为中心的课程整合是有效的数据科学教学计划的基本特征,并导致以协同方式解决问题。
2.2 以数据为核心
获取数据、整理数据、管理和处理数据、探索数据、定义问题、执行分析以及传达结果的递归数据周期是数据科学经验的核心。本科生需要理解和实践数据周期的所有步骤,以便参与实质性的开发和研究问题,学生需要具备“思考数据”的能力[4]。从基础课程到专业课程再到选修课程,数据实践经验都必须在所有课程中发挥核心作用。这些实践经验应包括来自各种来源的原始数据,并应涉及清洗、转换和构建数据以进行分析的过程。数据科学与大数据技术专业的学生必须经常遇到基于项目的具有真实数据的真实世界的应用程序,以补充基础算法和模型,实践经验至关重要。
2.3 分析思维
数据科学提供了整合和使用计算和统计思维来解决问题的机会,而不是一味强调某一种思维。计算和统计思维的两个支柱不应分开教授。它们之间的平衡可能会从一门课程转换为另一门课程,但是为了实现最有效且最高效的教学效果,应该同时存在两者。
2.4 数学基础
数据科学与大数据技术专业人员使用模型来理解世界,而数学为这些模型提供了语言,因此,数据科学与大数据技术专业人员需要在数学上有坚实的基础。但是,传统的数学课程通常会延迟抽象数学与混乱的现实世界中的问题之间的联系,尤其是涉及数据的问题。因此,在对数据驱动的问题进行建模的背景下,高效的数据科学与大数据技术专业应该简化数学课程,将重点放在数据科学上,而不是理论推导或证明上。矩阵代数是通过求解线性系统来激发的,导数是通过优化和灵敏度分析来激发的,而积分是通过概率应用来激发的。
3 数据科学与大数据技术专业的关键能力
3.1计算和统计能力
数据科学由一种解决问题的方法组成,用于在经验环境中工作,必须从数据中提取含义。这种方法是统计、计算机科学和数学中思维方式的综合。处理数据需要全面的计算能力,数据科学与大数据技术专业学生必须准备好使用工作场所和研究实验室中常见的数据。例如,访问和组织数据库中的数据,从网站上抓取数据,将文本处理成可以分析的数据以及确保安全和机密的数据存储,都需要具备全面的计算能力。这些计算问题解决能力会在数据科学专业人员的整个工作流程中反复出现。该专业的毕业生应该精通许多基础软件能力、计算机科学学科的相关算法和计算问题解决方案。为了为数据科学职业做好准备,学生还需要配备并接触专业的数据分析软件包,并且需要理解构成这些软件包的编程原理和算法问题解决原理。另外,统计思维是一种通过数据了解世界的方法,涉及从问题提出到结论的所有内容。数据科学与大数据技术专业人员需要了解基本的统计理论。学生应了解数据分析、数据收集、建模和推理的基本统计概念。具备基本的理论基础的丰富知识将有助于为他们的分析和模型的局限性提供信息。成功的数据科学与大数据技术专业的毕业生将能够运用统计知识和计算能力来制定问题、计划数据收集活动或识别和收集相关的现有数据,然后分析数据以提供见解。
3.2 数学基础能力
从数学方面来看,数据科学与大数据技术专业的重点应该放在选择、拟合和使用数学模型上。由于数据驱动的问题通常是混乱且不精确的,因此学生应能够通过培养结构化的数学问题解决能力来对这些问题设计数学结构。学生应具有足够的数学知识,以了解统计和机器学习中常用模型的基本结构以及相关算法的优化和收敛性问题。尽管这些工具所需的工具包括微积分、线性代数、概率论和离散数学,但这些课程中的内容将进行适当调整,使其更符合该专业的数学基础能力需求。
3.3 模型建立与评估能力
首先,统计模型用于描述、预测和解释过程,但它们也用于传达理解并为将来的模型奠定基础。非正式建模涉及识别潜在的变异源,辨别随机变异和确定性变异,以及了解如何用数学和计算方法对它们进行建模。毕业生还必须精通数据可视化,这是非正式建模中的重要工具,因为它可用于与其他人进行交流并找出拟议模型中的弱点。其次,毕业生应该能够建立和评估统计数据和机器学习模型,采用各种形式的推理程序,并从分析中得出适当范围的结论。这包括了解数据问题如何影响统计结果的分析、解释和概括。毕业生还应该能够在数据分析中考虑包括规模问题的计算因素。
3.4 算法设计和软件开发能力
数据科学与大数据技术专业的毕业生应该能够运用算法解决问题的能力来完成当前的任务。这些措施包括定义问题的明确要求、分解问题、使用有效策略来获得算法解决方案以及通过使用合适的高级语言进行编程来实现解决方案。毕业生应该了解所设计软件以及所使用的库和软件包的内存和执行性能,并能够使用适当的工具来维护其软件,能够利用现有的软件包和工具来解决其计算问题。
3.5 数据治理能力
数据治理涉及在整个问题解决过程中管理数据,主要包含两个主要步骤。一是数据准备,毕业生应该能够处理来自各种来源和格式的数据。数据可能来自网页、数据库或流,并且可能包含图像、声音或视频以及数字或文本。这些数据可能是通过受控实验或观察性研究收集的,也可能是通过传感器或自动化程序收集的机会数据。在给定特定数据集的情况下,毕业生应该能够准备将数据用于各种统计方法和模型,并应认识到数据质量和数据收集方式如何影响结论。二是数据管理。数据科学与大数据技术专业人员不仅必须准备数据进行分析,还必须确保数据在通过分析的所有阶段时的完整性。这需要使用关系数据库维护版本控制,并在合并来自多个源的数据时跟踪数据出处。
4 数据科学与大数据技术专业课程体系
数据科学与大数据技术专业课程知识体系流程图如图2所示,整个课程體系包含数据科学基础、数学基础、统计模型、算法设计与软件开发、机器学习与数据分析、数据治理及综合性项目实践等七个方面的课程。只有依托专业领域,建设数据科学类课程,与大数据技术专业教育相辅相成,方能适应不同层次的人才需求[5]。
4.1 数据科学基础
学生将理解使用高级语言来探索、可视化和提出有关数据的问题。引入一种更具算法性的语言,以帮助学生理解自己所体验的高级功能背后的思想和结构。数据科学基础方面涉及到的课程主要有数据科学与大数据技术导论等。
4.2 数学基础
数据科学与大数据技术专业的学生将数学工具与实际问题联系起来。与纯粹的数学寻求建立理论并证明命题的方法不同,数据科学是在了解数学方法的价值的同时了解它们的局限性。数据科学与大数据技术专业的学生在整个数学训练中还应发展出一种几何、直观、可视化的思维方式。该课程强调数学建模,尤其是线性和多项式模型。数学基础方面涉及到的课程主要有高等数学、线性代数、离散数学、概率论与数理统计等。
4.3 算法设计和软件开发
为了培养扎实的计算能力,数据科学与大数据技术专业的本科生应学习基础计算机科学,并为算法问题解决和软件开发提供支持。学生必须培养算法设计能力来理解问题,将其分解为可管理的部分,评估替代性问题解决策略,并得出可以有效解决问题的算法。学生应能够使用过程和功能编程技术及其相关的数据结构补充其算法,应了解工具的适当用法和可用的软件包。随着与数据科学相关的数据和处理的不断发展,从规模上讲,该专业的学生应该培养处理更大数据集的能力,能够在并发编程中应用技术来构建执行数据并行处理的系统,还必须能够使用当前和新形式的分布式数据存储,作为上述数据管理领域的一部分。算法设计与软件开发方面涉及的课程主要有程序设计基础、数据结构、面向对象程序设计、大数据应用开发语言等。
4.4 数据治理
数据科学与大数据技术专业学生必须理解并能够有效地应用数据治理原理。它比传统的数据库管理要广泛得多,并且必须包括支持大数据所带来的数量和速度的系统。因此,该专业必须将数据查询语言的知识应用于关系数据库和新兴的大型存储NoSQL数据系统,并且必须能够通过Web服务从结构较少的系统访问数据,对数据进行较低级别的访问可从Internet上获取。收集完数据后,数据治理包括使用软件知识和技能进行清理和初始结构化,然后将数据转换为探索、可视化和分析所需的结构化形式。数据治理方面涉及的课程主要有数据采集与网络爬虫、数据导入与预处理、大数据技术原理与应用、非结构化数据存储与分析等。
4.5 统计模型
统计模型方面的课程有助于向学生介绍数据的统计分析和推理框架的要素。基础是线性模型,然后将其与非线性方法进行比较。以第一年数据科学导论课程中引入的重要概念为基础,这些概念构成了任何统计分析的基础。所有的想法都牢固地扎根于现实数据中并从中得到启发。课程内容包括:探索性数据分析方法和图形数据分析方法、估计和检验、仿真和重采样、模型选择与性能等。统计模型方面涉及的课程主要有统计学、数值分析、数据建模等。
4.6 机器学习与数据分析
该方面的课程融合计算机科学中机器学习的算法观点和统计思维的预测观点。重点是常见的机器学习方法及其在各种学科中的应用。学生不仅将了解统计学学习的理论基础,还将获得成功应用科学和工业新问题所必需的实践技能。包括进一步探索经典回归和分类的替代方法、模型的算法分析、性能指标和预测以及交叉验证、数据转换、有监督学习与无监督学习、集成学习方法等。机器学习与数据分析方面涉及的课程主要有数据挖掘与分析、深度学习等。
4.7 综合性项目实践
学生可以通过综合性项目实践,考虑科学问题、收集和分析数据并获得可视化的结果。综合性项目实践主要涉及的课程有大数据技术实训、数据存储与处理技术实训、专业实习、毕业实习和毕业设计等实践环节。
5 结语
数据科学是一门快速发展的学科,以数据的获取、管理和分析为中心。目前,数学、统计学和计算机科学等传统学科的课程为该专业提供了基础。对课程的重新设计,将各个层次的数学基础以及计算和统计思维的要素整合在一起,将提供一系列丰富而有效的课程,为毕业生提供从事数据科学职业的准备。大数据专业与我校其他专业密切相关,“大数据+电子商务”“大数据+交通”“大数据+建筑”等必将促进我校学科间的融合发展,大数据专业必将与相关联学科专业互相促进共同成长,形成我校特色的数据科学与大数据技术专业的课程体系,也将为我校人才培养、教学科研等方面带来极大促进作用,同时为智慧城市建设乃至京津冀地区新型产业建设提供强有力的智力支持。
参考文献
[1] 贾蓓.学科融合视角下的数据科学与大数据技术专业人才培养思考[J].大学教育,2020(1):166-169.
[2] 陈振冲,贺田田.数据科学人才的需求与培养[J].大数据,2016,
2(5):95-106.
[3] Demchenko Y,Belloum A,Los W,et al.EDISON Data Science Framework:A Foundation for Building Data Science Profession for Research and Industry[C]// IEEE International Conference on Cloud Computing Technology & Science.IEEE,2017.
[4] Horton N J,Hardin J S.Teaching the Next Generation of Statistics Students to "Think With Data":Special Issue on Statistics and the Undergraduate Curriculum[J].The American Statistician,2015,69(4):259-265.
[5] 贺文武,刘国买.数据科学与大数据技术专业核心课程建设的探索与研究[J].教育评论,2017(11):31-35.