范照勇,詹翠丽
(湖北商贸学院 人工智能学院, 武汉 430079)
在国家全面实施人工智能战略的背景下,无论从国家政策还是从市场供给需求来看,加强人工智能人才培养、补齐人才短板,都是亟待解决的问题。近年来,各高校纷纷设立了智能科学与技术、人工智能、数据科学与大数据技术等培养人工智能人才的相关专业[1,2]。2019年3月,教育部公布了2018年度全国普通高等学校本科专业备案和审批结果,35所高校获首批建设人工智能本科专业的资格。从获准的高校名单来看,除了一些老牌名校之外,也有江苏科技大学、安徽工程大学等专业特色鲜明的地方性高校。可以预见,在人工智能迎来第三次发展浪潮的背景下,将有更多高校结合发展定位与学科优势特色,探索适合于自身的人工智能专业建设之路。
人工智能多学科交叉、高度复杂、强渗透性的特点决定了其人才培养具有高度挑战性,而其中人才培养方案和课程体系是保证人才培养质量的前提[1]。从开设人工智能专业的应用型高校培养方案看,对人工智能相关专业学生的工程知识要求可以归纳为:能够将数学、自然科学、信息科学基础和人工智能专业知识应用于解决复杂人工智能工程问题。在课程设置上,着重强调知识的实用性,更加突出概率、统计、随机过程、优化理论等数学方法的重要性,同时开设了诸多人工智能和机器学习的算法及应用实践课程。然而,部分高校却忽视了融合微积分、概率论和统计学等人工智能深度学习基本组成部分的信息论课程。对于人工智能相关专业学生的知识体系而言,这在一定程度上将会导致数学基础和具体算法应用之间“形成沟壑”,使得培养方案中先修人工智能数学基础课程和后续人工智能应用课程之间难以良好衔接。
本文针对应用型高校人工智能相关专业课程体系的建设需求,分析信息论与人工智能的强关联性,区分人工智能核心专业(人工智能、智能科学与技术、计算机科学与技术、通信、电子信息等)和“人工智能+”专业(金融、统计、电商、管理等),改革教学内容、教学方法和考核方式,为学生学习后续课程和解决专业现实问题打下坚实的理论基础。
信息论是现代信息科学和计算机技术的重要基础理论之一,源于对现代通信的深入研究[3]。1948年,香农发表的学术论文“通信的数学理论”开启了经典信息理论,主要内容包括信息度量理论、信源编码理论、纠错编码理论等。
此后,信息论作为一门独立的学科不断发展,新时代下的信息论所研究的内容不仅仅包括信息的度量、获取、处理等问题,还逐渐与其他相关领域融合,例如语义学、神经心理学、语言学等等;应用场景更是涉及到高校思想政治教育、科技英语翻译、数字营销、经济学等各个领域[4-6]。但是,在高校本科教育阶段,《信息论》课程依然仅仅面向通信工程专业学生讲授。近年,也有相关院校逐步将信息论课程开设至网络安全、计算机科学等与通信工程相近的专业[7]。
信息论是现代信息科学的重要组成部分,人工智能是一门研究如何使机器具有人类智能的学科,是当下最热门的行业方向,二者之间一直是“一体两面”的关系。例如,对于人工智能领域的机器学习,剑桥大学教授David MacKay说“Information theory and machine learning are the two sides of the same coin”[8]。信息论与机器学习同为涉及计算机科学和应用数学等学科的分支领域,二者在起源和应用上有很多相似之处。信息论方法在人工智能方向多种应用算法中同样有重要作用,特别对信息统计、数据挖掘等领域的发展有重要意义。
2.2.1 典型机器学习过程中信息论的运用
在人工智能方法实际应用中,通常需要利用信息论理论知识。类似机器学习、模式识别和深度学习等实现人工智能的具体手段,其原理与信息论的理论具有较强的关联性。例如,对于人工智能领域常见的分类问题,为了提升智能识别效果,在数据准备过程中,即将数据送入分类器前,需要利用信息度量标准——信息论中熵的概念来区分数据中的有用信息或冗余消息,并通过分析进一步提取具有代表性的特征,使得数据集更加合理。在贝叶斯网络中,还可以使用交互信息来确定变量之间的关系结构。为了提高识别速率,通常需要选择适合的编码技术(如压缩编码技术)对数据进行降维。模型评价过程中使用交叉熵作为作为损失函数计算预测偏离真实输出情况。即交叉熵损失函数是深度学习框架中流行的损失函数,最大信息增益(互信息)为构建决策树提供了理论基础,维特比算法广泛应用于自然语言处理和语音处理,编码器-解码器的概念广泛使用于机器翻译的卷积神经网络等模型中。可以看出,信息论和编码技术参与了整个模式识别过程中数据预处理、特征提取、模型评价等重要环节。因此,对于人工智能应用型人才的培养,不能仅强调眼前的“实用性”,在学习各类机器学习算法工具的同时,理解和掌握好信息论的基本概念和理论,能够为学生学习后续课程打下坚实的理论基础,厚实培养人才的职业发展潜力。
2.2.2 基于信息论的机器学习原理
从前面的论述可以看出,信息论和人工智能,尤其是机器学习互有交叉,但主要是机器学习中借用信息论的方法以此拓展理论研究和应用场景,比较典型的就是借鉴信息理论创造和改进学习算法。事实上,当前人工智能的基础理论依然还在继续深入研究之中。90年代初,信息论和人工智能专家钟义信开始对人工智能理论进行系统研究,出版著作《智能理论与技术》后又提出信息、知识、智能转换理论、机制主义人工智能理论等,在国内外产生重要影响。他曾经指出“信息理论、知识理论、人工智能理论之间相互脱节的研究状况, 不利于信息科学技术、知识科学技术和人工智能科学技术的发展, 更不利于信息理论、知识理论、智能理论的一体化研究,不能适应现代科学技术和经济社会发展的需要”[9]。中国科学院自动化研究所胡包钢研究员提出:统计学与优化理论主要是“怎么学”层面中的基础理论,它们无法回答“学什么”这样的机器学习中首要问题,而信息论将会扮演重要角色。他提出:机器学习中关于学习目标选择的计算表达均可以应用信息(熵)理论函数优化方式予以解释或描述。如果将人类大脑以及神经系统看成连接的网络(如同现有的通信网络),就能够理解为什么信息论是不可或缺的基础支撑之一[10]。信息论准则已经应用在生成式对抗网络(GAN)学习中,基于信息论的机器学习还将为人工智能研究带来新的发展空间。在此基础上,提出基于信息理论的机器学习原理,即基于信息理论为学习准则的机器 (分类、聚类)学习原理就是将无序(类标、特征)数据转变为有序(类标、特征)数据的过程,其中转变效果是以信息熵为测量尺度。
可见,无论是从应用层面,还是从理论基础层面来看,信息论都和人工智能息息相关。同时,从香农、钟义信等信息论专家在人工智能领域的诸多建树也可以看出,信息论基础知识将对人工智能相关专业学生职业发展有重要影响。因此,信息理论是人工智能人才必须掌握的基础知识,也是人工智能相关专业不可或缺的专业基础课程。
目前,各高校信息论课程目前仅针对通信专业开设,近年一些高校才逐步在信息安全、计算机等专业开设。现有的教材中不可避免地存在着通信中的一些术语和名词,再加上书中有很烦琐的数学证明,同时概率论、随机过程和数理统计等先修课程也是应用型高校学生普遍的薄弱环节。此外,在信息论教学中还存在实验设置不足和课程资源相对缺乏等问题。针对人工智能相关专业开设信息论课程,需要将信息论基础知识与人工智能、机器学习应用知识融合进行教学,才能达到理想的教学效果;同时对于人工智能核心专业和“人工智能+”专业,培养目标不同,所需的信息论基础知识也不尽相同。为解决上述问题,需要从课程教学团队、课程教学体系建设,实验资源开发、教学方法等方面着手进行教学改革,实施跨专业信息论课程教学与建设的探索与实践。
针对应用型高校人才培养需求,围绕人工智能产业链(技术链),本着专业技术相关、专业基础相通、就业背景相同、环境资源共享原则构建人工智能专业核心群,重点专业有人工智能、智能科学与技术、计算机科学与技术、通信、电子信息等专业,这些专业分别定位人工智能的“云、管、端”产业链需求,涵盖人工智能所需的云计算、分布式计算、大数据等技术要素,在人才培养过程中将其定位为人工智能核心专业。同时,基于人工智能跨学科的特点,从学科建设角度而言,重视人工智能与传统学科的交叉融合,不仅有利于人工智能学科的特色发展,还可以辅助发掘金融、统计、电商、管理等相关学科专业的潜力,促进彼此共同发展。研究认为,通过人工智能实现跨越“大文大理”的学科融合创新存在现实可能性[11]。基于应用型高校实际,可将金融、统计、电商、管理等人工智能交叉专业定位为“人工智能+”专业。
不同专业对信息论的要求完全不同,但其共同点就是各专业均要求对基础信息理论进行全面掌握,能够运用信息思维方法去解决经济、管理、语言处理等方面的问题。而对于核心专业而言,在此基础上,还需要利用信息论原理,调整优化算法模型。因此,在应用型高校理论基础知识“够用即可”的前提下,着眼人工智能核心专业、“人工智能+”专业教学内容差异,通过对信息论基础知识的讲授,引入与专业相关的应用实例,将信息论与各专业相关联的内容,进行总结、归纳和拓展,建立课程之间的交叉联系,将不同科目的相关理论综合起来,联系实际应用,多举例展现,以提升学生的学习兴趣。此外,信息论基础知识的教学还需要顺应信息技术发展需求,在当前信息处理和编码技术普遍数字化的背景下,适当删减连续信源理论、连续信道容量等内容,侧重离散信源和离散信道理论,满足智能时代人才培养需求。
信息论课程具有较强的理论性和抽象性,针对应用型人才培养,其教学需理论教学与实验教学并重。在理论教学中,强化概念理解、弱化公式推导,并注重结合工程实例增强对基本概念的理解,例如通过文字信源和图像信源的信源熵对比机器学习实例,讲授图像编码的码字需求,使学生理解图像信源更大的不确定性,以及信息度量对编码的意义,同时简要介绍人工智能自然语言处理和机器视觉案例,使学生获得更多应用和实践的直观感受。信息论是一门理论性很强的课程,理论教学过程以讲授、公式推导等方法为主,但适当采用现代教育技术,如借助“微助教”、“雨课堂”等平台实施教学,辅助完成课堂教学管理、互动、教学资源管理等工作,如课堂签到、点答抢答、前课内容复习测试、PPT/Flash等教学材料管理,既可以增加课堂互动活跃气氛以增强教学效果,又可提供学生自主学习、作业上传的平台,对于学时安排较少的高校可以解决学时少与教学内容容量大的矛盾,鼓励学生自主学习,发挥其学习的主体作用,还可为过程性考核提供原始数据。
在理论教学的同时,还需注重信息论基本原理、基本方法的灵活应用,结合实验教学培养学生的创新和实际动手能力。对人工智能核心专业,加强对课程的实验要求,在对已有算法的验证性实验基础上,引导学生进行综合性、仿真性实验的设计。比如对无失真和限失真信源编码、二进制信道和高斯信道容量的计算进行实验验证,甚至在压缩编码和信息安全方面自行设计一些实验,在学会使用Matlab、 SystemView等仿真软件的基础上,应用 C++ 、Python等程序语言进行开发性试验,以提高学生独立思维和动手能力。对人工智能+专业,以信息熵计算、信源编码等演示实验为主,增强学生对信息论基础知识的直观体验。
为了更准确的检验学生学习效果,采用过程性考核方法,更加重视学生的平时成绩和实验考核成绩。对学生的考核采用“考试+过程测评”的综合评价方案,课程成绩由“平时成绩(20%)+实验成绩(20%)+期末考试(60%)”三部分构成。其中,平时成绩涵盖“微助教”平台签到情况、课堂复习小测试成绩、课堂互动答题成绩、作业成绩,上机成绩涵盖实验课程过程的实施、代码优化和总结等各种形式实践能力的考核(基础上机实验成绩50%,综合创新实验50%),三个部分综合评价学习效果。实验作业要求学生在信源编码和信道编码部分自选完成两个实验题目,并写出完整报告,说明原理和实现方法,提交程序和运行结果。实验成绩依据学生在实验过程中的动手能力、分析与解决问题能力等给予不同的权重。期末考试注重考核学生对基本概念、原理和方法的掌握情况,弱化使用公式进行机械计算。过程性方式通过对学生学习知识过程和综合应用能力形成过程进行监督和评价,促使学生在学习的过程中持续用功,提升教学质量和效果。
人工智能处于第四次科技革命的核心地位,在该领域的竞争意味着一个国家未来综合国力的较量。其中,人才的培养起着基础性的支撑作用。本文通过分析信息论基础理论在数据预处理、特征提取、模型评价等方面的应用,结合基于信息论的机器学习原理,梳理了信息论课程与人工智能相关专业人才培养之间的强关联性。结合应用型高校人才培养实际,从教学内容、教学方法、考核方式等方面实施教学改革探索,应用技术特色鲜明,体现了多学科思维融合、产业技术与学科理论融合、跨专业能力融合、多学科项目实践融合的新工科高水平课程的要求。以此为基础实施信息论课程教学,以学生发展为中心,创新教学方法,激发学生内在潜力和学习动力,从而保障跨学科、创新复合型应用人才培养的质量。