胡 飞 谢加良
(福建省厦门市集美大学理学院,361021)
《普通高中数学课程标准(2017年版)》提出了信息技术与数学课程深度融合的建议[1],国务院也发布了《新一代人工智能发展规划》,这表明在高中渗透人工智能教育势在必行.目前,不少学者开始探索在中等教育阶段开展人工智能教育[2],但大多学者是将人工智能作为工具来研究,而作为教学内容讨论甚少[3].
本文以“函数与方程”、“几何与代数”及“概率与统计”三大主题为出发点,探索高中数学与人工智能的关联点,并通过举出有代表性的示例进行介绍.
“函数与方程”模块是深度学习与机器学习的基础,是实现神经网络的必要工具.在人工智能理论中所应用的“函数与方程”的基础知识,主要包括了函数的性质、函数的求导、方程的根与零点的关系等.
示例1函数性质与最优化策略
根据导数与单调性的关系,可从数与形上对具体函数进行研究.已知导函数为
①
同时,由于导函数可以表示切线的斜率,故在充分光滑的函数上,当函数f(x)在x=α处取得极大极小值时,f′(α)=0.逆命题则不成立,见图1.
神经网络在学习时,会对输入的权重与偏置进行最优化.在问题求解中,可将函数值作为目标,自变量看作问题的解,而神经网络就是通过学习,来找到众多解中的最优解.但在寻找最优解时,常常会由于上述性质而陷入局部最优解.例如爬山算法、模拟退火算法等.现今,已有许多算法可以很大程度上避免陷入局部最优解的情形,其数学思想也与高中数学有关,例如随机抽样等.
另外,神经网络中重要的激活函数——Sigmoid函数[4]
②
是一个复合函数,易知其定义域为全体实数,值域为(0,1);在定义域上是增函数.其函数图象如下:
可见,函数图象关于点(0,0.5)中心对称,其对称性可通过算理进行证明.Sigmoid函数之所以扮演着重要的角色,正是因为它的这些性质.值域的范围是(0,1),使得数据在传递的过程中不容易发散,同时也可以在二分类模型中作为概率输出.此外,在寻找最优解的过程中,需要考虑函数的变化率.而Sigmoid函数的导函数可以由自身来表示,求导过程如下:
依据复合函数的求导法则,将1+e-x代入,得
③
观察函数表达式③,构造得
④
则得Sigmoid函数的导函数
f′(x)=f(x)-f2(x)
=f(x)(1-f(x)).
⑤
从Sigmoid函数的重要性来看,函数的性质及导数在人工智能基础设计中,发挥着重要的作用.
“几何与代数”模块是特征与分类、分类器的基础,是将图像信息转化为数字信息的基础之一,如卷积神经网络、特征识别、梯度下降法等.在人工智能理论中所应用的“几何与代数”模块基础知识,主要包括了平面向量的卷积、三维直角坐标系等.
示例2平面向量与卷积神经网络
已知两个非零平面向量a,b的内积(数量积)为
a·b=|a||b|cosθ.
⑥
根据余弦函数的性质,对任意的θ,有-1≤cosθ≤1,两边同乘|a||b|,有
-|a||b|≤|a||b|cosθ
≤|a||b|.
⑦
将式⑥代入,可得柯西-施瓦茨不等式
-|a||b|≤a·b≤|a||b|.
⑧
如图3,两个非零向量有以下三种位置关系.
可以得出,当两个向量方向相反时,内积取最小值;当两个向量方向相同时,内积取最大值.也就是说,向量的内积大小可以作为两个向量指向相同方向的程度.如果将相同方向,抽象地看作是相同属性,则两个向量越相似,相关程度越高时,内积就越大(见图4).
利用向量内积来判断数组的相似性,可以将其运用在卷积神经网络中.其特征映射的值,就需要以被识别图象与过滤器图像数组的相似度作为输入信息.
另外,人工智能中利用梯度下降法求最优解时,可以将函数z=f(x,y)随自变量改变的变化式Δz,表示为内积的形式:
Δz=f(x+Δx,y+Δy)-f(x,y)
⑨
对问题求解而言,在每个位置的最陡下坡方向都不相同,通过重复“一边移动一边寻找当前最陡”的操作,最终就可以达到函数图象的最底部,也就是函数的最小值点(很大程度上可以避免陷入极小值点,示例1中已说明).总之,利用向量内积的性质,使得人工智能找到了方向——往最陡处下降,意味着目标值减小得最快、图象的梯度最陡,那么就可以通过这一方式来求得最优解了.
“概率与统计”模块既涉及符号智能,也与计算智能有关[5].“概率”与随机优化、神经网络的初始值有关,也是不确定性人工智能的基础.人工智能理论中所应用的“概率与统计”基础知识主要包括贝叶斯公式、正态分布、线性回归、最小二乘法等.
示例3条件概率与贝叶斯网络
设A,B是两个事件,且A不是不可能事件,在事件B发生的条件下,事件A发生的条件概率记作P(A|B),则有
⑩
同理,可得在事件A发生的条件下,事件B发生的条件概率
也就是说,新观察到的样本信息将修正人们以前对事物的认知.从大量训练数据中找出对应关系的概率,后验概率随着调整因子的训练,不断更新先验概率.迭代次数越多,程序对事件概率的判断就越准确.贝叶斯网络则是用箭头来连接两个随机变量,表示节点间有因果关系[6].设节点B的发生直接影响到节点A,即B→A,则权值用条件概率P(A|B)表示,从而依据随机变量间的关系进行推理(如图5).
那么, 程序最初的先验概率应怎么给出呢?什么样的初始随机数会有更好的效果呢?由于正态分布的一般性,如果使用服从正态分布的随机数,则容易快速取得符合预期的结果.概率密度函数如下:
正态分布就是满足该函数的概率分布,其中常数μ称为期望值,σ称为标准差.作图6,函数图象关于直线x=μ轴对称.
在高中数学中渗透人工智能,要从众多关联点中,选出切合实际的、有代表性的关联点,作为切入点.对此提出以下建议.
(1)教师对人工智能领域的了解直接影响渗透人工智能教育的实际情况,教师在选取人工智能案例时要尽可能贴近学生的生活,最好是以学生身边常见的智能设备的原理为例,在此基础上对数学概念进行讲解.一方面为学生理解概念创设背景,为学生探索规律启发思路,使数学概念更易于学生理解,而另一方面也正好回答了学生“数学有什么用”的问题.
(2)人工智能设备是直观的,但背后的原理对于高中学生来说难以理解与想象.在渗透人工智能教育时不可脱离实际,这样就会使得本来就较为抽象的数学概念再加上抽象的人工智能原理变得更为抽象.鼓励学生运用计算器或计算机等相关设备动手操作,进行模拟活动,使学生更好地体会概率的意义和统计思想.
(3)在数学教学中渗透人工智能教育需要培养学生的数学建模以及数据分析核心素养.不宜采用统一的要求和标准,在教学过程中落实人工智能教育需要考虑学生的学情.