张懿,黄江兰,田立勤,栾尚敏
(华北科技学院,计算机学院,三河 101601)
1955年,John McCarthy与Marvin Lee Minsky以及Claude Elwood Shannon一同作为发起者,在达特茅斯学院邀请众多专家学者开会共同研讨人工智能,在会议上正式确立人工智能(Artificial Intelligence)为一专业术语,开始了人工智能学术角度的专精研究。达特茅斯会议是人工智能诞生的标志性事件[1],奠定了人工智能快速发展的基调,而发展至今的深度学习、识别技术在城市应急管理领域的研究,对于分析事故,改善城市安全具有重要意义。
机器学习是指可以提供计算机能力而无需显式编程的研究领域。Tom Mitchell定义机器学习为:对于某类给定的任务T和合理的性能度量P,如果某计算机程序在T上以P衡量的性能随着经验E而自我完善,性能逐步提高,则称该计算机程序从经验E学习[2]。机器学主要解决的是聚类、分类、预测和降维四类问题,可分类为有监督学习、无监督学习、深度学习等。在应急管理领域使用机器学习技术对于数据的训练处理是非常重要的。
监督学习是指用有标签的数据集来预测新数据的值或类型,主要进行模型的预测泛化处理。若预测的是离散数值,该类学习称为分类。预测的是连续数值,则该类学习称为回归。
分类是利用实际模型来预测属性和标签未知的对象类别的一种描述寻找和分类数据类型以及概念的过程,分类可以达到利用模型预测不知道的对象的目的。若涉及两个类别,称为二分类(binary classification)任务,若涉及多个类别,称为多分类任务(multi-class classification),例如事故多责任判定,文件分类判定技术等[3]。
(1)
线性回归的一般形式为:
Y=β0+β1X1+β2X2+β3X3+…+βpXp+ε
(2)
其中ε~N(0,σ2),β0~βp为未知参数,全部建模残差平方之和ε应尽量达到最小,并且用1进行残差平方之和的偏执拟合。对β0~βp求偏导并等于0,得到正规方程:
XTXβ=XTY
(3)
=(XTX)-1XTY
(4)
找到最小的β,就可以拟合构造直线找到数据的关系。但是在实际问题中常常会有X的属性个数大于样本个数的情况,即XTX不是满秩矩阵或者正定矩阵,则会得到多个,且都能使误差平方和达到最小化,选择哪个解作为输出,将由学习算法的归纳偏好决定。常见的做法是引入正则化项,如岭回归等。
逻辑回归是在线性回归的求解结果上添加输入值为z的Sigmoid函数:
(5)
其中:
z=ω0x0+ω1x1+ω2x2+…+ωnxn(6)
Sigmoid函数图像类似阶跃函数,目的是将数值结果转化成0到1之间的概率来实现Logistic回归,计算回归系数和特征值的乘积并且求和,最后把结果代到Sigmoid激活,可以得出一个范围在0~1之间的数值,可画出一条分类线。大于0.5的数据被映射为1,小于0.5的数据则被映射为0。[5]从而输出离散的分类。属于监督学习的常见模型有线性分类器、SVM等。监督学习算法有:K-近邻算法(K-Nearest Neighbors,KNN)[6]、决策树(Decision Trees)[7]、朴素贝叶斯(Naive Bayes)[8]等。
无监督学习是指用完全无标签的数据集来预测新数据的值或类型,假设数据空间中相似样本一般距离较近来将样本进行分类。在无监督学习中,关联分析、聚类问题和维度减少是三种重要问题。关联分析指发现不同事物同时出现的概率,广泛应用于购物篮问题。[9]聚类分析是指将训练数据集里的数据分成很多个小组,每个小组形成一个“簇”(cluster),预先并不设置类别,训练数据无标签,目的是聚合相似的数据,但是不探讨数据小组的具体内容,最后根据结果差别得出信息。维度约减是指在减少数据维度的同时又不损失有意义的信息,可以利用特征提取法和特征选择法来实现,特征选择法是选择原始变量的子集,而特征提取法是把数据从高维度向低维度进行转换。
深度学习(Deep Learning)概念源于M-P模型[10]与Hopfield神经网络[11]。人工神经网络(ANN)代表着一种自上而下的思路,类似于生物大脑神经元的作业机理与运行机制,每个神经元通过特定的激励函数,处理并计算来自另外的神经元传入信号,信号输入到输入层,经由隐层处理,再到达输出层,这一过程达到了分层学习的目的。深度学习模型是一些几何函数一个个地作用在数据上参与运算,这些运算被组织成为层,层进行堆叠则形成图。
图1 一个深度学习结构图
图中圆代表一个神经节点,相邻的层节点之间彼此有链接,同层或越层节点彼此之间无连接。Layer1为一个输入层,最终计算出来的H函数即预测值的层为输出层,中间的层为负责数据变换的隐层,每一条直线代表了该节点到下一节点的权重,而且会存在偏置b,权重(weight)是在训练过程中需要学习的参数,其中保存着模型的知识,权重把这些层进行参数化,得出预测值后,用损失函数即真实值和预测值的误差最小化来衡量网络准确性,为这些权重找到合适值即深度学习。
在《悬崖上的爱》中,野生动物研究专家方东升是个一出场就自带光环的人物,他常年在野外考察,在研究领域获奖无数,深受包括岳西在内的学生敬仰和崇拜。但让方东升在野生动物研究这条路上抵达巅峰的,却是多年前的一场婚姻危机给他带来的性命威胁。方东升最初在事业上的成功吸引了许多女性,一时间女人的肉体成了是他猎物①,让他充分享受到征服的快感。
从输入层通过隐层到输出层的运动为正向传播。相应的,建立神经网络时,会出现初始的权重与误差,迭代一次后,该误差与成本函数梯度在外层通过隐层返回,可减少错误,此时网络的权重会被更新,即为误差反向传播。深度学习是学习样本数据的表示层次与内在规律[12],是多层的神经网络模型且层和层之间的联系更为复杂,通过分层提取信息进行学习,达到了高效的目的。深度学习主要涵盖四个发展路径。分别是卷积神经网络(CNN)[13]、生成网络[14]、序列模型[15]、增强学习[16]。
在人工智能以及大数据的新技术思维背景之下,通过应急管理部和各级政府的数字化转型,事后完善恢复系统也愈发成熟。发展迅速且火热的深度学习技术通过训练数据、提高算法和建模精度使得事故的善后恢复和预防大大提高了效果,规模庞大且有效的数据是深度学习技术得以提高的重要来源,对于各类突发事件各环节的数据进行训练,可以为事前预防系统提供更加准确的分析处理能力,利用建模来可视化数据,做到更加智能的预防,从而提高智慧城市应急管理系统的响应能力。
数据挖掘(Data Mining)是一种涉及统计学、数据库技术以及机器学习的综合性技术。主要分为预测性数据挖掘和描述性数据挖掘两类[17]。
应急管理信息大数据系统的构建是至关重要的,在事发响应、事中处理的过程中,由于各种突发事故所处的具体条件和环境不相同,各个时间段的特殊形势、规模、性质和后果不同,受到事故影响的人民群众情况不同,因此事中处理的步骤程序也各有不同。人工智能在事中处理系统中的应用,主要体现在良好控制的环节当中,其中最重要的是社会舆论。社会舆论是突发事件发生后在社会上流传最快的消息之一,一般分为正向舆论和负面舆论。正向舆论可以对事故的处理起到激励作用,消解人民对于事故发生后的恐慌情绪,但负面的舆论以及谣言往往会引起人们的恐慌和反社会情绪,从而严重扰乱社会秩序,间接地影响事故的处理与社会恢复。
表1中列出十大经典数据挖掘算法(Top 10 data mining algorithms)[18]。
表1 十大数据挖掘算法
为了控制负面舆论,数据挖掘技术会作为合理的处理手段运用到各种社交网络和各大网络平台中,根据相关关键词对或将造成负面舆论的言语或谣言进行自动捕捉和删除,将严重危害社会稳定的散播谣言人员的网络IP捕获,避免负面信息的滋生,从而起到控制事态的作用。
语音识别是一种使机器识别并且理解人类语音输入信号含义的一种模式识别技术,该技术旨在将语音转换为命令编码或者字符文本,设计一定的程序使计算机明白人类讲话的语义并进行合理判断。
图2 语音识别流程图
首先对采集的非平稳语音信号进行预处理,过滤掉无用信息及其背景噪声,然后运用特定方法计算语音声学参数来提取相应的特征参数,再模式识别提取到的参数。其中包含两阶段:第一阶段是训练,即提取语音样本的特征参数作为训练数据,设置模型参数初始值时要相对合理,使识别系统的识别效果达到最好;之后进行识别,把要识别的语音信号特征依据特定规则进行对照处理,最终利用模式识别算法得出需要的结果。特征参数的选择决定了识别结果的准确度与模板库是否准确、模型参数的优劣。
隐马尔可夫模型(HMM)理论假设时间序列系统是由一系列隐状态构成,不同的隐状态之间的转换是系统运行的本质,来观察并分析语音基础时间序列[26]。
显式马尔可夫模型可看作一个以一定概率自动转换状态的过程,具有无后效性的特性即:
P(pt=Si|pt-1=Sj,pt-2=Sk,……)=P(pt=Si|pt-1=Sj)
(7)
其中t>1,Sk为一时刻的任意状态。还具有齐次性的特点即:
P(pt=Si|pt-1=Sj)=P(pu=Si|pu-1=Sj)
(8)
其中u为任意时刻,说明状态转移概率与时间无关。而隐马尔可夫模型则是双重随机过程,不仅状态之间的转移是一个随机过程,而且状态的输出也是一个随机过程。此外,隐马尔可夫模型的输出仅与当前状态有关,具有输出独立性。
先进行时间序列分段,然后根据时序性与相似性来聚类这些时间序列分段,把每个聚类看作一种隐状态从而得出状态转移概率矩阵,建立基于分段的初始隐马尔科夫模型,对隐状态下的时间序列分段的分布做出估计,由于隐含因子直接存在转换概率,就可以得到与显式状态之间的输出概率,再利用迭代法,对初始隐马尔科夫模型不断精确直到得出最终模型。文献[27]最终得出的隐马尔科夫模型的每一种状态都可以和接收到的语音帧一一对应,现如今传统的隐马尔科夫模型广泛运用在时间归一法,在事故救援与分析成因有广泛应用前景。
计算机视觉(Computer Vision,CV)是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。
物体识别和检测即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出。物体分类与检测在很多领域有广泛应用,包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等,交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测,以及互联网领域的基于内容的图像检索、相册自动归类等[28]。
在事故预防过程中,人工智能下的视频识别技术得以运用,通过视频资料的读取和识别,来监测并判定其中的内容是否符合预先设定的报警条件,如果条件符合则通过传感器触发报警。基本的对人识别内容有人的举动、人的面目表情、人的步态等信息,而对物识别可识别物品缺失,线路故障、区域变化、滞留监测等。运用视频识别,可有效地代替人工的查找和报告事故隐患,达到应急响应智能化的转变。但该技术仍有许多缺陷,很多理想效果并未完全实现。
语义分割是将图片中的物体场景分割出来,是自动驾驶、医学图像处理、图像检索、目标分类等视觉分析的基础。例如,在自动驾驶领域,需要对道路、行人、车辆等复杂情况进行分析,从而才能对汽车发出操作指令。在对这些物体分析之前,首先需要进行语义分割,即将事故道路、行人以及车辆分割出来。在医学图像处理领域,首先要将病灶区分割出来,才能对病灶进行量化分析[29]。
随着人工智能发展日趋成熟,怎样将不断涌现的技术在应急管理体系各层次深度融合、综合应用,给城市应急管理与安防行业提出了更高的挑战,尤其是经过此次新冠疫情后,突发卫生公共问题会使得人工智能的应用领域不断扩展与深入,使损失降到最低,为国家发展创造更大的价值。