王琦雯, 李永康, 徐 琪, 苏 杭, 李晓欧,3
(1 上海理工大学 健康科学与工程学院, 上海 200093; 2 上海交通大学 医学院附属精神卫生中心, 上海 201108;3 上海健康医学院 医疗器械学院, 上海 201318)
随着互联网的发展,电子游戏成为人们日常休闲娱乐的主要方式之一,与此同时网络游戏成瘾现象也引起了人们的关注。 2013年第五版精神疾病诊断与统计手册将网络游戏成瘾(Internet Gaming Disorder, IGD)列为精神疾病中的一种,IGD 会对人体的大脑和心理造成损伤[1]。 游戏成瘾的初期症状表现为抑郁、焦虑或强迫症倾向等,与赌博成瘾、物质使用障碍具有很多共同点[2]。 过度沉迷于游戏内容中会对自控能力与决策能力减弱、情绪控制障碍等产生严重影响,给社会带来许多负面问题。
功能性近红外光谱技术(functional Near -Infrared Spectroscopy, fNIRS)是一种新兴的无创脑功能检测技术,具有时间分辨率高、抗运动干扰、便携性好等优势,在运动康复、精神疾病等领域的研究得到广泛使用[3]。 fNIRS 技术主要利用了氧合血红蛋白(oxygenated hemoglobin, HbO2)和脱氧血红蛋白(deoxygenated hemoglobin, Hb)等组织的生物特性,即此类蛋白对700~1000 nm 近红外光具有特异性吸收能力,当大脑执行任务时,可以根据光强衰减情况推算出相关区域血氧浓度变化,达到实时监测大脑活动的目的。
随着机器学习的发展,越来越多的算法被用于fNIRS 的脑状态活动分类,目前已有许多团队利用fNIRS 技术对脑活动状态进行研究。 Tai 等学者[4]使用线性判别分析(Linear Discriminant Analysis,LDA)与支持向量机(Support Vector Machine, SVM)分类器,对图片情感推断任务所激活的8 通道fNIRS 脑活动信号进行状态识别。 Cho 等学者使用SVM 和深度神经网络(deep neural network, DNN)分类器,对首发精神分裂症患者和健康人进行区分。在首发精神分裂症患者和健康人的分类中,SVM 的准确率为68.6%,DNN 的准确率为79.7%。 Liu 等学者[6]利用SVM 分类器与长短期记忆(Long Short-Term Memory,LSTM)神经网络对fNIRS 信号进行分类,SVM 的准确率达到71.70%,基于LSTM 的深度学习方法准确率达到82.86%。 目前,基于fNIRS 的游戏成瘾分类研究较少,利用fNIRS 技术针对游戏成瘾患者识别研究潜力巨大,需要更多的研究来完善利用fNIRS 识别游戏成瘾患者与健康人的差异。
本文使用fNIRS 测量在执行停止信号任务(stop-signal task, SST)时大脑前额叶区域的脑血氧饱和度变化。 采集22 位受试者在执行任务时的前额叶血氧饱和度,使用经典机器学习方法和LSTM对游戏成瘾者和健康人进行分类,分析了不同分类器对fNIRS 信号分类的准确性。
本研究招募了22 名中学生受试者,年龄区间为14~16 周岁,所有受试者均身体健康,无精神病史,且未服用过神经类药物。 实验前,上海市精神卫生中心制定了网络游戏成瘾量表,并在人群中通过了信效度验证,证实了量表的有效性[7]。每名受试者在实验前均填写了量表并交由专业医生诊断,最终6 名被诊断为游戏成瘾患者,余下16 名为健康人。
近红外信号采集系统采用LIGHT NIRS 便携式脑成像装置,选取的测量通道数为10 导联,采样频率为13.33 Hz,覆盖脑区为大脑前额叶皮层,测量区域由4 个光源(Tx)和4 个光电探测器(Rx)组成,光源及传感器在前额叶的分布图如图1 所示。 光源可发射780 nm 和830 nm 的近红外光,实时监测大脑前额的血氧浓度变化。
图1 光源及传感器排布示意图Fig. 1 Light source and sensor arrangement diagram
本文选取SST 范式作为实验任务,可以考察被试突然停止正在进行或者准备进行的思想或者行为的能力,有助于解释个体差异、发展变化以及广泛的认知能力。 SST 实验需要在安静且光线较暗的单独房间内进行,以防止外界噪音及外界光对血氧信号产生干扰。 实验开始前需要对受试者进行1 min 的任务训练,首先屏幕上会呈现黑色的左右箭头,箭头出现时,需要受试者对箭头刺激做出方向判断。 实验使用键盘左右键做反应,在无停止信号任务中,需要受试者将右手放在键盘的左右键上,食指对左键做反应,中指对右键做反应。 在停止信号任务中,呈现红色左右箭头的同时会有一个提示音,受试者此时对呈现的红色箭头不做反应。 本实验对受试者在执行任务、停止任务两种状态下的血氧浓度情况进行连续采集。 整个实验时长为11 min,流程如图2所示。
图2 停止信号任务实验范式Fig. 2 The experimental paradigm of stop signal task
在采集信号过程中会存在生理干扰与运动伪迹,因此在fNIRS 数据采集后,需要将信号进行预处理。 首先,从数据中去除伪迹,这就能减少在数据采集过程中产生的伪迹和生理伪迹。 随后,进行去漂移,使用多项式回归模型估计非线性趋势,从原始信号中减去该趋势,以此去除近红外信号的基线漂移噪声。 然后,将去漂移后的数据进行运动伪迹矫正,使用时间导数分布修复(Temporal Derivative Distribution Repair,TDDR)进行矫正,可以减少运动伪迹对相关近红外数据的影响。 最后,使用三阶Butterworth 滤波器进行0.01~0.3 Hz 的带通滤波,可以滤除大部分生理噪声。 各步预处理的结果如图3(b)~(d)所示。
图3 近红外数据预处理Fig. 3 fNIRS data preprocessing
在把数据用于脑活动状态分类模型的训练与验证前,特征选择与特征提取的过程将对算法模型的效果产生重大影响。 即便是已经进行预处理后,原始信号中也仍然存在大量的特征维度。 对于分类结果来说,不是所有的数据信息都会起作用。 首先从fNIRS 数据所有的特征中选择更为相关的部分特征,然后对原始数据进行转化处理,使得信号特征可以被算法识别出来。
fNIRS 标准信号为一维时间序列信号,为了有效提取出脑活动信号的特征,通常选择计算一些时域特征参数。 本文提取了fNIRS 信号的均值、偏度和峭度,分别用如下公式来计算:
均值、偏度和峭度为一些常见的用于时域特征提取的参数,这些参数虽然在一定程度上表征了脑活动信号的特征,但提取方式较为粗糙,在一定程度上限制了脑活动状态分类准确率的提高。
本文利用SVM 区分游戏成瘾患者与健康人,SVM 的工作原理是当数据线性可分时,在原空间寻找2 类样本的最优分类超平面。 数据线性不可分时,通过使用非线性映射将低维度输入空间的样本映射到高维度空间使信号变为线性可分,利用SVM构建决策超平面,在特征空间中寻找到最优分类超平面[8]。 最优分类超平面如图4 所示。 通过特征融合,利用SVM 进行游戏成瘾患者和健康人的识别。
图4 最优分类超平面示意图Fig. 4 Optimal classification hyperplane schematic
LDA 是一种经典的有监督数据降维方法。 LDA的原理是将近红外数据在低维度上进行投影,投影后最大化类间散度矩阵,同时最小化类内散度矩阵[9],类间散度矩阵用来判断异类样例的投影点之间的距离,类内散度矩阵用来判断同类样例的投影点之间的距离,计算公式具体如下:
其中,Sb为类间散度矩阵,Sw为类内散度矩阵,μi为第i类样本的均值,∑i表示第i类样本的协方差矩阵,这里,i =0,1。
通过计算类内散度矩阵和类间散度矩阵获得判别特征,并在迭代300 次后,对数据进行分类。 LDA提供了降低数据维数的有效方法,并可以使用判别特征进行二分类。
k 近邻算法(K-Nearest Neighbors, KNN)是最常用的有监督学习分类算法之一。 KNN 算法的基本思路是计算每个数据点与其聚类质心之间的距离,使误差最小化,距离预测点距离最小的点被认为属于同一类[10]。 通常使用欧氏距离计算空间两向量的距离,可用如下公式进行描述:
当迭代300 次后,KNN 可以捕获距离较近的2个类并进行分类。
长短期记忆网络(LSTM)是一种深度神经网络,利用记忆单元替代循环网络中的隐藏单元,可以确保长时间梯度传递不消失,非常适合处理时间序列的预测和分类问题。 LSTM 还可以自动从行为数据中学习特征,只需要最少的特征进行预处理,因此运用LSTM 神经网络可以很好地避免人为的特征选择和预处理导致的分类准确性不高的问题[11]。LSTM 神经网络的核心由遗忘门、输入门、输出门和一个记忆单元组成,如图5 所示。 其中,遗忘门决定从记忆单元中丢弃什么信息,输入门决定在记忆单元中存储什么内容,输出门显示输出的结果。 在实验中,15 名受试者被划分为训练集,7 名受试者被划分为测试集来检验模型的有效性。
图5 LSTM 神经网络内部机制Fig. 5 Internal mechanism of LSTM neural network
本文使用了SVM、LDA、KNN 三种经典机器学习分类器与LSTM 分类模型对游戏成瘾患者与健康人进行分类,并对4 种分类器的性能进行比较。
SVM、LDA、KNN 的分类准确率见表1。 SVM、LDA、KNN 在3 种特征组合中的分类准确度分别为67.4%、63.6%和71.2%。 在单一特征中,KNN 的均值、偏度和峭度的分类准确度最高,分别为68.9%、67.4%和68.9%,高于SVM 和LDA 的分类准确度。从分类的准确率上看,同时提取3 种特征对健康人和游戏成瘾患者的分类效果优于提取单一特征。
表1 不同机器学习分类准确度的比较Tab. 1 Comparison of classification accuracy of different machinelearning %
LSTM 分类器的损失值(Loss) 的收敛性效果和准确性结果如图6 和图7 所示。 在本文中,LSTM 网络使用Adam 优化器通过稀疏分类交叉熵计算损失。 在400 次迭代(epoch) 之后,Loss变 化呈收敛趋势,证明网络结构是稳定的。 随着epoch次数的逐渐推进,使用训练数据的识别准确性得到稳定提高。 通过对实际类和预测类的比较,得到了总体混淆矩阵,可视化了LSTM 的预测准确性,能够可视化LSTM 算法的性能和有效性,具体如图8 所示。 该模型对健康人和游戏成瘾患者(1 个错误分类样本)的预测准确率接近85.7%。 LSTM 模型可自动学习原始数据的抽象表示特征,这避免了人工提取特征产生误差,并且与传统的机器学习方法相比取得了良好的效果。
图6 LSTM 模型在训练过程中的LossFig. 6Lossof LSTM model during training
图7 LSTM 模型在训练过程中测试数据集的准确性Fig. 7 Test data set accuracy of LSTM during training
图8 LSTM 模型分类混淆矩阵Fig. 8 Confusion matrix of LSTM model classification
本文利用fNIRS 技术采集了22 名受试者在执行停止信号任务时的前额叶血氧饱和度数据,利用3 种传统机器学习分类器和LSTM 模型来区分健康人和游戏成瘾患者,并对4 种模型的分类性能进行了比较。 分类结果显示,在传统机器学习分类中,KNN 模型的分类准确度最高,达到了71.2%。 相比之下,LSTM 模型分类性能的稳定性得到验证,准确性达到了85.7%,高于传统机器学习算法,能够有效区分游戏成瘾患者和健康人。 将fNIRS 信号与深度学习结合能够为临床诊断提供客观的评价指标,有效识别游戏成瘾患者,对于后期的干预治疗有着重大的意义。