基于生物脉冲信号的视觉神经编码验证方法研究

2024-01-27 06:57张燚钧黄铁军
电子与信息学报 2024年1期
关键词:编码方式解码度量

张燚钧 刘 健 黄铁军

①(中移(苏州)软件技术有限公司 PaaS产品部 苏州 215004)

②(利兹大学计算学院 利兹 LS29JT)

③(北京大学计算机学院 北京 100190)

1 引言

人类外部环境活动产生的各种感知信息通过不同模态(视觉、听觉、触觉等)传递到大脑中。视觉是大脑感知系统的重要组成,研究表明人类感知信息中的70%~80%来源于视觉[1]。视觉通路起始于视网膜,视网膜首先把接收到的光信号转换为神经信号,然后这些神经信号通过外侧膝状体(Lateral Geniculate Nucleus, LGN),最后传导到初级视觉皮层(V1), V2, V4,下颞叶皮层(Inferior Temporal, IT)等高级视觉皮层。视网膜在整个视觉系统中发挥着重要作用,其中所有视觉信息都由视网膜神经节细胞(Retinal Ganglion Cells, RGC)发放的序列形式的脉冲(Spikes)信号表示。这些脉冲信号随后被传递到视觉系统的下游区域。由于视网膜不接收来自视觉系统中较高层级的反馈,RGC可以被抽象为一种可以用于处理视觉信息的计算设备。

视网膜采用脉冲信号序列的形式向大脑传输外界视觉刺激信息。将外部刺激信号转换为脉冲信号或者其他神经信号模态(如双光子钙成像信号(twophoton calcium imaging signal)等),这个过程称之为神经编码。很多生物科学和计算神经科学领域的研究人员已经对视网膜中各种细胞的编码机制进行了大量研究工作,揭示了视网膜实现视觉计算功能的多种神经机制[2-7]。根据视网膜中不同类型神经元及不同神经回路的特性,研究者开发了多种神经编码模型[8-14]。其中,基于神经元或神经电路物理性质的神经编码模型被称为生物物理模型。经典的生物物理模型包括线性-非线性模型(Linear-Nonlinear model, LN)[15]、广义线性模型(Generalized Linear Model, GLM)[12]、非线性输入模型(Nonlinear Input Model, NIM)[16]等。生物物理模型的优势在于可以直接拟合生理实验数据,并且推断神经元中的生物物理组件。基于视网膜神经系统构造的生物物理模型在研究视网膜在简单白噪声图像刺激下的编码特性时非常有效。

近年来,很多计算神经科学领域的研究者开始关注并利用人工神经网络技术建模视觉系统中的神经编码过程[17-23]。文献[24]使用一层卷积神经网络对V1视觉皮层神经元编码进行建模,该模型成功编码出双光子钙成像信号响应。文献[25]等人使用卷积神经网络编码IT皮层的脉冲响应。文献[18]在卷积神经网络中加入循环侧向连接用以构建视网膜编码模型。这类神经编码模型的主要思想是利用人工神经网络直接学习视觉输入刺激和神经元响应之间的映射关系。

神经解码则与神经编码相反,其目的是解码出各种类型神经信号模态中隐含的视觉刺激信息[26]。早期的神经解码方法主要是基于线性解码方法[27,28]。为了实现对复杂的自然场景刺激进行神经解码,研究者提出了非线性解码方法和基于深度神经网络的解码方法。一些研究者已经将深度学习方法成功应用在脉冲信号和双光子钙成像信号的神经信息解码任务中,取得了巨大突破[29,30]。传统的神经解码方法主要关注视觉刺激的重构效果。这类方法通常将编码和解码两者割裂开来。而本文提出的编码验证方法将两者统一起来,使用解码作为编码的验证手段。在徐齐团队的工作[31]中,神经解码和编码也被统一应用在一个模型中,一起构建了具有多模态数据解码能力的神经转码模型。

尽管研究者已经在神经编码领域进行了持续深入的研究,但是关于如何对神经编码模型的性能进行评价,研究界还没有达成一个统一的评价标准。现有的主要评价角度是从神经编码模型预测出的神经响应与真实生理数据之间的相似度进行评价。具体来说,主要是使用相关系数进行评价。例如对双光子钙成像信号中真实与预测的亮度迹线进行相关系数计算[32],对脉冲信号中真实与预测的脉冲发放频率之间进行相关系数计算[14,33]。考虑到人类对大脑信息处理机制还存在很多未知,同时大脑具有自我补全信息的能力,保留最完整原始信息未必代表最好的神经编码效果。本文针对上述问题,提出了使用神经解码效果来对神经编码模型进行评价。

本文的主要贡献如下:

(1)提出了使用神经解码来验证脉冲编码性能的视觉神经编解码方法。并根据这一思想设计了视觉脉冲信号编码验证框架。在这个框架中,除了传统神经编码度量方法之外,通过“标准解码度量模型”补充了对脉冲信号神经编码结果的评价维度,丰富了脉冲信号神经编码的评价维度,提升了脉冲信号编码响应的生理可信度。(2)在蝾螈视网膜神经节细胞动态视觉刺激脉冲信号数据集上对提出的框架进行验证实验。本文从神经元维度、视觉刺激维度、不同脉冲编码方式全面地对神经编码模型性能进行度量和分析。(3)本文发现了脉冲信号的频率编码和计数编码方式在神经编码结果上的差异。而这种差异由于过去评测手段的限制,在很多神经编解码研究工作中没有得到相应的重视。(4)不同脉冲信号神经编码模型在传统编码度量方式和神经解码度量方式下存在部分差异点,本文针对这些差异分析了其成因以及差异现象背后的生理意义。

2 本文使用的生理数据及预处理

视网膜是脊椎动物接受外界视觉信息的唯一来源。根据不同的形态和功能,视网膜中的神经元主要分为5种类型:将外界光信号转换成生理电信号的光感受器,感知光线强弱的视杆细胞(rod cell),感知颜色的视锥细胞(cone cell),连接视锥细胞和视杆细胞的水平细胞(horizontal cell),将光感受器输出的视觉信号传递给下游视网膜神经节细胞的双极细胞(bipolar cell)。视觉信息由光感受器传递到双极细胞,再经由双极细胞传递到视网膜神经节细胞RGC。以上这两个过程分别受到水平细胞和无长突细胞(amacrine cell)的调控。视网膜中的视觉信息最终汇合传递到RGC, RGC对视觉信息进行加工整合之后生成脉冲信号,继续向视觉系统的下一处理阶段-LGN传递。视觉信息在视网膜中的整个传递过程如图1所示。蝾螈是目前计算神经学科研究视网膜机理的模式生物。本文中使用的生理信号数据为蝾螈视网膜神经节细胞脉冲信号数据,将其作为神经解码验证脉冲编码性能方法的实验数据集。下面对本文使用的蝾螈视网膜RGC脉冲信号的实验数据收集流程作简要介绍。研究人员首先将离体视网膜放置在检测容器中,然后使用多微电极阵列对离体视网膜进行脉冲信号的记录。在视网膜上方光感受器层安装了一个显示设备,包括视频和图像在内的视觉刺激通过这个设备呈现给视网膜。本文中使用的蝾螈生理数据集上施加的视觉刺激是总共为1800帧的动态视觉刺激,其中动态视觉刺激帧以30 Hz的频率展示给蝾螈RGC。在给蝾螈视网膜展示视觉刺激的过程中,实验人员一共记录了90个RGC的脉冲响应。每个视觉刺激帧展示给RGC的时长是固定的,约为33ms。因此,根据展示的总帧数一共可以得到1800个脉冲发放的计数。

图1 视网膜中视觉信息传递图示

生理脉冲信号可以视为在时域上离散分布的事件信号(event)。本文将脉冲信号表示为一个长度为N,由M个向量组成的脉冲信号阵列。其中,M表示所有动态视觉刺激帧的数量,N是脉冲响应被记录的RGC总数。在脉冲信号编码实验中,神经编码模型的输入为动态视觉刺激帧,输出目标为所需要编码的RGC脉冲信号响应。反之,在神经解码实验中,神经解码模型的输入为RGC脉冲信号响应,模型输出目标为从神经元响应中恢复出激发此脉冲信号响应的视觉刺激。使用蝾螈RGC脉冲信号数据集分别进行神经编码和神经解码模型的训练时,动态视觉刺激帧及每帧对应的脉冲响应均被按照9:1的比例分配。其中90%数据被用作训练集,另外10%用作测试集。

如上所述,通过给蝾螈视网膜展示1 800个刺激帧,多电极采集设备共记录得到1 800个脉冲发放的计数。在计算神经科学的研究中,通常有两种脉冲信号处理方式。第1种,直接使用记录得到的脉冲发放的数量n作为神经编码的目标对象,简称脉冲计数。第2种,计算RGC的脉冲发放频率,即n/Δt,使用脉冲发放率作为神经编码的目标。在一些神经科学的研究工作中,这两种脉冲编码方式的使用没有被特意强调区分。一些研究人员从单纯的信息编码角度出发,认为n和n/Δt所包含的信息是一致的。但是,考虑到 Δt一般为33ms,这会导致脉冲发放率n/Δt相对n来说数值上会变得特别大。同时,脉冲信号本身是稀疏的,从波形上来看,“脉冲发放率”波形的波动幅度要远大于“脉冲计数”。当经过这两种编码方式得到的脉冲信息输入到同种类型的神经编码模型时,尤其是基于深度神经网络的神经编码模型,这两种信息分布方式对编码结果的影响已经不可忽略。

3 神经解码模型验证脉冲编码性能

现有的神经编码方法的评价方法,主要是基于真实生理脉冲信号和编码脉冲信号之间的相关系数计算。本文提出使用标准解码度量模型多角度评价不同脉冲信号神经编码方法。根据这一思想,本文设计了包括传统脉冲信号编码度量方法和标准解码度量模型的视觉脉冲信号编码验证框架。为了验证这一框架的合理可行性,本文选取3个具有自然场景视觉刺激编码能力的脉冲信号编码模型,并在蝾螈RGC动态视觉刺激脉冲信号数据集上进行实验。同时选取一个具有先进性能的自然场景视觉刺激解码能力的神经解码模型作为“标准解码度量模型”。下面将对视觉脉冲信号编码验证整体框架以及用以对比的神经编码模型、用于脉冲信号编码度量的神经解码模型进行详细介绍。

3.1 视觉脉冲信号编码验证框架

本文提出的视觉脉冲信号编码验证框架如图2所示。脉冲信号生理数据集中的视觉刺激输入到脉冲信号神经编码模型中。原始视觉刺激信息通过不同的神经编码模型被编码成不同的脉冲信号。此时,不同的脉冲编码信号可以和真实生理脉冲信号按照传统神经编码度量方法进行度量。具体度量方法在传统神经编码度量方法章节进行介绍。这些编码模型生成的脉冲信号序列接着被输入到标准解码度量模型中,进行神经解码度量。标准解码度量模型先使用脉冲信号生理数据集中的真实脉冲信号和视觉刺激进行了训练,标准解码度量模型从而具备通过脉冲信号进行视觉信息解码的能力。不同的脉冲编码信号输入到标准解码度量模型,通过解码重构得到脉冲信号对应的视觉刺激。这些重构得到的视觉刺激又可以与原始视觉刺激进行相似度对比。本文将这种脉冲编码信号重构出的视觉刺激与原始视觉刺激的相似度也作为对脉冲编码模型的度量标准之一,同时结合传统脉冲神经编码度量方法,多角度对神经编码模型的编码能力进行评估。

图2 视觉脉冲信号编码验证框架

3.2 神经编码模型

早期的经典生物物理神经编码模型只能用于简单的白噪声视觉刺激场景的脉冲编码。这类神经编码模型的性能无法达到可用的水平。因此本文尝试使用最近在计算神经科学领域兴起的基于深度神经网络的神经编码模型,在动态视觉刺激下采集的蝾螈RGC脉冲信号数据集上进行实验。本文首先选择文献[32]的动态自然场景神经编码模型。文献[32]提出了多种基于卷积神经网络的编码模型。本文选择其中基于卷积神经网络神经编码模型及其加入循环连接的变形网络模型。为了方便表示,在下文中用CNN和CRNN表示。这两种编码模型的网络结构展示在图3中。CNN神经编码模型主要包括两层卷积层。其中,第1层卷积核大小为25×25,第2层卷积核大小为11×11。卷积层之后的全连接层负责将输出转换为需要编码的神经元响应数量大小。而CRNN神经编码模型则是在CNN神经编码模型的基础上加入了循环连接结构。在本文使用的这个神经编码模型中为一个单元大小为32的长短程记忆模块(Long Short-Tern Memory, LSTM)[34,35]。本文选择的第3个神经编码模型是Shah等人[36]提出的最新的神经编码模型。该模型的主体架构也是基于卷积神经网络,该模型与普通卷积神经网络编码模型的区别在于,它具有一种自适应性的批标准化层(adaptive batch normalization)[37]。这个神经编码模型下文简称CNN-1。

图3 参与脉冲编码性能度量的神经编码模型

3.3 标准解码度量模型

本文选用最近提出的具有较高像素级解码重构能力的模型作为度量编码性能的解码度量模型[30]。本文将该模型直接迁移到RGC数据集上,使用真实RGC脉冲生理信号响应将解码模型训练到最优性能。并将最优性能的神经解码模型作为标准解码度量模型。整个标准解码度量模型的结构如图4所示,可以看成由两个功能部分组成。输入脉冲信号首先通过一个由全连接层构建的前馈网络。这个前馈网络的功能是将输入脉冲信号转换成目标解码图像像素大小的中间量。第2个部分主要由一个类似自动编码机的结构执行动态视觉刺激的重构功能。

图4 标准解码度量模型结构

4 神经编码度量方法

本文提出的视觉脉冲信号编码验证框架中包括了传统神经编码度量方法与从解码角度对脉冲信号神经编码进行度量的标准解码度量模型。下面本文分别对传统脉冲神经编码度量方法和基于神经解码的编码度量方法进行介绍。

4.1 传统神经编码度量方法

在计算神经科学领域,对神经编码模型的统一评价标准还没有形成。目前,大部分神经编码的研究工作都会采用相关系数(correlation coefficient)作为对神经编码模型的评价标准。此类方法通常是将编码得到的神经元响应向量与真实神经元生理响应向量之间做一个相关系数计算。如果相关系数越大,则认为两者相似性越高,则编码效果越好。根据本文的具体实验设置,本文定义了两种神经编码性能衡量指标,分别是cc_cell和cc_pop。cc_cell是单神经元在不同帧视觉刺激下编码响应与真实响应之间的相关系数。cc_pop是单个视觉刺激帧在不同神经元上编码响应与真实响应的相关系数。具体的计算公式可以写成:

本文先定义真实神经元响应矩阵为Y,大小为m×n,m表示神经元数量,n表示视觉刺激图像的数量。于是,编码得到的神经元响应矩阵可以表示为,大小和Y相同。每一个神经元在所有视觉刺激上的真实响应和编码响应分别表示为yi和,也就是按神经元数量(按行)分的每一行向量。每一帧视觉刺激在所有神经元上的真实响应和编码响应分别表示为yj和,也就是按视觉刺激(按列)分的每一列向量。表示在y,yˆ两个向量上求皮尔逊相关系数(Pearson correlation coefficient)。在本文的脉冲信号神经编码性能度量实验中,采用不同编码方式,也就是脉冲频率编码和脉冲计数编码的情况下,y的数值含义有所区别。在脉冲计数编码情况下,y的数值为脉冲发放数量的统计值n。在脉冲频率编码情况下,y的数值为n/Δt。

4.2 基于神经解码的度量方法

本文提出使用“标准解码度量模型”对来自不同脉冲神经编码模型的编码结果进行验证。从神经解码角度,对脉冲响应编码结果的度量具体为比较使用编码响应解码重构出的视觉刺激与原始视觉刺激之间的相似性。为了全面地对图像相似性进行评价,本文使用了6个全参考的图像质量评价指标作为经过不同神经编码模型处理后的脉冲信号的评价标准。这些评价指标关注图像的不同特性来进行重构图像的质量评价。下面对这6种指标作简要介绍。

(1)均方误差(Mean Square Error, MSE)。MSE表示预期值和原始值之间的平方误差。

(2)峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。峰值信噪比可以定义为

MAXI是原始视觉刺激图像上的像素最大数值,即255。PSNR数值越大,图像质量越好。PSNR的取值范围没有限制。

(3)结构相似度评价指标(Structural Similarity Index Metric, SSIM)[38]。结构相似度评价指标的设计基于人类视觉系统可以高效地从视觉刺激中提取视觉刺激图像中的结构特征这个假设。SSIM的取值范围是[0,1]。SSIM的取值越大,表示重构图像与原始图像相似度越高。

(4)最显著失真度(Most Apparent Distortion,MAD)[39]。MAD主要考虑了两个评价策略。在高质量图像中基于检测(detection-based)感知图像变化和在低质量图像中基于外观(appearance-based)感知图像变化。M A D 的取值是一个非负值,MAD越大,图像质量越差。

(5)图像特征相似度评价指标(Feature Similarity Index, FSIM)[40]。FSIM也是由人类视觉系统启发而来。Morrone等人[41]提出图像相位一致性的概念。图像相位一致性和图像梯度(image Gradient Magnitude, GM)是FSIM评价指标中两种主要评价维度。FSIM与SSIM的取值范围一样。

(6)梯度相似度评价指标(Gradient Similarity Measure, GSM)[42]。GSM的取值范围是[0,1],值越大则重构出来的图像质量越高。GSM综合考虑了图像在亮度、对比度和结构上的变化进行评分。

5 实验结果

本文首先使用蝾螈RGC脉冲信号数据训练3种神经编码模型CNN, CRNN, CNN-1以及标准解码度量模型。然后将测试数据中的动态视觉刺激输入到3种神经编码模型中得到编码响应。接着使用得到的3种模型的编码响应和测试数据中的神经元真实脉冲信号,通过标准解码度量模型获得神经解码结果。整个过程中对于每个编码模型,本文使用了脉冲计数编码和脉冲频率编码两种编码方法分别进行了编码实验。并且对两种编码方式的编码结果进行了比较。本文首先从传统编码性能度量角度对两种脉冲编码方式进行比较和分析,再从标准解码度量模型的重构结果再次进行对比分析。并且通过比较不同角度下编码模型性能差异,对出现差异的原因进行分析。

5.1 传统编码性能度量结果

对于脉冲频率编码和脉冲计数编码这两种编码方式,在单神经元维度下的脉冲编码情况展示在图5中。其中横坐标代表占视觉刺激数据集总数10%的测试视觉刺激帧数量。纵坐标对于脉冲频率编码表示脉冲发放频率,对于脉冲计数编码则表示脉冲发放数量。图6是单视觉刺激维度的3种神经编码模型在两种编码方式下的脉冲编码情况。

图5 单神经元维度3种神经编码模型不同编码方式的脉冲编码

图6 单视觉刺激维度3种神经编码模型不同编码方式的脉冲编码

从图5和图6可以看到,CRNN和CNN-1模型在脉冲频率编码和脉冲计数编码情况下编码拟合程度不错。相对来说CNN模型在单神经元维度上的编码表现可接受,但是在脉冲计数编码方式下编码响应与真实脉冲响应差别较大。整个编码响应情况中,CRNN表现出具有成功编码离群高响应值的能力。图5与图6都是从选择的部分神经元/视觉刺激上的脉冲编码对不同编码模型的编码情况进行观察。图7展示了通过传统脉冲编码度量方式-皮尔逊相关系数从全局观察的不同神经编码模型的脉冲编码情况。整体来看,同一种神经编码模型的整体编码效果,在脉冲频率编码方式下要优于使用脉冲计数编码的情况。从单个模型角度上看,CRNN是唯一在脉冲频率编码和脉冲计数编码情况下编码性能相差不大的编码模型。除此以外,3种神经编码模型在脉冲计数编码方式下相差大,性能优劣较为明显。相对来说,3种编码模型在脉冲频率编码下的性能在相关系数这个度量方式下差距不明显。在脉冲频率编码方式和计数编码方式下性能最好的编码模型不同。在图7中还可以发现,从不同神经编码模型cc_cell和cc_pop的编码性能变化趋势来看,同一种神经编码方式的变化趋势是一致的,且不同模型性能优劣排序也是一样的。例如,在脉冲频率编码的情况下,单神经元维度与单视觉刺激维度下CRNN模型的相关系数指标最高。从皮尔逊相关系数这一评价指标观察,单神经元维度和单视觉刺激维度对神经编码模型的评价不会发生较大差异。

图7 3种神经编码模型的传统编码度量指标情况

5.2 标准解码模型度量结果

本文通过标准解码度量模型对神经编码模型的编码性能进行度量。

图8展示了4种情况下两种编码方式进行脉冲神经编码的指标情况。除了3种不同编码模型的情况,还加入了真实神经元脉冲响应通过标准解码度量模型的结果(Bio-rsp)。首先从图8的脉冲计数编码情况分析,Bio-rsp的解码重构指标都要优于不同神经编码模型的指标,这与“真实生理响应中包含最完整的视觉刺激信息”的预期相符。从脉冲频率编码方式角度观察,各神经编码模型的性能优劣情况与脉冲计数编码情况下不同:同一种神经编码模型在不同编码方式下,不同解码度量指标上的差距较大。相较而言,真实神经元脉冲响应在不同神经编码方式下,其对应的解码度量指标差距小。从这个角度看,不同神经编码方式对神经编码的性能评判影响较大。同时也发现,不同神经编码模型对不同神经编码方式的“偏好”不同。CRNN和CNN神经编码模型在脉冲频率编码方式下神经编码性能更好。而CNN-1模型在脉冲计数编码情况下编码性能更优。本文对两种神经编码方式在神经编码性能度量上的差异作简要分析:尽管从传递信息总量的角度上看,两种编码方式传递的信息是一致的。但是对于神经编码模型来说,脉冲频率编码相较于脉冲计数编码而言数值大了一个数量级。而不同神经编码模型在处理这两种序列时存在较大区别,因此造成了神经编码模型性能在两种神经编码方式下的差异。

图8 两种编码方式下不同模型及真实响应的神经解码度量指标

6 结束语

本文提出了使用标准解码度量模型进行脉冲神经编码模型性能评价的视觉神经编解码方法,并且构建了具有传统编码度量和神经解码度量能力的视觉脉冲信号编码验证框架。此外本文使用蝾螈RGC生理脉冲信号数据集,对动态视觉刺激下3种脉冲神经编码模型的编码性能进行了验证。本文从定量分析上揭示了两种脉冲编码方式在神经编码性能上的差异。这些发现对于未来类脑视觉研究以及生物视觉编解码工作提供了启发。对开发类脑视觉编解码验证平台、探索形成统一的神经编码评价基准提供了研究基础。

猜你喜欢
编码方式解码度量
《解码万吨站》
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
解码eUCP2.0
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
GCOA算法
可穿戴式多通道传感系统功能需求分析及设计
混合编码方式自适应差分进化算法优化设计宽带天线