说话人确认中基于无监督聚类的得分规整

2019-10-30 01:08古斌郭武

数据采集与处理 2019年5期

古斌郭武

（中国科学技术大学语音及语言信息处理国家工程实验室，合肥，230026）

引言

说话人确认(Speaker verification,SV)是判断一段测试语音与其所声明身份是否一致的过程，是一个典型的二分类模式识别任务。在说话人确认中，需要计算每段测试语料与其声明说话人模型之间的得分，然后将得分与设定的判决门限比较并作出判决，该门限对所有测试语音都是同一个数值[1]。受语料之间信道、语种、时长、性别等因素的影响，不同的说话人模型、不同冒认者的得分分布往往不同，这种固定数值的门限会导致整个系统的性能受到严重的影响。

在进行生物辐射影响评价时，经常会用到分级的评价结构。较低层级的评价颇为保守，但只需要极少的数据输入，多用于初步筛选；较高层级的评价则更为接近现实情况，结果更加准确，但相应的也需要更多的数据，尤其是当地的测量数据。在进行生物辐射影响评价时，通常会先采用较低层级的方法来进行筛选，对于可能出现影响的情况再进行高层级地仔细评价。

材料力学[1-2]是固体力学的一个分支，与弹性力学[3]相比，研究的构件局限在杆件这一相对简单的形式上，包括在载荷或温度变化作用下杆件的强度、刚度和稳定性问题。材料力学是一门重要的技术基础课，包括机械、土木、水利和交通等专业的学生都要求必须修读。虽然大部分学生在中小学就学习了牛顿力学的基本常识，但是一般直到开始学习材料力学，才开始接触力学中最重要的一些概念，比如应力和应变等。由于材料力学本身内容繁杂，概念抽象，对数学工具的应用要求较高，再加上力学课程的课时安排在很多高校中并不充裕，在实际的教学实践中发现相当多的学生对这门课的掌握并不理想。

为了使得不同说话人模型、不同冒认者的得分分布趋于一致，从而使得固定的门限能够比较好地区分目标说话人和冒认者，一般采用得分规整的方法来实现这一目的。通常有2种规整的途径，一种是规整目标说话人模型的得分分布，例如零规整(Z-norm)，另一种是规整冒认者得分分布，例如测试规整(T-norm)，在这二者的基础上，又衍生出了一系列得分规整方法，包括ZT-norm[2]、S-norm[3]、Top-norm[4]等。目前得分规整已在说话人确认系统中的得到广泛运用，并在高斯混合模型-通用背景模型(Gaussian mixture models,universal background model,GMM-UBM)[5]、i-vector[6]、x-vector[7]等系统中取得显著效果。

近几年的研究中，如何挑选合适的测试语料与其声明身份组成测试从而得到接近真实测试条件的得分分布参数是一关键问题[8]。由于测试集的得分分布实际上是无法事先获知的，为了尽量缩小估计分布与真实分布之间的偏移，研究者们提出了自适应得分规整方法。一些研究者从说话人特征层面来挑选规整数据[9-10]，挑选与测试数据尽可能相似的数据，还有一些研究者选择从得分层面来挑选规整数据，对规整集合得分只取值较大的若干个得分用于统计分布参数[11-12]。近几年的应用中，从得分层面挑选规整数据的自适应得分规整方法应用更加广泛[13-15]。

得分规整总体逻辑思路就是把所有冒认者得分规整到同一分布上，消除说话内容、语速等因素的影响[16]，从而通过一个合理的门限来获得最好的识别性能。NIST SRE 2016测试集出现了以往数据集中未曾出现过的语种，开发集中只有部分无标签数据与测试集标签信息相匹配，因此无法针对每个说话人或测试语句挑选合适的规整数据集，根据以往的研究，此时需要使用自适应得分规整的方法。在选择得分最高的一些冒认者得分来估计规整参数时，对每个待规整对象（说话人模型或测试语料）都取相同数量的较大得分，这些数值较大的得分不服从高斯分布，因此必然与测试集的分布存在偏差。

林业资源是我国能源资源储备体系的重要组成部分，对维护生态平衡、促进国民经济健康发展以及提高人们生活质量都产生了积极促进作用。完善林业资源保护措施，提升森林防火管理模式的实用性和有效性，有助于缓解当前林业资源无法满足经济社会高速发展对大量林业资源需求的矛盾，为充分发挥林业资源对经济社会的促进作用奠定基础。

由表2～6可以看出，29个样品个共有峰的相对保留时间漂移不大。由表3可见，不同品种枣叶的指纹图谱相似度存在差异。根据与S30(对照图谱[14])相似度的大小，可将样品分为三类：Ⅰ类相似度为85%～91%，Ⅱ类相似度为92%～95%，Ⅲ类相似度大于95%；S1、S11、S17、S18、S24枣叶指纹图谱相似度为85%～91%，为Ⅰ类； S12、S20、S23、S28、S29枣叶的指纹图谱相似度为92%～95%，为Ⅱ类；其余的为Ⅲ类。相似度可以体现不同批次样品间各成分在种类及其相对量上的整体相似程度。分析结果表明，29个品种枣叶样品的成分和含量相似度较高，但仍然存在一定差异。

1 得分规整

1.1 基础得分规整方法

聚类完成后，可以认为K-means聚类获得的K个类别的得分代表着不同匹配程度的测试得分类，类中心数值越大的类得分所对应的冒认者测试语料与声明说话人在性别、语种等方面信息匹配程度越高。

本文使用NIST SRE 2016测试集作为系统性能评估数据集，测试集为广东话与菲律宾塔加路语2种语言的混合数据集。测试集中说话人注册语音为时长60 s的语料，说话人模型由1段或3段语料注册得到；测试语料时长均匀分布在10～60 s，目标说话人测试37058条，冒认者测试19494662条。

故障处理结束后，对调度系统进行修复维护。对计算机站控系统的各个设备进行状态检查，通过在线自诊断确定故障发生的部位，用交互方式在线对数据库中的各个数据项进行修改和增删，及时处理故障完成修复工作，保证调度系统能够尽快投入运行。

目前为止,富春江浮标站为富春江上唯一气象监测站,资料的时间序列也有限,而且维护维修程序相对繁琐,资料的连续性有时无法得到保障。因此对浮标站和周边站点的对比分析,找到其与周边站点一些定性定量的规律显得尤为重要。风向对气象灾害的主导作用不明显,故下面主要对城区国家站(58449)、浮标站(K1600)、江南站(K1240)以及新沙岛站(K1712)4个站的风速做一定的对比分析。

T-norm与Z-norm相似，不同的是它利用每段测试语料与不同冒认说话人模型进行测试得到得分，从而统计每段测试语句的得分分布参数并对测试得分进行规整。T-norm可以较好地消除测试语音环境对输出评分分布的影响，但是得分分布参数需在实际测试时获取，属于在线计算，会降低模型识别速度。基于Z-norm、T-norm的规整方法，又衍生出了S-norm、ZT-norm、TZ-norm等一系列方法，其中S-norm是将Z-norm和T-norm规整后的得分进行加权求和，该方法凭借其优异的性能在近些年获得了广泛应用。

物质文化，即是校园文化的基础。它的存在与校园的每个角落，环境、设施等等。物质文化比较重点的方面是学校内部的绿化、教学设施、实验设备等几个对日常影响较大的方面，物质文化相较于精神文化，更加的直观，只要进到学校，就能够对这个学校的物质文化好与坏一览无遗。

1.2 自适应得分规整方法

自适应得分规整方法在基础得分规整方法之上对规整数据进行了选择。在这类方法中，只有部分被选中的规整数据用于统计得分的均值和标准差，被选中的这部分数据可能随着每一个规整对象而变化。以Top-norm为例。在Top-norm中，规整数据集中的每条语句都参与得分计算，但是只有得分值最大的N个得分将被用于统计规整时所使用的均值和方差，图1以某个说话人模型在规整数据集上的得分分布为例，展示了自适应规整数据选择的过程，其中横轴表示得分的数值大小，纵轴表示得分在单位区间内出现的次数。

该种自适应得分挑选的方法如今已广泛应用于Z-norm、T-norm、S-norm等基础得分规整方法中，本文所提出的自适应得分规整方法将与该种方法进行对比。在本文中使用该种方法时会在相应的基础规整方法前用“Top”标注。

2 基于无监督聚类的得分规整

图1 自适应规整数据选择Fig.1 Adaptive normalization data selection

步骤3当模型参数收敛或达到最大迭代次数时终止参数更新，否则跳转至步骤1。

2.1 冒认者得分筛选

对于注册集中第m个说话人模型em，与包含L条语料的规整数据集测试后可得到L个测试得分{s(em,t*l),l∈[1,L]}，利用K-means算法对L个得分进行聚类，然后仅保留均值靠前的若干类得分作为筛选后得分。具体算法如下：

步骤1随机选择K个初始中心点{μ1,μ2,…,μK}。

步骤2计算每个测试得分到K个中心点欧式距离，根据最小欧式距离划分每个测试得分所属类别C(μk)，当s(em,t*l)∈C(μk)则对于∀k'∈ [1,K]有

鲁棒水印算法有较多的研究成果，本文用基于小波变换的水印两次嵌入算法[11]进行实验。对如图1 所示的1200×933 的原始唐卡图像嵌入如图2 所示的154×447 的二值水印图像，含水印唐卡图像如图3 所示，从图3 中提取的水印如图4 所示。因为唐卡图像纹理复杂度高，嵌入水印信息后透明性很好，且鲁棒水印算法能抵抗常见的各种攻击，具有较好的抗攻击能力。

步骤3根据每个类别的得分更新每个类别中心点,其中|C(μk)|表示C(μk)类中的得分个数

步骤4当每个类别更新后的中心点相较未更新中心点的距离小于设定阈值或迭代次数大于设定值，此时认为聚类数据已收敛，否则跳转至步骤2。

Z-norm和T-norm是使用最为广泛的2种得分规整方法，Z-norm利用实际说话人模型｛e1,e2,…,eM｝对大量冒认者语料进行测试，得到测试得分其中em表示注册集中第m个说话人模型表示规整数据集中第l条冒认者语料，统计每个说话人模型得分均值μ(em)和标准差σ(em)。

由于得分值较大的冒认者在实际测试时最难以分辨，需要更多地关注这类较大值得分，因此舍弃中心值较小的得分类，保留前K'个聚类中的得分,如图2所示。在本文Z-norm中K取6，K'取3；T-norm中K取3，K'取2。

2.2 GMM拟合得分分布

不同于以往假设每个待规整对象对于冒认者者得分分布服从单高斯分布，本文假设其得分分布满足更为复杂的混合高斯分布，在2.1节筛除部分冒认者得分的基础上，引入GMM模型拟合保留得分的分布。

图2 得分筛选示意图Fig.2 Score screening schematic

鉴于2.1节已经获得了K'个得分类，可以按这K'个类的均值和标准差初始化K'个高斯的GMM模型均值和标准差，权重初始值wi按照式（4）初始化

式中：|C|为保留的总得分个数，|C(μi)|表示第i类中的得分个数。利用EM算法对保留的得分进行进一步聚类直至满足收敛条件，GMM模型的参数按式（5）—（8）进行更新：

步骤1计算每个得分在每个高斯的占有率

本文提出了一种新的自适应得分规整方法，利用无监督聚类对每个待规整对象的得分集合进行聚类，然后对数据进行筛选，并且用混合高斯函数来拟合经过筛选后的冒认者得分分布，取均值最大的高斯函数的均值和标准差作为规整参数，可以缩小与测试集的真实得分分布之间的偏差，减小通过固定数量的得分统计分布参数时丢失的分布信息，从而提高整体识别性能。本文在NIST SRE 2016数据集的测试集上进行实验验证，从结果上来看，明显优于传统的方法。

步骤2根据每个高斯的占有率更新GMM参数

本节以Z-norm为例，说明基于聚类的得分规整。

《残疾人康复服务“十三五”实施方案》中指出到2020年，有需求的残疾儿童和持证残疾人接受基本康复服务的比例达80%以上。为实现这一目标，提出了“实施残疾人精准康复服务、提升残疾人康复服务专业化水平”等措施。同时提出“加强康复医院、康复医学科规范化建设”。在《残疾人精准康复服务行动实施方案》中也指出为每个社区(村)配备一名社区康复协调员，与社区(村)医生共同组成残疾人精准康复服务小组。可见，康复医学将在当前推进残疾人小康进程中发挥着不可替代的作用，在基层康复服务实践其重要意义也不可或缺。

当GMM模型收敛后，取均值最大的高斯单元均值μ(etop-gaussm)和标准差σ(etop-gaussm)作为当前说话人模型的得分规整参数，如图3所示，其中纵轴表示得分在单位区间内出现的概率。

图3 GMM得分规整示意图Fig.3 GMM score normalization Schematic

3 实验配置与结果

3.1 实验数据与评价指标

训练数据集包括 NIST SRE 2004、2005、2006、2008、2010，SwitchBoard以及Mixer6数据集中的部分数据，共计87457条数据，数据时长主要分布在30 s～3 min，大部分内容为网络语音、室内录音以及电话中的英文对话。这些数据主要用于UBM、i-vector因子分析的载荷矩阵、PLDA的载荷矩阵训练。

开发集中包含一份无标签数据，为广东话与菲律宾塔加路语两种语言的混合数据，开发集中只有该部分数据语种与测试集匹配，以往研究证明若测试集与规整数据集语种不匹配得分规整将很难获得效果，因此这部分数据将用于得分规整，共计2272条语音。从这些无标签数据中随机挑选3/4数据作为Z-norm集，剩余作为T-norm集，将说话人模型与Z-norm集、测试语料与T-norm集组合构造测试用于得分规整。

机能实验室重组后，在人员方面仅剩实验室技术人员，而教师负责实验教学，在编制上不属于实验室。教师和实验技术人员缺少沟通和理解，实验室教学与管理出现了脱轨，工作衔接不上，给日常实验教学顺利进行增加许多困难[6]。实验技术人员必须具有整体观念和团结协作精神，在工作上与教研室教师互相配合，遇到问题及时沟通、商讨，凡事从整体利益出发，保证工作顺利进行。实验技术人员和教师在专业分工、职业规划、工作价值追求等方面都不尽相同，合理地对待这种差异，用平等的态度看待彼此的工作，有利于营造全体教职人员团结和谐的工作氛围，符合整个学校教学体系建设的初衷。

然后利用这2个分布参数对含有说话人模型em的实际测试得分S(em,*)进行规整

本文采用NIST SRE 2016官方计划中的等错误率(Equal error rate，EER)，最小错误代价函数(Minimal detection cost function，Min_DCF)和实际的错误代价函数(Actual detection cost function，Act_DCF)作为评价指标[17]。

为了体现估计的得分分布参数与真实分布参数的差异，另外给出均值和标准差2个偏差参数的定义

式中：N为测试集中待规整对象的数量，对于Z-norm，N为注册说话人数量，对于T-norm，N为测试语料数量，μˆn、σˆn为根据规整集得分估计的均值和标准差，μn、σn为根据真实测试得分统计的结果。通过这2个参数来比较不同算法对于真实得分分布的拟合能力，越小则代表拟合能力越强。

3.2 系统描述

本文采用基于i-vector和概率线性判别分析(Probabilistic linear discriminant analysis，PLDA)的说话人确认系统。在得到PLDA测试得分之后，采用各种得分规整方法进行得分规整。整个流程主要使用Kaldi toolkit[18]开源代码实现。

Z-norm可以较好地消除说话人模型之间的分布差异性，属于离线计算，在模型训练阶段就可以获得分布参数，在测试阶段不会额外占用计算时间。

在特征提取阶段，首先提取加上一阶二阶差分后共计60维的梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)特征，使用3 s的平滑窗作均值方差规整，然后通过基于能量的语音活动检测(Voice activity detection,VAD)算法去除静音帧。

在模型训练阶段使用NIST SRE 2016开发集中的无标签数据训练具有全对角协方差矩阵的UBM模型，该模型有2048个高斯成分，利用训练数据集与UBM模型训练i-vector生成矩阵，提取600维的i-vector向量，然后训练集测试集各自进行均值中心化，通过线性判别分析(Linear discriminant analysis,LDA)将i-vector降维至400维，利用无标签数据作主成分分析(Principal component analysis,PCA)白化，所有数据进行长度规整后作概率形式的线性判别分析(Probabilistic linear discriminant analysis,PLDA)得到测试得分，训练和测试过程均为性别、文本无关。

本文根据不同的得分规整方法，构建了不同的得分规整系统进行对比：

系统0：得分不做规整，这是基线(Baseline)系统。

教师应更多地采取赞许、表扬和鼓励、给予信任性委托等措施来培养他们的自尊心，使其自尊自立、自爱自强，并且在此基础上，培养学生的集体荣誉感。

自动上料的运行轨迹为：在初始状态机构处于左侧上方位置，上电以后机构下行至左侧下方位置；开始吸纸，然后回到左侧上方，行至中间位置停下；机构开始前伸，上料完毕。

系统1～3：使用所有得分进行Z-norm、T-norm、S-norm；这些算法是目前广泛采用的算法，也是对比系统。

系统4～6：使用数据自适应选择的方法进行Z-norm、T-norm、S-norm。这是参考文献[12]所采用的算法。本文中Z-norm中N取150，T-norm中N取100，在这两个参数上本文系统性能最佳，后面的描述中按此种做法所做的规整将在规整方法前加Top，例如Top Z-norm，这些属于对比系统。

系统7～9：利用基于GMM的Z-norm、T-norm、S-norm。后面的描述中按此种做法所做的规整将在规整方法前加GMM，例如GMM Z-norm。

3.3 实验结果与分析

从表1中各项指标可看出，系统9 GMM S-norm整体性能最佳，EER为13.69，而Min_DCF和Act_DCF为0.7167和0.7214，这2项指标较Baseline分别有7.1%和22.0%的相对改进，较自适应得分规整方法也有3.3%和6.3%的相对优化。

从基本的规整方法来看，S-norm效果要好于Z-norm、T-norm，说明S-norm充分结合了二者的优点，实现了性能互补。对比系统1～3、4～6以及系统7～9可知，从自适应选取规整得分策略来看，选取靠前的得分统计规整参数性能更优，这一定程度上是因为靠前的得分集合相对目标说话人真实得分有更加稳定的均值和标准差，而靠后的得分相对目标说话人得分波动性比较大，将使得每个说话人的理想最佳门限和统一的判决门限相差较远。在此基础上，使用基于聚类的变长数量得分的策略要优于选定固定数量得分，这得益于GMM模型在刻画数据分布时的优势，从而使用该模型进行聚类能够得到更加稳定的均值和方差，这也表明利用GMM模型能有效地解决在选取固定数量的得分计算规整参数时分布信息丢失的问题。

表1 不同得分规整方法实验结果Tab.1 Results of different scoring normalization methods

为了更近一步说明GMM模型在获得规整参数时的优势，表2给出式(9，10)定义的均值和标准差偏差参数。

从表2可以看出，无论是Z-norm还是T-norm，基于聚类的得分规整方法的均值偏差都要明显小于选取固定数量个得分的规整方法，二者的方差偏差基本属于同一水平。本文基于GMM的规整方法首先剔除了靠后的得分类，可以缩小与真实分布均值上的差距，然后利用GMM软聚类的方法使得保留的每个得分点都参与规整参数的计算，这样可以缩小标准差与真实分布的偏差，因此基于聚类的得分规整可更加有效地拟合真实的得分分布。

表2 不同得分规整方法偏差参数Tab.2 Bias of different score normalization methods

4 结束语

本文采用聚类手段，替代了以往自适应规整算法中直接取得分最高的特定数量个得分统计分布参数这一做法，选取变长个得分参与分布参数计算，获得了很好的性能提升。进一步的工作可以将从特征端规整数据自适应挑选和本文从得分端的规整数据自适应挑选结合起来以获得进一步的改进。