普通话单音节小词表的复测信度分析

2012-09-05 10:23陈静王硕刘苏张华*

首都医科大学学报 2012年6期

陈静王硕刘苏张华*

(1.首都医科大学附属北京同仁医院北京市耳鼻咽喉科研究所耳鼻咽喉头颈科学教育部重点实验室，北京100730;2.首都医科大学生物医学工程学院，北京100069)

言语测听是一种用言语信号作为声刺激来检查受试者言语听阈和言语识别能力的听力学测试方法。言语测听材料的复测信度(test-retest reliability)指以同样测试材料在不同时间段内测量同一对象所得结果的稳定性，是考核言语测听材料可靠性的重要指标［1］。单音节言语词表是临床应用最为广泛的言语识别率(speech recognition score，SRS)测试材料。

国外现有英文言语测听材料中多数已经实现复测信度的评估［2］。英文单音节测试词表相关研究记载较少，仅有NU-6(N.U.Auditory Test No.6)和Maryland CNC测试表实现了复测信度评估，因此该词表作为同类词表中最敏感的测试工具而广泛应用于临床［3］。目前在中国已有一些汉语普通话言语测听材料面世。相关研究正处在发展阶段:郗昕等［4］完成了汉语普通话单音节测试表在北京听力正常人群中的复测信度评估;陈艾婷等［5］评价了一组等价的汉语普通话单音节词表在听力损失人群中的复测信度;冀飞等［6］进行了汉语普通话单音节测听表在不同方言地区听力正常人群中的复测信度研究。

王靓等［7］围绕普通话言语测听材料(mandarin speech test materials，MSTMs)开展了一系列研究工作，词表的等价性和可靠性已从临床实践［7-9］得到验证。本实验在上述工作的基础上，对MSTMs中的单音节小词表的复测信度进行分析，完善MSTMs的标准化设计，为今后进一步应用和推广该材料打下必要基础。

1 资料与方法

1.1 测试材料

北京市耳鼻咽喉科研究所研发的普通话言语测听材料MSTMs(mandarin speech test materials)是一套完整的、集测听材料和测听软件于一体的言语测听系统。本次实验以该材料中的单音节小词表为测试表。共16张，每张20个单音节词，附带练习表1张，表内包含10个词。

利用Cool Edit Pro 2.0声音处理软件检验，各词表间声能量均方根值变化在±1dB之内，符合国家标准GB/T17696-1999《声学测听方法第三部分:语言测听》中言语级法的规定。对修订后的16张小词表进行切割，在每个测试音节前后各加入0.5 s静音。将练习表与测试表音频导入首都医科大学生物医学工程学院与首都医科大学附属北京同仁医院联合开发的汉语言语测听智能化系统以用于测试［10］。

1.2 测试对象

招募听力正常的北京高校在校生共16例，其中男生8例，女生8例，年龄20至25岁，平均年龄22.2岁;听力较好耳在0.25、0.5、1、2、4 和8k Hz处纯音听阈＜15 dB HL;鼓室导抗测试结果均为A型，受试者均未患耳科疾病且无相关病史;平日主要交流方式为普通话，吐字清晰且较标准;所有受试者均首次接触测试材料。

1.3 测试方法

用MSTMs单音节小词表对16例受试者进行识别率测试。

1)测试地点:首都医科大学附属北京同仁医院耳鼻喉科临床听力学中心标准双间隔声室，本底噪声＜20 dB(A)。

测试前使用B＆K 2209型精密声级计，B＆K 4145电容传声器和B＆K 4152型仿真耳，参考国标GB/T 7341.2-1998对耳机进行校准。校准时，调节1k Hz校准纯音来代替言语信号，输出的20 dB SPL被定为0 dB听力级(HL)。

2)测试顺序:实验采用拉丁方设计，将词表顺序循环排列，使每张表均有1次机会作为首张测试表出现，以此将若干例受试者个人心理、生理状态等混杂因素相对若干张表均衡分布。排序设计见表1。

表1 MSTMs小词表测试顺序Tab.1 Test sequence of the monosyllable word short lists in mandarin speech test materials

3)测试步骤:以受试者500～4 000频率处纯音听阈均值较好一侧为测试耳。测试前由测试者讲解测试流程，并播放1张练习表以便受试者熟悉测试方法(练习表不计分)测试采用固定给声强度(通过预试验，确定小词表采用12 dB HL)，将受试者得分控制在70%上下;由测试者手动选择词表;每张词表测试项目的播放顺序通过软件随机给出。测试过程中根据受试者要求适当安排休息。2次测试间隔6至35 d(中位数11 d)，受试者于同一时间段(±2 h)，在相同测试环境下，以同样的测试材料、测试设备和给声强度，由同一名测试者进行单音节识别率的复测。

1.4 计分方法

受试者以口述作为应答形式，测试者通过手动操作智能测听软件进行计分。计分时以整字为单位，即单音节字的声母、韵母和声调完全复述正确则得一分，否则不得分;每张词表单独计算得分。计算方法如下:单音节词识别率=(正确复述词数/总词数)×100%。

1.5 统计学方法

复测信度可由前后2次测试结果的差异程度进行描述。单音节识别率测试结果符合二项分布，其差异程度与得分相关联(识别率在接近0%及100%时变异度最小，50%处变异度最大)。为消除此种关联性，本实验通过Matlab 2010软件编程实现“合理化”反正弦变换(“rationalized”arcsine transform)对识别率进行调整，使不同得分下随机误差大致相等。其公式为:

式中X为应答正确项目数，N为表中测试项目总数，R为反正弦变换后的单位(rationalized arcsine units，RAU)［11］。

复测信度常用Pearson相关系数或临界差值(critical difference，CD)进行评估。本实验采用统计学软件SPSS19.0对经“合理化”反正弦变换调整的两轮测试得分进行相关性分析和配对t检验，计算相关系数r值;逐表计算两轮测试得分差异的标准差(standard deviation，SD)，以 95% 置信区间(confidence interval，CI)计算各表临界差值，计算式为:CD=SD×1.96。

由于测试表之间严格等价，词表整体标准差可由各表得分差异的平均偏离程度(以方差表示)间接求得，则:

(N为材料包含的词表数)，当两次测试结果差异大于该临界值时可认为该差异具有临床意义。

2 结果

2.1 言语识别率测试结果

16张小词表两轮测试总体得分为(69.5±10.6)%、(71.0±11.4)%。经“合理化”反正弦变换，最终得到2轮测试结果(68.1±10.7)%、(69.1±11.7)%。经Shapiro-Wilk正态性检验，变换后数据均服从正态分布(P＞0.05)。

2.2 相关性分析

小词表两轮测试得分总体相关系数r=0.748(P＜0.01)，测试结果显著相关。将各受试者前后两轮测试平均成绩进行配对t检验。结果显示小词表两轮测试得分比较差异无统计学意义(P=0.249)。

2.3 临界差值

普通话单音节小词表总体标准差为11.5%，临界差值22.5%。由于本实验所使用测试材料为每表20词，共计100%，则每词可以5%计算。当干预前后测试得分差值超过25%即5个词(以词计分，得分只能是5%的整数倍)时该差值不可用复测信度解释，而应考虑为测试前后干预效果(表2)。

表2 MSTMs单音节小词表两轮测试得分标准差、临界差值、相应测试项数目Tab.2 The standard deviation，critical difference and corresponding test items of the two tests

3 讨论

用同样的测试方法在不同时间段内对同一对象进行重复测试，其得分差异由测试过程中产生的各种误差决定。这些误差包括随机误差和各种因素造成的变异［2］。复测信度在理论上应以随机误差来表示。理想情况下，同一张表前后测试得分差异总和为0;测试结果相互独立，服从二项分布。基于这一点，Thornton等［12］提出根据测试项目数推算出随机误差的数学模型，并且列出当测试项目数一定时，95%置信区间下不具有统计学意义的差异范围。

Studebaker等［11］提出另一种直接计算置信区间的方法，即求RAU方差 Vrau。RAU可理解为“合理化”反正弦变换调整后的测试得分，仍然保持原始百分数形式，但消除了随机误差与得分间的关联性，使不同识别率下随机误差基本保持一致。对于测试项目数和置信水平已知的测试表，仅有一个RAU值用来表达它的临界区间，该值可以通过几步简单计算求得。公式如下:

若:N ＜50，V=1/(N+0.5)

若:N≥50，V=1/(N+1)

Vrau=V×2159.8(常数)

根据方差计算临界差值，公式如下:

其中V为反正弦变换方差;n为观察指数(number of observations)，本式中n=1。由此可知，测试项目数为20的词表其CD推算值为28.5%。实验测得本套材料的相应值为22.5%，略小于理论推算。

影响复测信度测量结果的因素可大致分为3个方面，即测试环境的影响，受试者个体差异的影响，测试材料特征的影响。由于实际测量结果总是被多种因素同时作用、交互影响，这就要求实验采用多因素均衡设计，最大限度地排除系统误差［1］;同一名受试者的初测和复测应当在完全相同的条件下进行——包括使用同样的测试材料、测试设备和刺激声强度，身处同样的声学环境下由同一测试者进行测试，两次测试的设备校准，耳机型号保持一致，这有利于去除仪器和计分带来的误差［13-16］。本次试验控制了影响随机误差范围的因素，以保证评估结果的真实可靠。

Plomp等［17-20］在改善句表信度的相关研究中发现，影响复测信度的最主要因素为学习效应，即受试者对测试方法和测试内容的熟悉程度。由于单音节测试材料言语冗余度很小，不便于记忆，故这里的学习效应主要指受试者对测试方法的熟悉程度。单音节小词表两轮测试分差不具有统计学意义(P=0.249)，说明学习效应对本次研究的影响不大。

复测信度的评估，其主要临床目的在于判断患者接受干预前后测试结果的差异是否具有临床意义。本次实验对MSTMs单音节小词表的复测信度进行评估，得CD值为22.5%，小于理论临界值28.5%，可以用于临床测试。

［1］冀飞.言语测听材料的复测信度评估［J］.听力学及言语疾病杂志，2009，17(3):209-211.

［2］Lisa L M，Jeffrey L，Danhauer.Audiologic evaluation and management and speech perception assessmen［M］.San Diego，CA:Singular Publishing Group，1997，59-74.

［3］张华.研发汉语测听材料的重要性(专家笔谈)［J］.中华耳科学杂志，2008，6(1):11-12.

［4］郗昕，赵乌兰，冀飞，等.汉语单音节测听表在北京听力正常人群众的复测信度评估［J］.听力学及言语疾病杂志，2009，17(2):95-99.

［5］陈艾婷，冀飞，郗昕，等.一组汉语普通话单音节词表在听力损失人群中的复测信度研究［J］.听力学及言语疾病杂志，2009，17(3):201-204.

［6］冀飞，郗昕，韩东一，等.汉语普通话单音节测听表的多中心复测信度研究［J］.中华耳鼻咽喉头颈外科杂志，2010，45(3):200-205.

［7］王靓，张华，王硕，等.普通话单音节词言语测听材料的等价性分析［J］.中国耳鼻咽喉头颈外科，2006，13(6):397-401.

［8］张华，王硕，王靓，等.普通话言语测听材料的数字化录制与等价性分析［J］.临床耳鼻咽喉科杂志，2006，20(22):1011-1015.

［9］张华，曹文，王硕，等.语音学理论在普通话单音节小词表编录中的应用［J］.听力学及言语疾病杂志，2009，17(2):100-106.

［10］Wu W，Zhang H，Chen J，et al.Development and evaluation of a computerized Mandarin speech test system in China［J］.Comput Biol Med，2011，41(3):131-138.

［11］Studebaker G A.“Rationalized”arcsine transform［J］.J Speech Hear Res，1985，28(3):455-462.

［12］Thornton A R，Raffin M J.Speech-discrimination scores modeled as a binomial variable［J］.J Speech Hear Res，1978，21(3):507-518.

［13］Bamford J，Wilson I.Methodological considerations and practical aspects of the BKB sentences lists［M］.London，UK:Acadamic Press，1979:146-187.

［14］Dillon H.A quantitave examination of the sources of speech discrimination test score variability［J］.Ear Hear，1982，3(2):51-58.

［15］Tom W.Tillman，Raymond Carhart，An Expanded Test for Speech Discrimination Utilizing CNC Monosyllabic Words.Northwestern University Auditory Test No.6.USAF School of Aerospace Medicine Technical Report，1966.

［16］Wilson R H，Carter A S.Relation between slopes of word recognition psychometric functions and homogeneity of the stimulus materials［J］.J Am Acad Audiol，2001，12(1):7-14.

［17］Plomp R，Mimpen A M.Improving the reliability of testing the speech reception threshold for sentences［J］.Audiology，1979，18(1):43-52.

［18］Wagener K，Josvassen J L，Ardenkjaer R.Design optimization and evaluation of a danish sentence test in noise［J］.Int J Audiol，2003，42(1):10-17.

［19］Rhebergen K S，Versfield N J，Dreschler W A.Learning effect observed for the speech reception threshold in interrupted noise with normal hearing listeners［J］.Int J Audiol，2008，47(4):185-188.

［20］Causey G D，Hood L J，Hezmanson C L，et al.The Maryland CNC Test:normative studies［J］.Audiology，1984，23(6):552-568.