邓茗月,何培宇,方安成
(四川大学电子信息学院,成都 610065)
耳鸣是在无外部声源刺激下产生的听觉感知,耳鸣发病率为11.9%~30.3%,严重者会产生焦虑、烦躁甚至抑郁等症状[1-2]。由于耳鸣病因和发病机制尚不确定,故现有的手术、药物、经颅磁刺激等治疗手段不具普适性。而声治疗作为一种安全有效的治疗方式,适用于各种类型的耳鸣患者,在临床中已有较广泛的应用[3]。因此,探索耳鸣声治疗方法具有重要意义。
掩蔽疗法(tinnitus masking therapy , TMT)和习服疗法(tinnitus retraining therapy , TRT)为耳鸣声治疗的经典疗法[4]。TMT使用的康复音常为与患者耳鸣频率匹配的窄带噪声,听感不佳,患者难以接受;TRT使用的康复音为音乐等宽频带声音,不考虑患者耳鸣频率,治疗周期长且见效慢[5]。临床试验表明,在慢性耳鸣的长期治疗中,TRT的疗效比TMT更好[6]。但TRT需要长时间的治疗,一旦患者对康复音形成记忆,将影响治疗效果。研究表明,相似不重复的音乐可以缓解耳鸣。基于分形算法映射音符合成分形音乐[7-8]、基于超混沌算法映射旋律片段合成音乐[9](其中旋律片段由个性化匹配音乐所提取的主旋律发展变换得到)、基于长短时记忆神经网络合成满足患者个性化喜好的音乐[10]等合成音乐,均具有相似不重复特性,且后两者同时满足患者偏好,能克服现有音乐在TRT长期治疗中反复播放导致重复性记忆的问题。蔡丽等[11]基于分形算法映射变换发展后的自然声片段合成分形自然声,其中自然声片段频率集中且与患者耳鸣频率相匹配,代替传统TMT中听感不佳的窄带噪声。漆蕾宇等[12]将无偏好分形音乐与分形自然声结合生成康复音,实现同时达到TMT与TRT的治疗效果,但其中分形自然声由发展变换后的自然声片段拼接,存在听感重复和损失自然度的问题。罗彬、鲁丹等[13-14]提出了一种综合TMT与TRT的多元复合声治疗方案,其康复音包括三个元素:音乐、窄带噪声和覆盖窄带噪声频率范围的自然声。临床试验证明,该治疗方案对耳鸣起到抑制作用,对耳鸣治疗具有一定的参考价值[13-17]。该方案康复音通过多元声音互补,对TRT不考虑患者耳鸣频率和TMT忽略患者心理感知特征的情况有所改善。但其康复音中作为TRT和TMT的元素仍为现存音乐和窄带噪声,且其声音元素的融合需借助第三方医疗平台。
本研究旨在通过信号处理技术合成一体化的康复音,在保持康复音频率特性的同时,提升自然度并降低听感重复度。因此,本研究基于IFS算法和MIDI技术提出一种多音轨个性化耳鸣康复音(multi-track personalized tinnitus rehabilitation sound, MPTRS)合成方法。该方法以匹配患者耳鸣频段的频率,集中分形自然声代替窄带噪声,辅以流畅的类白噪声自然声以及相似不重复的分形音乐合成MPTRS,其中用于合成分形自然声的自然声片段数量大、种类丰富,可降低文献[12]中分形自然声由有限自然声片段发展变换后合成导致的重复听感,并对合成康复音的自然度有所提升,同时分形音乐由个性化匹配音乐发展而来,满足患者偏好。由此,MPTRS可在保持精细频率特性的同时提升心理感知特性,能满足治疗时间长的需求,对耳鸣声治疗具有参考价值。
本研究合成MPTRS的原理见图1,MPTRS包含三个元素。
图1中①部分为fc-NS合成过程。与固定强度声音相比,变化的声音更有利于耳鸣治疗,自然声音虽然具有更高的动态性和掩蔽阈值,但更能被患者接受。基于此,将耳鸣多发频段划分为若干子频段,收集自然界中在这些频段上频率集中的声音,如鸟鸣、蝉鸣、各类虫鸣等集成为库。根据患者匹配的耳鸣频率,以IFS算法映射库中相应频段中的自然声片段合成fc-NS,即以这些频率集中的丰富自然声替代窄带噪声,避免窄带噪声听感不佳,达到使fc-NS打破强度固定、实现变化、具有精细频率特性的同时又具有心理感知特性的效果。
TRT中宽带噪声比窄带噪声对耳鸣更有帮助,随着宽带噪声的比例增加,成功治疗率呈上升趋势。水流声、雨声、海浪声都是较为有效的掩蔽信号[18-20],且此类声音都接近白噪声。因此,本研究将wl-NS的选取范围集中于雨声、流水声、海浪声等流畅的类白噪声自然声,收集此类声音集成为库,根据个人喜好匹配wl-NS,作为康复音中的背景音。
图1中②部分为f-Music合成过程。因满足患者偏好的音乐更有利于治疗[21-22],故本研究优选各种风格的MIDI音乐集成为库,为患者进行个性化匹配,将匹配后的MIDI文件进行解析,提取其音调和节奏组合,以IFS算法映射合成时长可控且相似不重复的音乐。
图1 MPTRS的合成过程
本研究中关于MIDI文件的处理部分借助了芬兰于韦斯屈莱大学学者Tuomas Eerola和Petri Toiviainen提出的MIDItoolbox工具。
MIDI文件不同于一般音频文件,其本身不包含波形数据而以2进制方式存储MIDI消息。MIDI文件可解析为一个7×n的矩阵notematrix,其中包含MIDI文件的有效信息,该矩阵每一行代表一个音符事件。第一、二列分别表示为以四分音符为基准的音符开始节拍和持续节拍。第三列表示MIDI通道(0~16)。第四列表示MIDI音高,中央C的值为60。第五列表示音符的音量(0~127)。第五六列分别对应于第一二列并以秒代替节拍,表示音符演奏开始时间点和持续时间。
图2为基于个性化匹配的MIDI文件提取音调值和节奏组合的过程。提取个性化匹配的MIDI文件主旋律轨,解析为notematrix,提取notematrix的pitch列,将其去重后得到主旋律中音调值集合;提取notematrix的onset(Beats)列,得到其差值序列,依据拍号将差值列顺序和等于一个小节节拍总数的组合划分为一组,即得到以小节为单位的节奏组合,将这些节奏组合去重后得到主旋律的小节节奏组合集合。以上得到的音调集合及节奏组合集合作为分形序列的映射对象,基于动态规划计算第一、六列,补充第三、五列形成新的notematrix。
为避免个性化匹配的MIDI音乐中提取的音调差值过大,新notematrix中出现相邻音调突变的情况,以键值对的形式记录音调值集合及原notematrix中其后出现过与之差值最大的音调值。遍历新notematrix,将前后音调差值大于键值对记录的,均以记录为准进行修正。
图2 音调和节奏组合的提取过程
本研究分别从主观和客观两方面评价合成的MPTRS。招募志愿者进行试听,实验后对康复音评分,从主观上衡量康复音的可听性;基于耳鸣模型讨论康复音的治疗效果,从客观上衡量康复音的有效性。此外,还对合成的分形音乐进行了1/f波动分析、分形维度以及旋律分析。
1/f波动反映时间序列中频率与其强度的反比关系,它与人安静愉悦时心跳、脑波等周期性变化节律吻合,可使人感到和谐舒适,音乐作为一种典型的时间艺术,也符合1/f波动特性[23]。1/f波动可由功率谱密度s/f反映,频率f与s(f)的关系表示为式(1),进一步表示为式(2),当β的取值范围为[0.5,1.5]时,则认为该信号符合1/f波动特性。
S(f)∝f-β
(1)
ln(S(f))∝-βln(f)
(2)
图3分别为IFS直接生成序列以及将其做放大、取模后的映射序列谱密度拟合曲线,图4分别为生成分形音乐的音调值序列和时值序列谱密度拟合曲线。对应式(2)的系数β分别为0.9588、0.9572、0.9581和0.9679,说明IFS序列本身符合1/f波动特性,且其变换后所得序列、映射为音调值序列和时值序列后不破坏波动特性。
图3 IFS序列和映射序列的功率谱拟合曲线
在音乐中,如果连续音调的间隔i及其频率F(i)满足式(3),其中c为常数,D为分形维数,那么这样的关系能够称为分形[24]。式(3)进一步可表示为式(4)的对数关系,图5为本研究生成f-Music的i与F(i)的对数关系拟合曲线,由图5可知,i与F(i)的对数基本呈线性关系,满足式(4)。
(3)
logF(i)=c′-Dlogi
(4)
3.3.1旋律轮廓旋律轮廓描述了旋律的整体形状,通常比准确的音程信息更容易认识与记忆,其分辨率以MIDI节拍表示。图6为从f-Music中截取第100~150拍的旋律轮廓,分辨率为0.25,观察该段旋律轮廓可知该段旋律整体不重复,音调在一定范围内变化,且未出现最值间的突变。图7为f-Music的整体旋律轮廓,分辨率为1,可发现f-Music整体旋律呈现前后相似的特点。
图4 音调序列和音符时值序列的功率谱拟合曲线
图5 f-Music的分形维度分析
图6 f-Music部分旋律轮廓
3.3.2相似度对比 文献[9]基于超混沌合成的耳鸣康复音也涉及MIDI文件的个性化匹配,选取不同风格的三首MIDI音乐(Sarabande、天空之城和茉莉花)作为参照,对本研究合成音乐及文献[9]合成音乐与原MIDI音乐的相似度进行计算(0~1),其中涉及音调分布、音程分布、旋律轮廓、音符时值分布的比较。
图7 f-Music的整体旋律轮廓
见表1,相比于文献[9]方法合成音乐,本研究方法合成音乐理论上与原始音乐相似度更高,更贴合受试者偏好。
表1 合成音乐与原始音乐相似度评分
耳鸣治疗是否有效可以直观地以患者的耳鸣感知是否消失或减弱来评判。文献[25]基于LMS算法建立自适应耳鸣模型,该模型根据人体耳蜗中不同部位内听毛细胞和听毛细胞响应不同频率声音的特点,将听觉通路分为若干分路,耳蜗不同受损情况对应患者产生的不同频率自发信号即为耳鸣。实验采用本研究合成MPTRS作为激励输入该耳鸣模型,观察输出自发信号功率是否有相应变化来衡量有效性。
本研究对该耳鸣模型进行了80 s的仿真实验。假设听觉通路中第6、10和16分路受同等程度损伤,三条分路损伤后分别产生中心频率为5 550 Hz、9 550 Hz和15 550 Hz的耳鸣(理论频率),见图8。针对第6分路合成MPTRS,其频谱见图9,两个谱峰分别为wl-NS和fc-NS的频率特性,wl-NS的选取范围限定第一个谱峰位于相对低频段,使其对低频耳鸣具有普适性,且听感更舒适丰富;第二个谱峰可根据所匹配的耳鸣频率调整fc-NS,满足相对高频耳鸣的治疗需求。
图8 无MPTRS刺激时耳鸣模型输出
图9 MPTRS频谱
10 s开始输入康复音,70 s时撤销康复音,图10为输出耳鸣时频图,观察可发现在输入康复音的时段,即10~70 s第6通路的耳鸣输出功率明显下降,第10通路的耳鸣输出功率略有下降,第16通路的耳鸣输出功率基本无变化。实验说明,本研究合成MPTRS能够有效抑制对应频率段耳鸣。
本节试听实验对MPTRS、文献[12]合成康复音和文献[13-14]康复音进行对比分析。在相同原材料下根据三者不同需求分别合成时长为5 min的康复音,分别记为frag_1、frag_2和frag_3。本试听实验在人群中招募37名听力正常的志愿者,志愿者在安静的环境中依次试听frag_1、frag_2和frag_3,全部试听完后,分别对三个康复音片段的四项指标(流畅度、自然度、重复度和突变度)在0~10范围内评分,评分结果见表2。
图10 MPTRS刺激时耳鸣模型输出
评分结果显示,本研究合成康复音frag_1的试听效果在三者中舒缓自然度最佳,重复度最低,突变度介于另两者之间。完整流畅的wl-NS提升了康复音的舒缓度,fc-NS避免了经相同自然声片段变换发展后拼接出现的重复感,同时f-Music也降低了现有音乐反复播放带来的重复感,虽然fc-NS的交替仍有一定的突变度,但自然度也有所提升,并且同时对舒缓度有所改善,能为听者接受。
表2 康复音评分
本研究基于IFS和MIDI技术提出了一种多音轨个性化耳鸣康复音合成方法。本方法对合成康复音的声音元素进行了一定程度的个性化匹配,其中分形音乐在满足相似不重复特性的同时贴合患者偏好;将传统掩蔽疗法中常使用的窄带噪声替换为频率集中自然声,提升了康复音的可听性;叠加了类白噪声自然声,对前两者进行融合,丰富听感。本研究合成康复音主观上试听效果舒缓自然,可满足长时间治疗的需求;客观上满足1/f波动、具有分维特性且输入耳鸣模型有效。因此,本研究方法对耳鸣声治疗有一定参考价值。