基于哼唱的音乐检索系统的探究

2014-02-20 03:41

电子测试 2014年17期

（陕西职业技术学院艺术系，710100）

基于哼唱的音乐检索系统的探究

路昕

（陕西职业技术学院艺术系，710100）

随着当前信息网络技术的不断快速发展，人们与音乐正面对接的方式早已从最初的磁带、唱片转变成了信息网络，网络也逐渐变为人们体验音乐最为重要的接收途径。但是，同样伴随着娱乐产业的迅猛发展，其纯粹的音乐数据也呈现爆炸式发展的趋向，可谓浩如烟海。怎样实现准确，快速的搜索到自身所需要找寻的音乐，逐渐成为了网络搜索技术探索的重点课题。

哼唱音乐；音乐检索；音乐理论

现阶段人们所现实应用的音乐搜索办法是十分有限的，而以信息网络为主流形式的音乐检索方式，依然为按照文本注识来完成的，譬如人们使用最广泛的谷歌mp3检索皆是依靠人工注识，人们输至与之对应的搜索关键字，检索系统再通过文本模式对音乐展开检索。这种以文本模式为基准的检索方式自开辟以来便沿用至今，目前依然占据主导地位，但这种的检索模式也存在着诸多制约性。

1 音频概述研究

无论是音乐还是日常的声音，皆是依靠物体不断发生振动所形成的，然而，我们所能听到声音也只是物体振动的“选择性”声音。而振动频率便是指物体每秒钟所产生振动的次数，单位为赫兹（HZ）。振动频率如果愈大，以物理学视角而言，声音的内涵是伴着时间的持续性改变的波形信息。但是当前计算机只可以解决数字信号，故而必须把声音信号实行离散处理，形成为数字信号后，才可以完成输入并且贮存至计算机例。当我们把声音贮存至计算机中，该应当考衡要考虑几个方面的参数：第一，信号采样频率（sample rate），其中涵括8kHz、16kHz、CD音质；第二，采样解析度（Bit Resolution），其中涵括8-bit、16-bit。

由于声音是通过振动形成且通过机械波方式完成推出，故而人们常规意义上探究声音时，也应当记录下声音信号波形，由于时间长短皆不尽相同，导致其表现特征也存有显著的不同。如图1所示，声音维续长时间时，其声音信号波形不会出现显著的周期特点；声音维续时间较短时，其声音信号波形拥有显著的周期规律特点。

图1 声音在较长与较短状态下的信号波形对比

2 音频处理与哼唱旋律特征提取

2.1去噪处理

音量和过零率 (zero-crossing rate)是人们用来分别正常声音和噪音最为重要两个标准。通过这两个标准的甄别，能够有许多消除噪音的方式。其中，过零率的重点功能，是用来辨识“气音”，这也在识别过程中扮演纲领性作用。但对音乐旋律特征识别而言，利用过零率来进行对噪音的清除去意义不大。主要是因为气音并不存在音高部分，为了降低计算工作加强效率，可以直接通过音量展开边界观察与第一阶段的去噪处理。利用音量方式去噪最重要的环节，便是明确音阈的大小，而音阈的判定常规中主要有几种方式：第一，音量极限值10%：这个方法在声音处于大小不均衡之时容易导致错误；第二，音量最小值五倍：该办法在声音处于杂音状态很强时，很容易导致错误；第三，第一帧音量值四倍：这个方法假设初期是静音。倘若初始阶段，并非静音或录音设备在初始状况下便出现偏移，很容易导致错误。上述三种办法在明确音阈方面，各有所长，也各有所短。如果适当的扬长避短，则能找出更多确定阈值的方法，例如，得知音量极限最大值得和最小值完成加权平均法，确定音阈值。如图2所示，经哼唱检索，第一种方法能够达到最佳效果。

图2 音阈值确定方式对比

2.2哼唱旋律提取

和谐泛音中哼唱主旋律提取处理过程主要涵盖了预处理模块、基频提取模块以及音符分割模块。预处理模块涵盖了精化整流以及低通滤波(Low-pass filter)等三个步骤，经过这三个阶段的过滤，最终保证信号的质量与降噪效应。音频信号通过初始的预处理模块后就渗透到了中心地位的基频提取模块，该模块涵盖了泛音特点的判定与引导主基频判定这方面的的基本功能。音符分割模块主要通过两个环节的音符切分，第一环节依靠能量突出指标把音段范围与无音段范围进行分开；第二环节再依靠音高的区域改变进行对各音符的切分。

乐器演奏旋律提取法拥有较大的受制约性，关键在于其处理对象只可以是单声部乐曲旋律，但是对于专业性质的资料库贮存的音乐资料展开演奏旋律提取时，并未展示出十分优质的效果。其因素主要有两个方面，一方面，是演奏者（演唱者）其表现技艺难免存在一定客观因素的差异，这也就为演奏旋律的提取工作设置了一定程度的阻碍；另一方面，许多声部音频音乐，因为其复杂标准皆是单声演奏不能够与之相比拟，故而，对其展开演奏音乐旋律提取工作仍然存在很大难度。

固定伴奏复调哼唱旋律提取相对于乐器演奏旋律提取以及和谐泛音主旋律音乐提取表现的最为优秀，其主要特征是可以在更为繁杂的音轨中摄取到人声所演唱的旋律。而相对而言，在常规意义下，人声的演唱部分都属于乐曲当中的主旋律。在固定伴奏复调哼唱旋律提取算法中，能够选择性的根据演唱者声音展开提取，其常规流程图如表3.

图3 固定伴奏复调哼唱旋律提取基本流程图

该提取系统通过根据声音在伴奏阶段时间不稳定的特征，并基于这个特征，来一一甄别乐器伴奏声音与演唱者的声音。最终，明确旋律音高。

3 MIDI旋律提取

MIDI是乐器的数字化接口的缩写，属于标准协议，其功能主要用于电子乐器、音乐合成器以及计算机三者间相互对换的一种音乐符号，其并不发射声音信号，而在声音通道中上传、输送各式的信息，再通过消息接收的设执行动作。常规意义上的音乐通过有十六个能够使用的音乐通道，而所有的通道皆具备不同种类的音色。通常情况下，打击乐声放置于十号音乐通道，其余十五个通道音色，可以直接默认系统原先设置的，也可以由个人完成自定义。绝大部分，音乐制作一方，皆会把主旋律独立的贮存自独立专属的通道中，但具体存放于哪一个通道，需要通过制作者在创作音乐之时，根据自身的实际情况所决定。故而也存在极大的不确定性。

4 DTW算法的应用

哼唱旋律特征实现提取工作之后，能够展现为音高向量的方式。如果需要阶段性哼唱旋律的雷同性问题，就变化为求n维空间里向量与向量之间的距离关系。常规条件下，向量之间空间距离一旦愈小，那么就能够肯定其所需要完成匹配的旋律，在雷同度上就愈高。一般条件下，两个空间向量 x、y ，其间距能够被判定成两者之间所涵盖的直线距离的几何平均数。这便是欧几里得距离（Euclidean Distance）。

5 系统设计与测试

如图4所示，经上述研究，哼唱音乐检索系统功能已能够得到确定。在实现了对旋律特征提取的同时，基于MIDI旋律架构建造了音乐特征库，为旋律之间的互相匹配做好了最后的铺垫工作。

6 结束语

音乐属于通过艺术雕琢，蕴育着人类所寄托的情感，听之能够让人发生情感共鸣或是陈述出神圣意味的声音。音乐的本质原则与要素有两点，即节奏与旋律，主要可以分之为声乐和器乐两大种。往往一个音符变幻与重叠，就能够形成各种不一样的情感认识，也许是在节奏，也许是在旋律上。而音符的这些变化，也和人们在那时的律动，情感状态也存在着一定的联系。音乐理论是让人们体验音乐最为关键与重要的理论基础，音乐理论的范围区域涉及面十分广泛，涵括了音乐感知与音乐创作各个要素。

[1] 罗如海.用改进人工蜂群算法优化基于内容的哼唱音乐检索系统[D].哈尔滨工业大学.2010.

[2] 周义洪.面向Web的基于哼唱方式的歌曲检索方法与系统实现[D].中南大学.2013.

[3] 孙洁.基于哼唱的MIDI音乐检索系统的研究[D].西安建筑科技大学.2013.

[4] 王海涛,赵艳琼,韩家鑫等.Building an Information Retrieval System:Global Indexing or Local Indexing[J].Software Engineering and Applications, 2013,Vol.02 (01)：6-14.

Study of humming music retrieval system based on

Lu Xin
(Shanxi Vocational &Technical College，710100)

With the rapid development of the information network technology,people and music positive butt way already from the original tape,disc into information network,the network has gradually become an important way of people experience received for music.But,as with the rapid development of the entertainment industry,the trend of its pure music data also show explosive growth,is the multitude.How to realize the accurate,fast search to the need to find music,gradually became the focus of research to explore the network search technology.

humming music retrieval;music theory

图4 哼唱音乐检索系统整体结构