邓宗权,邱立欣
(天津市公安局物证鉴定中心,天津 300061)
传统录音机和数码录音笔在信道中的差异
邓宗权,邱立欣
(天津市公安局物证鉴定中心,天津 300061)
语音是重要的法庭证据。随着科学技术的进步,各种各样的语音采集设备出现在人们的日常生活中。从传统的录音机到数字录音笔、手机、MP3,语音采集经历了由模拟信号到数字信号的转换过程。不同的采集设备和方法会造成语音的信道差异。传递语音信号的通道,如:传统录音机和数码录音笔由于各自的频率响应性能不同,对信号施加的影响也不同。传统录音机传递的是连续变化的模拟信号,数码录音笔传递的则是以有限个“1”和“0”的代码组合成为信息的数字信号,两者是现在普遍应用的两种信号模式。研究表明:信号通道对于语音识别,特别是自动语音识别的影响是明显的,但是对于图谱视觉检验的影响、影响的程度如何还尚待进一步的深入研究。
信道;模拟信号;数字信号
引言
视听资料(Audio-Video Materials,AVM)是以数字化形态为特征的、证明案件事实情况的新的证据形式,视听资料包括数字化的语音、图像资料,以及广义的计算机存储资料,在数字化的视听性能方面达到了高度的统一①崔景旭等.《视听资料检验》.警官教育出版社.2004,第1页。。视听资料作为一种独立的诉讼证据,分别在1898年、1991年、1997年被列入中华人民共和国行政诉讼法、民事诉讼法和刑事诉讼法②崔景旭等.《视听资料检验》.警官教育出版社.2004,第3页。。20世纪80年代中后期以后,录音录像设备的使用在社会各界逐渐普及,使得录音、影像资料在各类案件中出现的频率越来越高。随着计算机技术、网络技术和IT产业的发展,视听资料取得了巨大的发展。视听资料以其客观、公正、真实和信息丰富,再现能力强等独特的特点在公安司法中的作用越来越明显。
语音、声音资料是将言语声波、非言语声波以物理方法记录下来而形成的。语音作为言语信号的物质载体,既有社会性又有话者个体特征。它的社会意义可以反映说话人要表达的意志,而语音的个体特征可以表明话者的身份。通过对话者言语语音的采集进行视觉检验,从而可以进行身份、性别、年龄等的认定。语音信号处理中,由于检材和样本的条件差异,会对语音检验在基频、音长、共振峰、强度等参数有很大的影响。检材和样本的条件差异太大会直接影响鉴定结果的准确性。鉴于此,本文对信号通道对于语音识别,特别是自动语音识别的影响、影响的程度如何进行系统的研究。
传统录音机主要是由机器的内置话筒、录放磁头、录音磁带、扬声器、放大电路、传动机构等部分组成。录音磁带表面涂有磁粉,录音机内磁头在录音时,磁头内的线圈因通过的录音电流而产生的磁场,磁化了传动中的磁带,在磁带中留下了磁记录信号。而在放音时,磁带中的磁记录信号,在放音磁头的线圈上转为电流信号而推动后面的喇叭发声。软盘上有一个镀有磁化材料的圆片状塑料薄片,在软驱中的磁头从转动的薄片上读取或写入的是数字信号,磁头对软盘进行两个数字命令;磁化和否磁化,以完成连续的数字信号读取③公安部人事训练局《公安信息通信技术教程》第367页。。录音机录制声音时,声音通过话筒而产生随声音变化的感应电流(音频电流),声音通过放大电路的放大以后,进入录音磁头的线圈中,随即在磁头缝隙处产生随着音频电流变化的磁场,录音磁带紧贴着磁头缝隙不断的移动,致使磁带上的磁粉层被磁化,因此磁带上就记录下了声音的磁信号。录音机放出声音时是录音的逆过程,磁带不断紧贴着放音磁头的缝隙通过,磁带上变化磁场使磁头线圈中产生感应电流,因为感应电流的变化线与磁信号相同,所以线圈中产生的就是音频电流,在这个音频电流经过放大电路放大后,通过扬声器就将音频电流还原成声音。
数码录音笔是通过对模拟信号的采样、编码之后通过数模转换器将模拟信号转换为数字信号的,后又进行一定的压缩进行存储。所以数字信号即便经过多次复制,声音信息也不会受到任何损失,将保持不变。
数码录音笔的特点:1.体积小巧、重量轻便
数码录音笔是以存储器为主题,加上闪存和超大规模的集成电路的内核系统所组成的,因此整个产品重量轻便、体积小巧。
2.连续录音的时间长
传统录音机使用的每一盒录音磁带的录音时间长度是40~60分钟,最长的也就是90分钟。而目前存储容量最小的数码录音笔的连续录音时间长度都在5~8小时,更高端的产品达到几十个小时的连续录音能力也是很常见的。
3.使用寿命长
传统录音机的内部采用的是机械结构,使用时间长乐就会发生磨损的情况,因此寿命有限。一盒普通的磁带,反复的录、擦几十次基本上就是报废了,而且磁头和传动装置时间长了也会发生一定的磨损。而数码录音笔所采用的是电子结构,因此可以做到无磨损,使用的寿命也会比较长。
为了更好的了解传统录音机和数码录音笔的区别,我们根据以上内容进行了归纳总结,详见表1.3。
表1.3录音机与录音笔的区别情况
模拟数据也称为模拟量,相对于数字量而言,指的是取值范围是连续的变量或者在某个区间产生的连续值.例如,声音、图像、温度、压力。数字数据也称为数字量,相对于模拟量而言,指的是取值范围是离散的变量或者数值.例如:计算机中使用二进制代码来表示的字符、音频、图形与视频数据。
模拟信号指幅度的取值是连续的(幅值可由无限个数值表示)。时间上离散的模拟信号是一种抽样信号,它是对模拟信号每隔时间T抽样一次所得到的信号,虽然其波形在时间上是不连续的,但其幅度取值是连续的,所以仍是模拟信号,称之为脉冲幅度调制(PAM,简称脉幅调制)信号。平时我们听到的声音、看到的电视图像都是模拟信号。数字信号采用断续变化的电压或光脉冲来表示,通信双方则需要用电缆、双绞线或光纤介质将连接起来,这样才能将信号从一个节点传到另一个节点。
模拟信号和数字信号之间是可以相互转换的,模拟信号中的不同幅度分别对应数字信号中不同的二进制值,实用中常采取24位或30位编码;数字信号则通过采用载波进行移相的方法,将其转换为模拟信号。
信号是信息的载体,所以模拟信号和数字信号本质上是相同的。不同点在于存贮,传输及其它处理的方式。模拟信号和数字信号有着很大的区别。模拟信号是用连续变化的数值来表示要说明的信息;数字信号是用有限个“1”和“0”的代码来表示信息中某一个字符,当很多字符组合起来时,才能表达完整的信息。
1.传统录音机的信号转化
如果从发射信号到接收信号都是模拟信号的话,那么这个通信系统就是一个模拟通信系统。
2.数码录音笔的信号转化
如果将传送的信号转变为数字信号,经过通信线路的传输,并且接收端所接收到的信号是数字信号的话,那么这个通信系统就是一个数字通信系统。
1.由于将信号进行了数字化处理,所以就有可能对声音、静止图像及其他各种数据进行一些处理。
2.由于不容易受通信线路的噪声和失真的影响,所以可以实现误码率低、可靠性高的通信。
3.为通信信号的复用提供了便利,可以提高效率。
4.由于可以利用数字信号处理器等各种数字技术成果,所以可构成具有柔软性的系统。
5.通过对数字信号进行各种处理,使通信具有保密性。
传递语音信号的通道,如传统录音机和数码录音笔等,由于各自的频率响应性能不同,对信号施加的影响也就不同。而案件语音的样本和检材往往来自不同的信号通道,例如样本和检材分别用传统录音机和数码录音笔来采制和录制。检材和样本来自不同信号通道是造成鉴别困难的主要原因。为了提高司法语音鉴定的精度和可信度,对于信号通道对话者语音的改变以及这种变化对识别的影响等问题,应该进行系统的实验研究。
1.发音人
共5名,男性,是中国刑警学院大学四年级的学生,普通话很好,无明显言语障碍,发音清晰。
2.语料
选取有代表性的五个单元音作为发音语料。具体如下:
i、a、u、e、ü、
3.录音方法
以话者正常发音为基准,研究传统录音机和数字录音笔两种信道语音的差异。首先选择一个相对安静无杂音的地方为录音地点。让每个话者在熟悉语料的基础上按照语料正常发音,同时使用传统录音机和数码录音笔同时录音。
对所录制的语音输入计算机,然后利用Praat语音分析软件作出宽带图谱进行形态分析和数值比较。在视觉和听觉检验的基础上,分别测出每个话者各个音节的基频平均值、基频最大值、强度平均值、强度最大值、音长和前四个共振峰的频率值,然后利用SPSS统计分析软件进行统计处理。
首先提取了两种信道下10个音节的基频均值、基频最大值和基频最小值。由于篇幅所限,我们仅列出其中一个话者5个单元音的基频数据,详见表4.1.1,
表4.1.1录音机和录音笔两种信道语音的基频(Hz)
统计数据表明:两种信道语音的基频值大体相当,基频最大值和最小值上的差异要比均值大一些。但是,总的说来,两种信道语音的基频差异不大。为了深入比较二者的差异,我们利用SPSS软件对两种信道20个音节的语音基频均值、基频最大值和基频最小值进行了单因素方差分析(ANOVA)。
统计结果表明:两种信道语音,无论是基频均值、最大值还是最小值,它们的检验概率P值都远远大于检验水准0.05。因此,两种信道下语音的基频差异不显著,即信道改变不会引起语音基频的显著改变。图4.1举例说明了两种不同信道的i、u的基频曲线形态的细微差异。其中,实线代表录音机信道,虚线代表录音笔信道。
图4.1在录音机和录音笔信道下的基频图谱
对两种信道10个音节强度的平均值和强度最大值我们也进行了统计测量,其中5个单元音音节的数据详见表4.2.1。
表4.2.1录音机和录音笔两种信道语音的强度(dB)
表4.2.1中的数据表明:在强度均值和强度最大值方面,各个音节上两种信道的差异都最大,强度差均在20dB。由此可见,信道的不同造成了强度的很大差异。进一步的单因素方差分析表明:都远远小于检验水平0.05。因此,两种信道语音的强度差异是非常显著的。
见图4.2.2举例说明两种不同信道下元音i和a的强度曲线差异。其中,实线为录音机信道,虚线为录音笔信道。
图4.2.2在录音机和录音笔信道下的强度图谱
为了深入研究两种信道语音强度之间的关系和变化规律,我们对所有发音人的20个音节的强度均值和最大值进行相关分析。相关分析的结果表明,两种信道语音的强度均值的相关系数为0.44,强度最大值的相关系数为0.05。显著性检验表明前者呈显著相关。因此,进一步的回归分析得到了两种不同信道语音一元线性回归模型为:Y=0.06X+87.37。其中,X代表录音笔的强度平均值,Y代表录音机的强度平均值。利用这个回归公式,可以实现两种信道下语音强度的互推。
对两种信道10个音节的音长进行了统计测量,其中5个单元音音节的数据结果见表4.3.1。
表4.3.1录音机和录音笔两种信道语音音长(ms)
从表4.3.1可以看到:两种信道下的相同语音音节的音长有一定的差异。方差分析(ANOVA)的结果(见表4.3.2)表明,显著概率P值为.001,确实差异显著。按照我们的预测,由于语音的采集过程中采用的是录音机和录音笔同步录音,音长不应该出现差异。究其原因,可能使由于在实际的操作中对音节划分时有较大误差。
对语音图谱仔细观察的基础上,我们测量了所有发音人全部语音音节的前四个共振峰的频率值。表4.4.1仅列出了其中5个单元音两种信道下的共振峰频率值。
表4.4.1录音机和录音笔两种信道5个单元音的共振峰(Hz)
比较两种信道下各个音节的共振峰的频率数据发现:在两种信道下每个元音的相应共振峰的数值都非常接近,没有明显的差别。单因素方差分析的结果也表明了这一点(详见表4.4.1)。
方差分析的结果表明:四个共振峰的显著概率P值都远远大于检验水准0.05。因此,两种信道下语音的四个共振峰的差异均不显著,即信道改变不会引起语音共振峰的显著改变。由此可以得出这样的结论:尽管信道不同会对语音的部分声学参数有影响,但是总的说来,这种影响不足以引起语音话者鉴别的基本参数,如共振峰频率的明显改变以及由此导致的语音鉴定结论的错误。从这个意义上讲,在实际语音案件检验鉴定中,当检材和样本取自不同信道时,除了对强度及与强度相关参数(如:功率谱)给予注意以外,对于其它参数的检验采用常规方法即可。以下以元音i和u举例说明共振峰的图谱,如图4.4.2和图4.4.3。
图4.4.2元音i在录音机(左)和录音笔(右)信道下的共振峰图谱
图4.4.3元音u在录音机(左)和录音笔(右)信道下的共振峰图谱
结论
通过对传统录音机和数字录音笔两种不同信道的语音的比较研究和统计分析认为:两种信道下语音的基频差异不显著,信道不同没有引起语音基频的显著改变。信道改变时,语音的强度有很大变化,两种信道下语音的强度差异显著。因此,在比较和检验来自不同信道的语音时,对于信道不同导致的强度改变要给予充分的注意,使用强度参数对比时要慎重。信道的改变一般不会引起音长的显著变化。我们的差异显著结果是由于音节切分时的误差所致。两种信道下语音的共振峰差异不显著,由此决定了不同信道语音是不存在本质差异的。
综上所述,尽管信道不同会对语音的部分声学参数有影响,但是总的说来,这种影响不足以引起语音话者鉴别的基本参数,如共振峰频率的明显改变以及由此导致的语音鉴定结论的错误。从这个意义上讲,在实际语音案件检验鉴定中,当检材和样本取自不同信道时,对于话者识别来说不会有本质的影响。当然,对于语音强度及与强度相关的声学参数(如:功率谱)要给予特殊的注意。
[1]高政.信号处理与系统分析[M].北京:中国水利水电出版社,2005.
[2]崔景旭等.视听资料检验[M].北京:警官教育出版社,2004.
[3]公安部人事训练局,公安部信息通信局.公安信息通信技术教程(上册)[M].北京:中国人民公安大学出版社,2001.
[4]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.
[5]姚天任.数字语音处理[M].武汉:华中理工大学出版社,1992.
Key works:voice channel;analogical signals;digital signals
The Differences in Transmission Channels of Traditional Tape Recorders and Digital Recorders
DENG Zong-quan QIU Li-xin
(The Material Evidence Identifying Center of Tianjin Public Security Bureau,Tianjing,300061)
Voice is one of the most important court evidences.With the development of science and technology,various voice recording equipments appear in people's daily life.From the traditional tape recorders to the digital recorders,mobile phones and MP3,the voice gathering has experienced the development from the analogical signals to digital signals.The different recording equipments and methods will result in.The transmission channels,such as traditional tape recorders and digital recorders,have different effects on voice signals due to different functions of response performances.The traditional tape recorder transmits simulate signals which change continuously while the digital recorder transmits the digital signal from the limited code combination of"1"and"0".Both of them are common models of signaling at present.Previous studies indicate that the effect of signal channel on speech recognition is obvious,especially on automatic speaker recognition.But there is few further study on its effects on visual examination of speech spectrum.
D918.2
A
2095-1140(2011)06-0120-05
2011-07-15
邓宗权(1983- ),男,天津市公安局物证鉴定中心助理工程师,主要从事数字化模糊图像处理和音频处理工作;邱立欣(1982-),男,天津市公安局物证鉴定中心,助理工程师,主要从事数字化模糊图像处理和音频处理。
左小绚)