音频信息资源数字化生产质量影响因素分析

2012-10-13 06:22
河南图书馆学刊 2012年2期
关键词:声道位数比特

王 淼

(南阳市图书馆,河南 南阳 473000)

音频信息资源数字化最常见的方式是脉冲编码调制(PCM,Pulse Code Modulation)。其基本原理是:首先,通过播放设备将模拟音频转换成一连串电压变化的信号;其次,沿横坐标轴将信号进行等时距分割,这个分割时距就是采样频率;再次,把分割线与信号图形交叉处的坐标位置记录下来,得到每交叉点坐标,其中用于表示纵坐标数字的二进制的位数就是采样位数,由于已经知道时间间隔,可以去除横坐标,得到纵坐标的一个数字序列,这一序列数字就是将以上模拟信号进行数字化生产的结果。影响这种模拟信号数字化生产质量因素如下。

1 采样频率

采样是指用每隔一定时间间隔的信号样本值序列代替原来在时间上连续的信号,即在时间上将模拟信号离散化。每秒的采样次数称为采样频率,以千赫兹(即,每秒几千个样本)来描述。根据奈奎斯特(Nyquist)采样定理,只要采样频率大于或等于被采样信号的最高频率的两倍,借助一定设备,就可以从样值序列信号中无失真地恢复出原始模拟音频信号。因此,一个数字音频样本所能记载的最高模拟频率值应是其采样频率的一半,如:采样频率为44.1kHz的音频光盘介质只能记录最高频率为22.05kHz的模拟声音。这意味着当声波经过某一点时,每秒就有44,100个离散的振幅测量值对其进行表示。

人耳可以听到的声音是频率在20~20kHz之间的声波,根据奈奎斯特采样定理,理论上只要用40kHz以上的采样频率就可以完整记录20kHz以下的信号。那么,为什么CD唱盘的规格是44.1kHz(而不是40kHz)呢?因为在CD发明前,硬盘价格昂贵,存储数字音频信号的主要媒体是录像带,用“黑”与“白”来记录0与1。而当时的录像带格式为每秒30张,而一张图又可以分为490条线,每一条线又可以储存三个取样信号,因此每秒有30×490×3=44,100个取样点,为了研发方便,CD唱盘也继承了这个规格。实际上,无论使用多么高的采样频率,记录的数字与实际的信号之间总会有误差,这种误差称为数字转换失真,或称为量化失真。

目前采样频率主要有96kHz和44.1kHz两种规范。其中,档案保存标准采样频率为96kHz。如果没有资源(计算机处理能力、人员、时间及数字存储空间等)上的限制,一般以采样频率为96kHz来进行音频资源数字化生产,并以该频率来保存数字主文档。对于那些数字化生产资源不充足的项目,采样频率的选择应基于对模拟音频类型和质量的分析。

对于某些原始音频资源来说,采用比44.1kHz更高的采样频率并不能更有效地表达出更多的信息,如乙烯录音带或模拟盒式录音带,因为这些资源不能记录频率高于22.05kHz的声音。

从声源角度,模拟音频主要有三种类型:

(1)人类发音。所有人类发音的频率都在20-50kHz之间,所以这类音频信息资源数字化时的采样频率应该是44.1kHz。

(2)场景录音。一般是指在一个特定场景下对人类发音进行的录音。所以,数字化时采样频率也是44.1kHz。但是,如果场景录音包括了音乐,或来自自然界的其他声音(如昆虫声音,鸟叫的声音等),数字化时的采样频率应该考虑96kHz。

(3)音乐录音。是指乐器产生的宽范围频率的录音。对这些录音数字化时,虽然大多数可以以44.1kHz频率进行采样,但有些超过了这个采样频率的范围,所以,一般都采用96kHz,这样也有助于数字音频的编辑。

2 采样位数

采样位数是指表示振幅测量值的二进制码的位数,其单位是比特(bit)。比如,8比特位数的取值范围是0~255,16比特位数的取值范围为0~65,535,而24比特位数的取值范围0~16,777,215。由于人耳对于音量较为敏感,所以,以较高采样位数进行采样的音频会听起来“更平滑”,更能真实地再现原始模拟音频。

一般来说,人耳仅可以辨别出15比特及17比特的音频样本差别。有些听音者,尤其是受过专门训练的音频工程师,可以辨别出同一音频资源的24比特录音和16比特录音之间的差异,但一般人很难辨别出它们的差别。

录音设备不大可能也没必要丝毫不差地将某一音频资源再现出来。以24比特进行高数据位数的采样,可以明显地消除因设备配置带来的缺陷,并可为计算机音频编辑系统附加的音频处理提供更多的提升空间。

此外,数字转换时采用的采样频率和采样位数与原始音频资源息息相关,不仅仅局限于人耳所能听到的音域。许多声音所表现的频率范围要远远高出22.05kHz,24比特的采样位数比16比特的采样位数更能清晰地记录更多的语音信息。还有,技术飞速发展使得数字音频的未来应用存在着诸多变化。因此,在进行音频信息资源数字化时,最佳采样位数的选择受制于众多因素。笔者列出了目前数字化项目采用不同的采样频率和采样位数的优缺点(见表1)。

表1 不同采样频率和采样位数的优缺点分析

3 声道个数

记录数字音频时,如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为双声道(立体声)。另外,还有四声道、5.1声道等。声道数量越多,听觉感受越好,但音频文件存储所占空间越大。目前为止,有下述几种主要类型的声道。

(1)单声道。单声道是比较原始的声音转换形式,在音频信息资源数字化初期应用比较广泛,但现在已很少使用。单声道音频播放时缺乏声音的位置定位。

(2)双声道(立体声)。双声道技术是指声音在录制过程中被分配到两个独立的声道,从而达到较好的声音定位效果,克服了单声道的缺点。该技术可以使听众清晰地分辨出各种声音的方向,使音乐更富想象力,更接近于临场感受。时至今日,这种技术应用还比较广泛,并且仍然有不少产品遵循该标准。

(3)准双声道(准立体声)。准双声道是指在录制声音时采用单声道,但在放音时,有时采用立体声,有时采用单声道。这种技术曾经使用一时,但现在已基本不再使用。

(4)四声道。技术的发展,出现了三维音效,四声道也应运而生。三维音效是指一个虚拟的声音环境,通过特殊技术营造一个趋于真实的声场,从而获得更好的听觉效果和声场定位。

四声道有4个发音点:前左、前右,后左、后右,听众则被包围在中间,有时还增加一个低音(有人称为4.1声道),以加强对低频信号的回放处理。四声道技术为听众带来了来自多个不同方向的声音环绕,获得各种不同环境的听觉感受。如今,四声道技术已经融入到不少产品的设计中,可能成为未来发展的主流趋势。

(5)5.1声道。5.1声道已广泛运用于各类影院中,一些比较知名的声音录制压缩格式(如,杜比AC-3、DTS等)都是以5.1声道为技术蓝本。5.1声道来源于4.1声道,只是增加了一个中置单元。该单元负责传送低于80Hz的声音信号。

声道技术发展很快,目前已出现了7.1声道系统,该声道是在5.1声道基础上增加了中左和中右两个发音点。

4 文件格式

模拟音频信息资源数字转换后以文件的形式存储、播放和传播。目前,数字音频文件的格式有很多种,不同格式所采用的编码不同,采样频率、采样位数和声道个数不一样,压缩算法、压缩比例以及压缩效果也存在一定差别。所以,数字音频文件的保存格式也是影响模拟音频数字转换质量的因素之一。

目前,音频信息资源数字化生产中常用的文件格式 有:WAV、CD、MP3、MP3PRO、WMA、MP4、SACD、QuickTime、VQF、DVD Audio、MD、RealAudio、Audible、AIFF、MAC、S48、AAC 等。

除了上述四个因素外,模拟音频信息资源数字化生产的质量还受其他一些因素的影响,如:扬声器质量、计算机声卡A/D与 D/A(模/数、数/模)转换芯片质量及各个设备连接线屏蔽效果等。

[1]林俊桂.音频数字化简单原理[EB/OL].[2011-02-10].http://www.nhlcgz.com/blog/u/21/archives/2007/80.html

[2]CDP.Digital Audio Best Practices Version 2.0[EB/OL].[2010-11-15].www.cdpheritage.org/digital/audio/documents/cdpdabp_1-2.pdf

猜你喜欢
声道位数比特
9.7.8声道、造价250余万 James极品影院赏析
五次完全幂的少位数三进制展开
为发烧需求打造的11声道后级 Orisun(傲力声)OA-S11
实现从7.2到11.2声道的飞跃 Onkyo(安桥)TX-RZ830
比特币还能投资吗
比特币分裂
比特币一年涨135%重回5530元
考虑覆盖率下时差式超声流量计的平面声道模型*
遥感卫星CCD相机量化位数的选择
“判断整数的位数”的算法分析