浅析iZotope RX在影视对白修复中的作用

2021-03-04 02:44:26

现代电影技术 2021年2期

(中影电影数字制作基地有限公司,北京 101400)

1 不断升级的iZotope RX

随着iZotope RX 的版本不断升级,针对音频修复方面的功能更加全面。尤其是2019 年底问世的Dialogue Match和2020年推出的最新版本RX 8都解决了很多以前不可能解决的音频修复问题,它开始影响着传统的制作工艺。

iZotope RX 分为独立运行模式和插入 (Plugin)运行模式(作为插件使用),在独立运行模式下功能是最全的,可以同时开启多个处理模块对同一音频进行修复,如图1所示。iZotope RX 最大的特点是将声音可视化,声音通过光谱的形式展示出来,可以精准地对任何一个频段进行处理,经验丰富的声音剪辑仅从光谱显示上就能直观地看出哪些位置的声音是需要处理的。其次,iZotope RX 是迄今为止集所有修复功能于一身的专业级修复软件,它几乎涵盖所有在对白剪辑阶段需要用到的功能。无论算法还是处理的精细程度相比过去很多插件,修复效果更好,对源文件的损伤也更小。

文章主要对影视后期制作中常用的人声修复处理的相关功能进行简述,体现iZotope RX 使用的便捷性以及处理结果的满意度。

图1 iZotope RX 的修复界面

2 强大的修复功能

2.1 Ambience Match (环境声匹配)

影视剧对白制作经常会用到这一功能,比如某场戏的同期声由于年代穿帮或质量等原因无法使用,需要后期配音,这样就会遇到同期声和ADR 交叉使用的情况,Ambience Match就是解决这两部分环境声衔接的问题。

过去为了给ADR 补上相同的环境声,最普遍的做法就是在同一场甚至是同一镜头的同期声素材中找到干净的环境声区域,抠出一些短小的环境声素材,拼接出一条可用的长度。这种做法一是费时间,二是如果台词节奏紧凑且拍摄条数不够多的话,很难拼接出一条长度合适且干净的环境声。

Ambience Match很好地解决了这些问题,通过选取一段干净的同期环境声作为采样参照,操作界面里点Learn功能键,软件会自动分析所选区域环境声的特性并模仿复制出基本相同的声音,我们根据需要选择要粘贴的区域并点击Process直接处理,按照以上操作就可以把整段对白中环境缺失的部分补充完整。如果不想把新生成的环境声和对白混合处理成一条声音文件,也可以选择Output Ambience Only选项,单独生成环境声根据需要剪切使用。

2.2 De-Clip (修复失真/削波)

很多声音听感上已经失真的时候,往往波形也都处于削波状态。De-Clip 就是专门修复这类问题。

修复界面打开右侧Quality 的选项,通常默认都是高质量(High)模式。界面左边是 Threshold (门限),是指声音从什么位置开始削波的。这个门限的使用有两种方式,一是在Threshold下方有一个Suggest选项,将失真的区域选好,点击Suggest系统自动计算并处理之后,波形即可恢复正常。另一种是手动处理削波,可以拉动门限的滑块来选择波峰或波谷要处理的范围区域,处理完的声音还可以进行增益补偿 (Makeup gain),避免削波处理后的声音衰减过多。还有一个后限制器 (Post-limiter)选项,通常默认是勾选的,防止处理完再次削波,如图2所示。

图2 De-Clip修复窗口

2.3 De-Crackle(修复严重的噼啪声/爆音)

De-Click主要针对比较细小的噼啪声,而De-Crackle是针对更加复杂粗糙的噼啪声。在处理结果上这些声音只能被尽量弱化,完全去除的可能性较小。

通过Quality (质量)、Strength (处理强度)和Amplitude skew (偏移程度)几个参数进行调整。偏移程度主要是选择这个噼啪声是偏高频多一些还是低频多一些,通过滑块左右滑动进行微调。

2.4 De-Ess(去除嘶声/齿音)

人声中齿音过多不但影响美感且容易造成听觉疲劳,所以在混音之前都需要将人声中这些明显的齿音弱化处理。

处理算法有Classic和Spectral两种。Classic是探测到齿音就会全频段整体往下降,其他声音也会同时被衰减;Spectral的方式是通过分析探测到齿音的时候,只降低齿音部分的频段,其他频段不处理。可以调整Threshold (门限)和Cutoff freq(频率切除)等参数进一步处理。

2.5 De-Hum (去除电流声)

录音中有时因为内部线路或设备等问题会听到一个恒定的电流底噪。De-Hum 就可以有效地去除这种交流电“哼”声。

图3 De-Hum 修复窗口

声音导入之后,从光谱中就能看到一条直线波形一直稳定存在,这就是我们说的Hum (哼声)的声音。首先在预设里有50 Hz和60Hz两类不同标准,在欧洲、中国等国家使用的电压都是50 Hz,而美国的电压是60Hz。所以在处理声音文件的时候也要先选准声音源的基频,否则是不起作用的,如果不清楚可以使用Suggest进行自动分析并处理,如图3所示。

2.6 De-Plosive(修复喷话筒)

通过Sensitivity (敏感度)、Strength (强度)和Frequency limit(频率限制)几个参数进行调整。敏感度数值越高,侦测声音就越精细;强度越高去除得越多,但同时可能会对原音频造成一定程度的损伤;频率限制具体来说就是如果调到200Hz,那么低于这个数值的频率就会被降低,人声喷话筒基本都出现在低频区域,一般来讲200 Hz以下就足够了,如果参数设置太高容易修复过度,造成音频损伤,修复痕迹明显。也可以在Compare模式下对比四种预设,选择效果最接近的再进一步微调,达到理想的效果。

2.7 De-Reverb (去除混响)

无论是影视对白、语言类节目,或者人物采访都会涉及到房间混响过大进而影响语言清晰度的问题。以前遇到类似情况很难彻底解决,最多是通过一些简单的插件处理,或是将混响长度人为的剪短并尽量处理得自然一些,而这一功能为我们解决了这一棘手的问题。

图4 De-Reverb修复界面

De-Reverb在使用时通过选择一段五秒以内的素材进行采样(Learn),采样素材最好是选择既有人声(干信号)部分又有比较完整的残响 (残响尽量完整,尽量没有被后面新的信号所掩蔽),这样才能最好地识别出混响的声音信号。通过采样自动识别出采样曲线,灰色曲线 (Input)是原始输入进来的信号,白色曲线 (Output)是自动处理后输出的波形,同时下面黄色的线 (Boost/reduction)可以看出哪些地方是通过多段压缩器进行过补偿或者衰减,如图4所示。通过Reduction (衰减量的多少)和旁边的多段压缩器再进行更进一步的调整。不得不说De-Reverb的处理结果还是相当令人满意的。

2.8 Interpolate(处理切点/断点)

无论音乐还是人声有时候会出现音尾突然断掉,也就是电平突然归零失去尾音了 (断点的地方就会听到“啪”的一声),声音缺乏完整没有自然的结束,如图5所示。这时就可以通过切点处理对音频结尾处做一些补偿,让声音可以自然平滑地结尾。

图5 断点修复前

功能界面里只有一个Quality 的滑块供调整,根据需求自行选择处理质量的高低。在要处理的音频结尾断点处选一段不超过4000Sample的长度进行处理。由于此功能一次最多处理4000Sample,所以只能用来处理较短的信号补偿,如图6所示。

图6 断点修复后

2.9 Mouth De-Click (去口水声)

人声录制时不可避免会出现一些口水声,以前处理这些粘腻的口水声最常用的方式就是用笔一点点把这些口水音划掉或者通过剪辑手法把这些声音抠掉,费时间且效果不一定好。

而Mouth De-Click通过Sensitivity (敏感度)、Frequency skew (频率范围)和Click widening(click的宽度)的调整就可以非常有效地将口水音去除干净,省时省力。

2.10 Voice De-Noise(人声降噪)

人声降噪有两种模式,Adaptive mode(实时降噪)模式下,播放时会对未来几秒钟长度的声音进行系统自动预处理,这样在播放的同时听到的就是实时处理后的效果。Optimize for Dialogue/Music(优化对白或是音乐里唱歌的部分)的模式下,选择要处理的声音的类型。主要区别是在Music模式下,针对音乐的特性会有类似拖长音或是有一些弱弱的颤音这种演唱方式,软件在处理的时候就会遵循音乐的特点,不会过多伤害到中间那些细腻的颤音等。

使用时可以选择一段干净的噪声作为采样,点击Learn自动分析识别,就会出现这个噪声的频响曲线,通过Thereshold (门限)和Reduction (衰减量)来控制降噪的程度和比例,如图7和图8所示。

图7 降噪前 (灰色区域为噪声采样区域)

图8 降噪处理完成

2.11 Spectral De-Noise(综合降噪)

这是最复杂也是功能最强大的降噪工具,在影视剧和语言类节目的制作中会经常用到,像模拟磁带的声音,电流的哼声还有各种室内外环境噪音都可以通过它来处理。

软件的处理有两种模式,一种是Learn (学习采样),选取一段干净的噪声作为采样参照自动分析识别;另一种是Adaptive mode(实时处理),在播放的过程中软件自动进行预处理,这样在播放的过程中听到的就是实时处理后的效果。实时处理的时间通过旁边的滑块选择,比如选择3秒的时长,软件就会预处理后面3秒的长度,到了这个3秒又会自适应处理下一个3秒的长度。Learn的模式通常是针对同一空间内或是同一场景下的底噪;Adaptive mode大部分时候可以应用于环境底噪发生明显变化的时候,比如场景在室内和室外来回切换,在底噪不同的情况下,可以通过自适应模式进行处理。不过在影视作品中,特别是电影的声音制作,通常会将不同环境、不同场景的对白单独进行处理。

基本的参数调整也是常用的,类似Threshold(门限)、Reduction (衰减值)、Quality (质量)和Artifact(精准度)等在其他的功能中都有类似的调整参数。除此之外,还有可供选择的扩展区,能够对声音进行更精准的处理。比如Algorithm Behavior(算法模式),分为极度算法、高级算法、简单算法和高级加极度算法;Noise Floor (底噪),有Synthesis(类似合成底噪)和Enhancement(增强人声信号)两种。有些段落经过处理后几乎没有了底噪,播放到这部分就会像一个“坑”一样声音突然掉下去,整体底噪就不平了,Synthesis就是通过算法合成出一个底噪把这些“坑”填平。在去除掉的底噪里面如果还存在部分人声频率,就通过Enhancement将底噪里面的人声强化出来。另外还有Masking (心里声学的算法),默认20Hz 以下和20KHz以上就不再处理;Whitening (添加白噪声),为了避免去掉噪声之后人声过于干净显得比较突兀,可以选择添加这个选项,使已经去掉的底噪和去不掉的底噪都接近于白噪声;Dynamics (动态),可以通过Knee(拐点)进行更细的调整,如图9所示。

图9 综合降噪

2.12 Spectral Repair(综合修复)

图10 综合修复模块

这是一个具有综合修复功能的工具,它能够衰减或是去除各种不同的噪声和杂音。它一共有四种模式:Attenuate(衰减),在这个模式下可以通过水平方向、纵向和2D 方向 (水平+纵向)来衰减噪声,通过光谱中噪声显示的形态进行选择;Replace(替换),用另外一个声音来替换想要处理的声音;Pattern (图形),和Replace使用相似,但是算法不同;Partials+Noise类似Replace的升级版,可以对谐波进行补偿替换,也可以通过Instant process(快速处理模式),选择噪音位置和范围,直接进行快捷处理,如图10所示。

使用中尽量采取少量多次的原则进行处理,以免处理过度造成频率损伤。

2.13 De-Wind (去风噪)

将要处理的声音文件导入之后,可以从光谱上很明显地看到风噪区域,基本上大部分的风噪都集中在低频区域。通过调节四个比较基本的参数就能够有效地去除风声。Reduction (衰减量),控制风噪去掉的多少;Crossover frequency (预设值),比如将滑块设置在500 Hz的位置上,那么超过500 Hz的频率就不再处理;Fundamental recovery,主要用来补偿去除风噪之后损失掉的部分人声;Artifact smoothing,顺滑程度的调整,参数越大修复的效果越好,但同时修改痕迹越重。

2.14 De-Rustle(去摩擦声)

现场拍摄时演员的动作过大或是着装臃肿等都容易与无线话筒产生摩擦声。

最简单的方法是通过四种不同强度的预设处理对比选择一个效果最好的,然后再通过Reduction strength (衰减强度)和Ambience preservation(环境声保留比例)进行参数细节的微调。衰减较大时,环境声也会跟着被衰减,所以在衰减量调整到比较满意的程度之后,通过环境声保留比例的增减找到最舒适的听感。

2.15 Dialogue isolate(对白提取)

处理同期声的时候,有时会需要将对白提取出来,也就是去掉同期除了对白以外所有的噪声,环境声甚至动效。

处理方式主要就是控制对白和噪声的增益,通过调整分离程度的多少来实现提取对白的目的。调整模块有Dialogue gain (对白增益)、Noise gain(噪声增益)和Separation strength (分离强度)三部分。这个功能模块没有Preview (预听)模式,可以调整预存几种不同的方案,通过Compare(对比)进行预听对比,同时进行微调。

3 Dialogue Match (对白匹配) 将改变传统工艺

iZotope RX 在2019 年12 月发布了Dialogue Match这款插件,它被称为是全新的革命性的工具插件,它的出现将改变影视剧对白传统的工作流程与分工布局。

图11 Dialogue Match的三个调整参数

Dialogue Match 主要是解决同期声和ADR 匹配的问题。由于ADR 的录制失去了同期拍摄的空间条件,屏蔽了自然环境和周边因素的干扰,所以它的声音是最原始的毫无加工和染色的真实声音。配音后的对白失去了同期声的活性,无论在音色、混响还是环境背景声等方面都很难与同期声衔接。而Dialogue Match就是对同期声的音色进行采样分析,软件会自动识别出同期声的频响曲线、混响特性和环境背景声,并将其识别出的所有信息运用于配音后的对白中,最后通过手动对各参数进行微调得到满意的结果。这个过程类似对白混录的工作流程,这款插件未出现之前,这些工作通常是需要花很多时间通过多个插件一点点调出来,大多时候也只有混录师才能胜任此项工作。而Dialogue Match的问世将改变这一局面,以往对白预混的工作完全可以交给有经验的对白剪辑来承担。

2019年底我在电影《特警队》的对白剪辑中大量使用了Dialogue Match,完成了几乎所有人声匹配的工作,也就是大部分对白的EQ 和空间混响的调整工作都放在我这里来完成。这也是Dialogue Match刚刚问世几天后的首次尝试,结果还是令人满意的,以前很多放在混录阶段处理的对白现在通过这款插件就可以由声音剪辑来实现,这为混录节省了不少时间,也为混录师分担了很大一部分工作量。

4 iZotope RX对语言类节目的促进和影响

无论是访谈还是综艺类节目,都离不开即兴发挥的成分。像《爸爸去哪儿》《向往的生活》这些综艺类节目,无论是人物的台词还是行为动作大部分都是即兴发挥出来的,这对同期录音的要求就比较高,尤其这类节目的现场拍摄本来就比较复杂,同时拍摄几组家庭或几组成员,有分开的不同场景也有大家聚在一起的场面,后期再配音很难实现,而且几乎不可能模仿出同期的自然度和真实度,所以在以往的综艺节里,当语言清晰度受到损失的时候基本就靠后期字幕了。

还有一些人物专访和一些采访类节目,后期配音也不太现实。当采访受到空间环境的限制,容易出现声音混响大,噪声大等问题进而影响人物语言的清晰度。这些问题在过去只能通过EQ 和简单的降噪工具进行处理,虽然能够得到一些改善,但对比iZotope RX,处理效果还是差很多,尤其是大混响,几乎是不可逆的。

将iZotope RX 运用在节目制作领域,它强大全面的修复工具可以解决很多复杂的人声问题,它的使用不但可以控制节目的制作成本,并且从很大程度上提高了节目的声音质量和观看感受。

5 iZotope RX 突破了影视剧对白制作的局限性

与节目相比,影视剧制作对声音的要求更高。高标准的放映环境和多声道的还音条件,让电影声音的制作标准更是远远高于其它。

iZotope RX 在电影声音制作流程中主要应用在对白制作环节,以前对白总是受到处理手段的限制和处理结果不佳的影响,不得不舍弃同期声而选择ADR。现在基于神经网络(大数据)的基础上对声音进行处理,算法更加精准,效果也更出众。将声音通过iZotope RX 可视化之后,对任何一个小细节都可以进行修复处理。

它为电影声音后期制作带来了明显的优势:提高了同期声的使用率,减少了很大一部分配音工作,一定程度上为剧组节省了请部分演员回来配音的开支;Dialogue Match的问世将跨越传统的制作工艺,对白剪辑即将能够承担很大一部分对白预混的工作,减少混录的压力,节省混录时间。iZotope RX 的出现为对白剪辑打开了一扇新的大门,彻底打破了以前在对白处理上的局限性。

电视剧不同于电影,由于制作量大,同时受到时间和预算上的限制,在制作中很多声音的问题没有时间逐个处理,因此我们在看电视剧的时候经常遇到声音不衔接的现象,出现这些问题是因为后期配音之后的声音没有经过处理,造成和同期声衔接不上的现象。若将Dialogue match运用于电视剧制作中,将会有效改善电视剧声音的制作质量,大大节约制作时间。它智能化的使用体验和高精度的算法,比起以前传统的处理方式,效果更加出众且直观易操作。

6 技术发展跨越了传统制作方式

以前影视剧对白处理手段有限,比如有的同期声由于信噪比太差,降噪器的采样不够精准导致对白音质损伤过度;同期声因动效声或是周围环境声过大而影响了对白的清晰度;同一场戏的两个角色,一个对白质量不错而另一人的信噪比较差,为了两人的声场环境和音色能够较好衔接,最后不得不整场戏配音。如今这些问题大部分情况都可以通过iZotope RX 较好地解决。

随着声音处理软件的采样方式和精细度的不断提高,将过去那些根本不可能保住的同期声通过软件处理大大提高了同期声的使用率。这不但保留了同期录音师辛苦的劳动成果,也保留了演员们现场表演时最真实的状态,为后期配音工作减轻了很大一部分工作量,同时也为大部分导演实现了尽可能使用同期声的愿望。❖