雷 红,韩建文
(琼州学院,海南 三亚 572022)
人类与生俱来就拥有高水平的信号处理能力,可以对从外界接收到的各种信息进行加工处理,从而达到正确表达的目的。通过听觉和视觉识别语音和图像信号是人类接收信息的主要方式,而语音和图像信号的处理也是人类智能的主要特点。现代信息技术快速发展,作为其三大基础技术之一的信号处理技术日益受到众多专家学者的重视。信号处理技术主要就是计算机技术,它是信息技术系统的大脑,没有大脑对信号进行处理,就不可能形成反应迅速、精确的信息控制系统。因此,国内外的许多研究课题都热衷于各种信号的处理技术,信号处理技术已经在很多领域有了有效的利用,其自身也产生了许多分支,语音信号处理和图像信号处理就是其中较为热门的方面。本文就是对这两者的几个方面进行简单的分析比较。
人类的肺部排出的空气产生气流,激励不同区域的声道,经由声道、喉、嘴组成的发生器官产生语音,形成各种各样的声音。音素是组成语音的基本单位,语音规则控制着音素之间的排列方式,语音信号就是由音素及其之间的过渡组成的,是指携带着有关信息的语音声波。语音信号分为电信号和光信号,分别是由“声-电”转换和“声-光”转换得到的。语音信号一般采用参数表示和波形表示来进行离散表示,参数表示是指在对语音进行采样及量化后,对其进行更深层的处理从而得到该语音模型的各类参数,语音信号就用这些参数来表示,参数一般分为声道参数和激励参数两大类。波形表示则相对简单,就是经过采样和量化之后保存的模拟信号。
图像信号是指通过摄像管和它的相关电路将需要传送的、明暗不同的图像分解成的相对应的强弱程度不同的电压或电流。而在图像信号传送同时为了保证收发端同步以及只在扫描正程传送图像信号,必须加入由摄像机或同步机产生的行场消隐信号和同步信号。[1]行场消隐脉冲的作用是截止回扫时的电子束,行同步脉冲的作用是严格保证收发端同步扫描,这些脉冲信号和图像分解成的电流或电压一起组成系统需要处理的图像信号。
语音和图像各有其明显的特征。首先,语音信号为时变信号,是非平稳型的,但在极短的时间内又具有平稳的特点。语音能够分为浊音和清音两类,浊音的语音信号具有明显的时域周期和共振峰结构频域,在低频段有大部分能量集中,可以很容易使用滤波器提取,而清音没有时域周期和频域特征,与噪音很难区分。而图像信号是二维信号,是反映光线强度的,信息量大,特征也明显。无论是黑白二值图像,还是彩色图像或亮灰级灰度图像,其频谱都介于一定范围内,幅度通常为非负有限值。图像信息的高频部分是决定图像细节和边缘的内容,低频部分则是图像形状、亮度的决定区域。语音和图像信号的异同点主要表现在:第一,来源与归宿。图像是世界上客观景物转换而来,语音则是人类发声系统产生的,但它们都可以通过人工合成;语音由人类听觉接收,图像则由视觉,但都要经过大脑处理。第二,维度。图像是二维信号,语音则是一维的,但它们都可以用相应的转换域或频率域表示。第三,信号带宽。图像信号带宽可达到6.5MHz,语音信号带宽只能介于10Hz-20kHz之间,两者数字化后的数据量相差极大。第四,相关感觉机制。语音信号的产生接收涉及人的发音机制及听觉机制,图像信号只与视觉有关,但两者都可以建立信源模型和信宿模型。第五,信号冗余类型。语音信号的主要冗余为样本间相关性、浊音段周期性、有限声道形状变化速率、静止系数、共振峰及不均匀的传输码分布概率。图像信号冗余主要来源于内部相似性数据、内部结构特点、不均匀分布得代码符号概率及自相似性的图像结构等等。
作为使用得最为频繁的两种信息形式,图像和语音比起图表、数据、文本等信息更加生动形象,内容页更为丰富。语音和图像具有明显的差别,它们的编码、加密一般是分开进行的。
一般说来,语音编码即是语音压缩处理,语音编码分为三种,即参数编码、波形编码及混合编码。[2]参数编码,其压缩信号的方法是借助人类发音系统特性来实现的,就是建立一个语音信号特定声学模型,提取和编码模型的各种参数,尽可能使重建语音信号的可懂度和自然度达到最高水平。波形编码,它的压缩处理方式比较简单,就是把语音信号看作波形信号进行处理,要尽可能保持重建语音与原语音在波形形状上保持一致。混合编码顾名思义,即是将上述两种编码方式结合在一起,在使用波形编码的同时使用参数编码,拥有波形编码的高质量和参数编码的高速率双重优点。而图像编码经过几十年的发展,涌现了很多的编码技术种类,如PCM、矢量编码、运动补偿的DPCMDCT混合编码、分行编码、区域基编码、知识基编码以及物理基编码等等,其中前三种编码方式是属于波形编码范畴的,而分行编码与参数编码类似,而后面三种编码方法则属于新型的编码技术了。语音编码和图像编码有许多通用编码技术,如变换编码、子带编码、预测编码等等,两者的编码方式都可以大致分为模型基编码、波形基编码和混合编码三类,且两者编码环节都是从预处理到核心编码模块,再到熵编码,过程大致相同。
网络技术和多媒体技术的快速发展,加速了数字图像在政治、军事、经济等众多领域的发展,促使图像数据安全成为信息安全的重点课题。许多用于加密图像的专门方法不断被提出,以加密图像信号中有无图像压缩来分类,图像加密可以分为有图像压缩的加密、无图像压缩的加密和压缩图像的部分加密三种方法。[3]图像信号可以利用置乱图像的相位谱、置乱图像编码数据等技术进行加密。语音信号加密的方法在很早之前就有研究,在通信中具有极其重要的作用。根据不同的语音信号处理方式,加密方法分为数字语音加密及模拟语音加密两种,加密技术有时域置乱、频域置乱、二维置乱、振幅置乱技术。图像信号与语音信号的加密方法在模式上有很多区别,比如置乱内容不同,置乱模式不同,但很多技术在加密图像信号和语音信号上是通用的,比如盲源分离技术、小波变换技术,信号加密的基本原理也相通,都是利用置乱及遮掩等手段实现的。
总之,人类的信息处理模式具有十分重要的研究价值,如果可以从大脑计算的理论和方法上突破,研究其处理信息的机理,就可以实现计算机模拟人类大脑的功能。而图像和语音的信号处理技术,即是这项研究的重点所在,对它们的处理模式和处理方法等进行比较,旨在找出这两者的异同点,从而更有针对性地对其进行研究发展,通过各种处理系统的合理设计,使这两者的处理途径和处理模式有效地配合,开发出统一进行语音信号和图像信号处理的系统。这将大大促进人工智能系统的发展,拓展计算机应用范围,具有非常大的研究价值。
[1]张杰,龙子夜.语音信号处理中基频提取算法综述[J].电子科技大学学报.2010(S1):13-14
[2]许丽群,马驰,王睿杰.时频分析在语音信号处理中的应用[J].科学技术与工程.2011(21):35-36
[3]唐玲,程建.小波变换在语音信号处理上的应用[J].四川理工学院学报(自然科学版).2012(01):7-8
[4]刘金亨.基于小波变换的遥感图像处理研究[J].重庆大学 .2011(03):56-57
[5]杜广超,杨凯,王胜涛.语音编码和图像编码比较研究[J].兵工自动化 .2008(07):28-29