破解声音密码

2015-05-28 18:31梁晓轩

检察风云 2015年8期

梁晓轩

声音密码破奇案

有一个事例证明了声纹在案件证据方面的重要性：

一位来自美国佛罗里达州的母亲凯西·安瑟妮（Casey Anthony）被宣判无罪，检方指控她涉嫌谋杀自己两岁的女儿凯利（Caylee）。控方提出的一个证据是在被告人电脑里找到的网络搜索记录，比如“氯仿（chloroform）”和其他罪证（氯仿可将人麻醉致死）。但安瑟妮的母亲辩解说这是她键入的搜索条目（即当我们在搜索引擎如百度中输入某个汉语单词的首字，搜索条目中会出现以该首字为开头的关联词句），当时她不小心把“叶绿素”（chlorophyll）错拼成了“氯仿（chloroform）”。稍加分析不难看出抗辩事由很牵强，但却威胁到了“排除其他怀疑”的诉讼准则。假如她使用 Siri 语音搜索，检察官和陪审团就有可能确认当时究竟是谁说了“氯仿”这个词。不过，苹果公司拒绝透露是否收到过任何要求比对声纹记录的官方请求。

发生在中国的另一起案例则从正面印证了声纹作为关键证据使用的重要性。2014年8月，山东济南警方破获了一起电信诈骗案。该案中，一名男性犯罪嫌疑人伪装成女性声音，随机拨打手机号码，通过“猜猜我是谁”试探手机接通者的态度，并利用受害人可能忘记朋友名字的尴尬心理，冒充受害人的朋友实施电信诈骗。济南市槐荫区公安局就是利用声纹识别技术，成功破获了这起离奇的电信诈骗案。

声纹之秘

声纹又称voiceprint，直译过来为声音的痕迹，指使用声谱仪、语图仪等设备将声波及其频率记录而为波状图形。按照词典中的定义，声纹是通过仪器记录下来的因人而异的声波纹。声纹是人与人不同的痕迹密码，一定技术条件下，可以成为区别人与人生物特征的证据，是种“无形的指纹”。

当然，“无形指纹”一说属于现代的定义。其实早在科技文明兴盛之前，人们就已经开始关注人与人之间不同的声音了，我国古代就有闻声识人一说。近代意义上的声纹鉴定出现在20世纪30年代，当时的声纹侧重于辨认，主要通过人耳的听觉确认是否同一人，当时人们已经认识到声波现象，但受制于科技水平，尚无法记录声纹图谱。二战以后，滤波技术迅速发展为声纹记录提供了可能，声纹因此获得了可视化载体。随后，借助于计算机的飞速发展，为声纹分析打下技术基础，电声转换系统也愈发精确，声纹识别的数据分析得到发展。上世纪90年代，小波技术作为一种算法，大大加快了海量信息识别与比对的速率。近年来计算机芯片快速发展，尤其是数字信号处理（DSP）芯片得到了广泛应用，在数据库一定的前提下，声纹鉴定可以达到同一认定的要求，语音特征参数提取技术目前已经达到比较成熟的水平。

声纹鉴定包含语音特征提取和声纹分析两部分。语音特征提取即指通过电声转换设备提取待检测声音中能够反映个体信息的特征性频率。实务当中，在提取声纹图谱的同时，还经常将声音录制用于人耳识别。尤其是在甄别部分方言和少数民族语言时，人耳识别能够快速缩小声纹数据库的范围，有利于精确匹配合适的声源。目前的技术条件下，仅能提取到部分已经知晓的声纹频率。借助于滤波器，语音信息得以呈现出来。伴随社会对于声纹识别应用范围需求的持续增加，加之同一认定的准确性要求越来越高，语音特征提取的内涵也逐渐丰富，语法、语调、韵律、方言、语种、口音、拟声词、俚语、通信信道等都需要被收录以便进行分析。这无疑大大增加了声纹提取的任务量。所以，解决问题的关键在于如何选择，也就是说要根据案情加以分析研判，决定对象采集需要精细化到具体何种程度。譬如，信道这一语音特征，在刑警侦查破案时，并没有强烈需求，甚至尽量不希望将信道考虑在其中，因为实践中侦查可以获得的声纹信息往往是通过隐蔽手段获得的，信道难免存在一定瑕疵。如果能够避免分析信道这一特征，则使用录音手段获得的声音资料或将成为破案的关键证据；而在经济生活中，譬如银行交易则希望采用，也即希望信道对识别产生影响，这样将有利于银行判明并剔除录音等恶意行为带来的危害。所以，在声纹特征提取过程中，往往事先判断，配置不同特征参量的组合，进而提高鉴定效能。尤其当提取的各组参量的相关性不大时，会获得更好的识别效果。

除却声纹提取，更为有趣的便是声纹分析的原理。声纹之所以能够得到分析，原因可归结于我们的身体构造。人在讲话时所使用的器官——喉舌、牙齿、胸腔、鼻子在具体形态构造和尺寸大小上的个体差异很大，这就是造成每个人的声纹特征具有与其他人不同的唯一性和一定时期内不变的稳定性的成因。从混淆正常人体听觉的角度，可以模仿出与他人高度相似的声音。但如果采用声纹识别技术，则很容易就能发现其中的差异。所以，无论是多么高明、相似的声音模仿都可通过声纹识别技术辨别。

声纹识别还可具体划分为语音识别和说话人识别。语音识别是对信息具体含义的识别，即通过分析说话人的发音，发现语音、音节、单词或单句的含义，并不需要考虑语调、方言等特征。换言之，是对语音含义的识别。说话人识别与之相反，目的在于确认语音发出者的身份，即通过语音来辨别说话人，而并不考虑声音的具体含义与意义。

目前，语音识别主要用于对残缺语音材料的补全，其民事、商业用途大于司法用途。同一认定意义上声纹识别则主要指说话人识别。说话人识别包括说话人辨认和说话人确认两个方面。前者的识别采取单对多形式，能够判断出某段语音是若干人中哪一个所说，广泛运用于刑事案件、确定嫌疑人、司法诉讼等方面。说话人确认是一对一的确定过程，即确认某段语音是否属于指定的某人。作为生物识别技术，主要应用于门禁系统、金融产品交易、银行服务、声控锁具、信用卡等。识别围绕同一性，事先录入声音作为留存样本，通过设备分析出该样本独有且可识别的特征，并由数个特征整合为一组数据，作为整体写入数据库，当待检声音能够以完整的形式匹配数据库的特征组合，则识别通过。

与其他个人信息相比，声纹目前未被列为个人隐私的范畴。这样一来，声纹由于其容易带来隐私权的问题，以声纹为媒介的识别设备则更容易在获得法律上的认可。同时，由于声纹设备成本较低，容易为更多考虑成本的民用行业所接受。通过声纹识别技术，可用声音来代替金融交易的传统数字加字母式密码，以声音作为密钥。如此，人们不需随身携带钥匙、智能卡之类硬件识别设备，也不需记住复杂的密码。尤其是在监所门禁识别当中，使用声纹生物识别取代指纹识别将能够有效避免罪犯为脱逃而杀死狱警并切下手掌的残忍情况发生。在侦查破案中，对于只能获取到声音线索的情况，声纹识别也大有助益。譬如绑架勒索案件中，犯罪分子往往通过需要通过声音作为媒介与受害者家属进行联络。那么，其中能够获得的线索就是录音，通过声纹识别技术，就能根据电话录音获得线索，缩短破案周期。对于我国而言，现有的刑事证据、民事证据体系中就列有视听资料一条，给声纹作为证据使用留下了法律依据。

苹果和它的Siri语音技术

Siri在苹果手机的中文操作环境下又叫做语音控制。开启语音控制功能之后，只要对着声音接收孔发布语音指令，智能手机就能够根据声音判断其中的语义，进行网络搜索、开启某个程序或者拨打通讯录电话。对于某些常用程序，使用Siri能够有效提高效率。譬如通讯录的调取联系人的电话号码，说出想要联系的对象，语音识别系统就会将声纹转化为电子设备能够理解的数字算法，同时将通讯录中文字信息转化为数字算法，与前者匹配，当计算比对完成时，则自动发出指令，查询相应号码，随之发出拨出指令。分析Siri的技术来源，则可将其归属于声纹识别的一种，其中，语音识别为其主要的工作机制。

但是可以想象，一部手机的芯片与处理器的主频显然不能支持如此巨大的语音分析——信息比对的任务量。那么，苹果手机是怎么做的呢？显然是通过移动互联网将手机接入了苹果公司的服务器，使用者的语音记录、检索信息被上传到云端或者大型计算设备。苹果公司则公开承认了上述信息收集行为。楚蒂·穆蕾（Trudy Muller）作为苹果公司的新闻发言人肯定地说，当使用者对 Siri提出“今天天气怎么样”之类的问题时，录音是被保存了下来的。但她补充说，“存储这些数据，只是为了让 Siri 正常工作，以及帮助 Siri 提高语音理解和识别能力”；“苹果公司‘高度重视用户的隐私，请注意，Siri 通过互联网发送的问题和回答都是加密的”；“虽然为了完成你的指令，Siri 的确会上传你的通讯录、位置信息、已存歌曲等，但苹果公司不会把你的声音录音和你储存在苹果的其他数据联系起来。”尽管如此，当使用者的信息被储存到他们无法掌控的环境之中时，很难想象储存管理者会如何使用信息数据。同时，声纹由于具有可识别的特性且每个人都不得不通过发声进行交流，那么被收集的数据将会成为重大的生物特征源。可以想象，如果声纹因为种种原因发生泄露，则有危害公民隐私之虞。

正是由于声纹的唯一与可识别特性，美国国家安全部门已经开始使用声纹来验证跨境旅客，以便更快办理过境手续。同样值得担忧的是，假如你曾经向 Siri 询问过一些敏感性的问题，譬如政治敏感词、生理、疾病敏感词，一旦发生信息泄露，你将处境十分尴尬。

雷神科技（Raytheon BBN Technologies）的执行副总裁普瑞姆· 纳塔瑞杰（Prem Natarajan）认为，基于生物特征的识别技术提出了一个全新的隐私争议。举个例子，如果政府可以得到这些数据，那么，当有人在 Siri 上搜索反专制抗议组织的位置时，他可就麻烦了。上月美国国会的一项法案恰恰印证了普瑞姆的担忧。该法案拟构建私营企业与政府机构之间的网络信息分享机制，使政府能够真正接触到需要保护的个人信息数据。保护的同时是否意味着监控和建立声纹数据库？也许斯诺登会给我们答案。

保护声音的密码，切断声纹的关联信息

那么如何对声纹进行保护呢？譬如苹果手机，其语音识别系统的工作机制是通过将使用者发出的问题传输至服务器当中，利用服务器的特定程序分解该段语音资料，将其转化为可供分析的代码并提取相关特征，最后进行语音识别。当我们说出“我想去吃火锅”时，实际上共享了我们的即时位置。但其实，我们是有办法在享受科技便捷的同时，把自己的生物特征变得隐蔽一些的。智能手机本身带有一定的数据处理能力，语音识别的过程，一般在手机自行处理数据开始，如果待识别的信息可以在手机本身得到处理的话，将避免上传至云端。专家给出的建议是“也许任何能和你本人直接挂钩的东西都只该留在手机里”。那么，在使用语音功能时，不妨选取部分能够有效表达内容又不会过度暴露自己的短词语。此外，声音音量的大小，对于说话人辨认很重要，但是对于声纹识别中的语音识别却没什么影响。所以音量的控制或可减少声纹的暴露程度，或者说至少会为声纹的提取和识别制造些难度。

此外，可以通过声音模糊处理程序隐匿声音，其原理如同“会说话的汤姆猫”App。另一种方法，就是更改智能设备端的设置，或者加入程序附件，将识别的目标库锁定在本人所使用的硬件终端上、本地主机上。但是这种方法也并非绝对安全，储存介质可以通过数据技术进行恢复。所以，如果使用了智能设备，完全隐匿数据几乎没有可能。进一步而言，匿名声纹最简单且是唯一的方法：像手机sim卡那样，切断声纹和其他数据的关联。

编辑：黄灵 yeshzhwu@foxmail.com