声纹技术在网络犯罪侦查取证中的应用初探

2020-09-17 07:21:58王康宁

湖南警察学院学报 2020年3期

王康宁，杨兵，马腾

（中国人民公安大学，北京 100038）

声纹技术在上世纪四十年代初期就已经开始出现，然而我国对声纹技术却长期持保守的态度，直到最近几年在国内开始受到广泛关注，并逐渐发展成为趋势。新型的网络犯罪具有典型的远距离、不接触的特点，作案人与被害人之间并没有物理空间上的直面接触，没有DNA、指纹、足迹等传统物证遗留的可能性，因此在网络犯罪案件中电子证据的提取至为关键，而音频资料往往是很多案件中唯一有价值的证据材料，成为案件能否侦破的关键之所在。目前，声纹技术在网络犯罪领域中尚未得到广泛的、充分的应用，也未受到应有的重视，尚处于起步阶段。笔者认为声纹技术或许将会很快成为网络犯罪取证未来的发展趋势之一，值得研究。

一、声纹技术的原理及其证据资格分析

所谓声纹，是指作为诉讼证据使用的各类声音的特征之集合[1]。国际上称其为“Voiceprint”，我国类比指纹的叫法称其为“声纹”。声纹和指纹、DNA等生物特征一样可以用于人身识别，同样客观、准确，而且更加生动形象、直观全面，具备其他生物特征不具备的优势。

声纹技术是指通过科技手段与专业经验、知识相结合，对音像资料中的声音材料进行各种分析、检验和鉴定，用以证明语音音源的同一性、音像资料的真实性和完整性、语音内容、噪声来源、说话人属性以及录制器材等内容的专门鉴定技术，其目的是为侦查提供线索、为审判提供证据[2]。声纹技术有狭义和广义概念的区分。狭义概念的声纹鉴定专指说话人鉴定，广义概念的声纹鉴定则泛指声纹鉴定技术，本文所指皆为广义概念的声纹鉴定技术。同时，声纹鉴定技术需要同时运用语音学、物理学、心理学等多个学科的基础理论和基本知识，属于学科交叉融合的应用技术。因此在打击犯罪中运用声纹技术，应当对其基本知识有所掌握且具备多种相关科学的知识和技能，需要培养专门的技术人才。

“声音”和“声纹”是本质同一事物的不同表现形式，前者是主观模糊的听觉感知，后者是前者客观形象的表现形式。声音识别是人类的本能反应，“辩声”自古有之，就是凭着人类最本能的听觉感官对“声音”进行判断，对声音归属者进行“声音识别”。这种感官感受具有相当的主观性和争议性，并不能被法庭所接受而作为证据使用。十九世纪四十年代声谱仪的发明使得“声音”可以被描述为形象化和客观化的“声纹图谱”，从而可以对其进行具有科学性的分析、检验和鉴定，即声纹图谱的产生使得声纹鉴定具有直观性和客观性，完全不同于人凭借感官“听音”识别的模糊性和主观性。声谱仪的发明是声纹检验技术产生的前提条件。

本文只讨论广义的声纹鉴定技术所包含的以下四种主要应用技术。

1.语音同一认定的原理

法庭科学的基本原理之一是同一认定原理。作为可以用于人身同一认定的法定证据形式之一，声纹必须具有和指纹、DNA等其他生物特征相似或相同的特性，即“人各不同”的人身特定性、“终生基本不变”的相对稳定性和“以某种形式”的外在反映性。首先，由于人的生理、心理和社会因素的差异导致语音的差异性。第一，人类声音的形成是由于声带等肌群的有规律振动而产生，因为每个人的声带结构和发音习惯各不相同；第二，人的心理状态、感情情绪各不相同；第三，人的文化教育、职业、地域方言等社会因素的不同。因此人的声纹“各不相同”。声纹具有可供检验鉴定的特定性。其次，根据相关研究表明，人类的声纹除了在青少年时期和老年时期会发生自然缓慢的生理性变化或者由于声带结节等疾病或者外伤产生病理性变化之外，在人的一生中其本质特征可以保持“基本不变”，能够和其自身保持同一，因此具有可供检验鉴定的个体稳定性。最后，声谱仪的发明使得声纹可以形成声纹图谱，能够将人的语音特征和发音习惯直观“描述”出来，具有可供检验鉴定的外在反映性。声纹可以作为人身同一认定的依据。

2.录音真实性（完整性）检验的原理

音频的语音内容和录音背景音在语义、频谱、音强、噪声、脉冲信号、音频水印和文件属性等多方面都具有相对的连续性和稳定性，达成整体的“和谐”。一旦通过音频编辑软件对音频进行增加、删减、替换、拼接等操作，因剪辑操作技术、录音器材性能、录音环境条件等方面的限制，会不可避免地形成剪辑痕迹从而对其连续性造成破坏，形成局部的“不和谐”。录音真实性（完整性）检验就是对这种“不和谐”的检验，具体包括语义的不连贯、背景音的不连续、频谱特征的跨越突变等修改痕迹。存在剪辑修改痕迹的音频文件资料，其完整性、真实性便存疑。

3.语音人身分析的原理

语音人身分析的基础是特定人言语习惯的稳定性、特殊性和反映性，以及语音基频和共振峰与发音人身高之间的相关性、语音强度与发音人体态之间的相关性等理论[3]。第一，通过语言可以分析说话人的社会属性。一个人的职业、年龄、生活地域、方言、文化水平、思维方式、心理状态等都会影响其语言习惯，且当他的以上人身特点基本固定以后，语言习惯也会相对稳定下来。因此可以根据相对稳定的、类型化的语言习惯倒推说话人的各种身份特征。例如，根据语音中出现的相关学术术语推断说话人的职业特征、根据方言特征推断说话人的籍贯信息等。第二，可以分析说话人的人身属性。由于人的语言功能是以发音器官的生理结构为基础的，而特定人群（如高个子、肥胖者等）的生理结构往往存在很大的共性，而语音的音色、音强、音高等声音的物理属性能够反映出个体生理结构上的差异，因此可以根据语音的物理属性反过来推测说话人的身高、体态等人身属性。例如，人的声带长度与身高之间呈正相关，而语音的基频与声带长度之间呈负相关，因此可以根据语音基频信息大致推断说话人的身高特征。

4.音源同一认定的原理

音源同一认定是指通过音频信号分析检验不同音频文件是否来源于同一个录音源的技术。由于不同录音设备的性能属性存在本质差异，因此可以通过频谱图对比音频能量按时间和频率的宏观分布特征是否相同来检验音源是否同一。音源同一鉴定多用于盗版引起的知识产权等民事诉讼案件，在网络犯罪打击中的作用甚微，因此这部分不做详细介绍。

研究声纹在网络犯罪中作为证据的作用，有必要明确其证据资格和证据属性。2012年修订的《刑事诉讼法》第四十八条将“视听资料、电子数据”规定为八种法定证据形式之一。而音频属于“视听资料”，声纹鉴定则属于“鉴定意见”。这一规定可说是为声纹“验明正身”，明确了其具有证据效力。

从刑事证据法的角度来看，任何一个证据，要转化为法庭据以认定案件事实的依据，都必须同时具备证明力和证据能力双重证据资格[4]。具有“证据资格”的材料，才可能具有“证明作用”。因此，应当首先进行证据能力的判断，才能谈得上证明力的审查和判断问题。证据能力又称为证据的“合法性”，是由证据法加以限制和规范的法律问题。证明力则是根据经验、理性和良心加以评判的事实、经验和逻辑问题，证据法不作限制性规定，主要是对材料的相关性和真实性提出要求，其中材料的“真实性”决定了证明力的“有无”，材料与案件事实的“相关性”决定了证明力的“强弱”。

来源于案件中的通话录音、语音等声音材料的四个“合法性”的情况，决定了其是否具有证据能力。这些声音材料的来源、收集、形态、样式等的“真实性”情况决定了其证明力的“有无”，而其与案件事实的关联程度即“相关性”决定了其证明力的“强弱”。因此，那些直接来源于网络犯罪案件事实、具备证据能力和证明力资格（即具有证据资格）、能够证明案件基本事实的音频资料，可以作为定案的依据。可见，声纹检验不仅具有推进侦查破案进程的线索价值，也具有据以“定罪量刑”的证据价值。声纹能够从整体上对声音进行固定和再现,以准确、客观、公正地恢复原始声音的真实情况，因而可以形象生动、直观全面地反映出案件事实，具有优于传统证据的证明效力，因而可称其为“会说话的证据”[5]。

二、声纹技术的司法应用及在网络犯罪侦查中的作用

判决书是研究案件情况最完整、最直观的资料，因此笔者通过对在无讼案例网检索关键词“声纹鉴定”所得判决书进行分析，研究声纹鉴定技术的司法应用现状。在无讼案例①网址：https://www.itslaw.com/bj网站的搜索框中输入关键字“声纹鉴定”，共检索到595篇诉讼文书。对这些案件进行分析研究，案件统计情况如下：

第一，按照审判年份分析（如图1）：从2010年至2017年，除个别年分以外，运用声纹鉴定的案件数量逐年增多，特别是自2015年以来出现快速增长，但2018年数量略有下降（应属于正常波动），2019年刚刚开始其数据不具有研究价值。由此可知声纹鉴定技术在诉讼中的应用正在逐年增多，声纹鉴定技术正在逐渐受到重视。

图 1

第二，按照案件类型分析（如图2）：其中民事案件472件，占比79.6%；刑事案件119件，占比20.07%；行政案件2件，占比0.34%。由此可知，声纹鉴定技术目前仍主要用于民事诉讼，在刑事案件中应用较少，在行政诉讼中的应用几乎可以忽略。

图 2

第三，按照案由分析（如图3）：通过图表分析可知，声纹鉴定相关的民事案由中知识产权和竞争纠纷占比最大，达到了301件；合同、无因管理、不当得利纠纷共115件；劳动争议、人事争议36件；民事其他案由8件；侵权责任纠纷5件。声纹鉴定相关的刑事案由中妨害社会管理秩序罪56件；侵犯财产罪35件；破坏社会主义市场经济秩序罪18件；危害公共安全罪5件；侵犯公民人身权利、民主权利罪5件。

图3

由此可见，声纹鉴定在司法实践中，尤其是刑事案件中的应用尚不充分，很多案件中的音频材料并未加以利用，而声纹的线索价值和证据价值又非常大，同时电信网络诈骗犯罪等网络犯罪中音频出现的可能性又较大，容易留下声音材料，所以本文对声纹鉴定技术在网络犯罪中的应用的探讨十分必要、迫切。

1.及时判断案件性质，开展针对性打击

利用声纹鉴定技术中的语音内容分析可以快速了解电信网络诈骗案件的诈骗剧本、被骗过程等案件基本事实，快速区分案件性质、案件类型和具体诈骗手段，甄别虚假报案，便于及时采取针对性措施开展侦查工作，提高办案效率、节约侦查资源。

2.语音人身分析用于犯罪心理画像

利用声纹鉴定技术中的语音人身分析，可以对网络犯罪的犯罪嫌疑人进行犯罪心理画像分析，提供破案线索。犯罪心理画像是指根据侦查阶段业已掌握的各类基本线索和材料，分析犯罪人的犯罪动机、犯罪目的、犯罪行为、犯罪心理过程以及犯罪人心理特点等特征，形成对犯罪行为人的生理、社会、地域、心理以及既往犯罪等犯罪属性的客观描述的过程。[6]来源于网络犯罪案件的声纹信息可以作为犯罪心理画像的信息来源之一。且不论犯罪心理画像究竟是“艺术”还是“科学”，通过犯罪心理画像往往确实可以在立案侦查过程中明确侦查方向、划定侦查范围、串并案件、确定侦查防范重点；在审讯过程中有针对性地“攻心夺气”，迫使认罪、深挖余罪、扩大侦查战果。因此，语音人身分析在网络犯罪侦查中具有重要的线索价值。

3.语音同一认定作为定案的依据

网络犯罪的犯罪空间具有虚拟性，取证难度大，抓获的犯罪嫌疑人往往由于证据不足无法定罪量刑。声纹鉴定技术中的语音同一认定是指通过声纹检材和声纹样本的分析和比对，确定二者是否为同一人语音的鉴定技术。语音同一认定可以鉴定来源于案件的检材声纹是否归属于犯罪嫌疑人，因此可以作为定罪量刑的证据，可以作为定案的依据。

4.声纹大数据用于网络阵地控制和高危地区、高危人群管控

声纹大数据建设可以用于网络阵地控制和对具体类型的网络犯罪高危地区、高危人群的管控，有助于更好地运用大数据侦查手段实现犯罪预防。侦查阵地控制是指通过对犯罪易发区和易涉区间以及易涉行业的有效监管控制来获取相关犯罪的预警情报，并在侦查工作中提供相关联的侦查信息，从而发现、查缉、控制犯罪的重要的基础性侦查工作[7]。通过阵地控制和高危领域管控可以实现对电信网络诈骗的有效预防和及时发现、及时预警、及时打击。

三、声纹技术运用中存在的问题及对策建议

我国当前对刑事证据收集规则的法律规定尚不完善，具体到声纹证据的采集、鉴定和运用以及大数据库建设的法律规定更是处于缺位状态。声纹大数据中往往含有公民个人信息，包含特定自然人身份或者反映特定自然人活动情况的各种信息，包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等信息[8]。如何保证声纹采集过程中不侵害被采集者的人身权利，如何保证声纹合理合法地运用是必然要考虑的问题。因此，应当加强声纹数据应用的法律规制，强化控权理念，以法律规范、制度设计防止声纹数据的运行机构和运行人员可能会出现的侵害公民个人信息权的各种可能性，对其“权力”进行有效监督和规制，使声纹证据的采集和应用符合刑事司法的人权保障要求。

加强侦查技术使用过程中的法律规制，对声纹数据要依法采集和运用，对声纹数据库的建设和应用也要适当加以限制：第一，声纹数据的采集和使用要具有合法性。规范声纹数据的来源途径和采集流程，顾及被采集人员的感受，尊重被采集人员的知情权、参与权和监督权，采取合情合理合法的方式方法进行声纹的采集和使用。第二，声纹运用必须符合比例原则。声纹数据库的使用要明确其目的限制，仅可用于办案目的，要像技术侦查手段一样，其运用必须符合比例原则的要求。第三，建立个人信息保护机制。应当注意对个人信息的保护，建立保密制度，防止在运用声纹数据时泄露公民个人隐私，做到打击犯罪与保障人权之间的有机统一。

由于电信网络犯罪具有跨地域的特点，因此各地自建的局域声纹数据库若不能实现全国互联互通和数据共享，难以有效地打击跨地域的电信网络犯罪。目前公安机关的科层体制导致了各地域、各部门之间职权的高度分化，严重限制了公安机关内部跨地域、跨部门的办案协作和信息共享。同时，由于奖励体制的限制，各地域、各部门之间常常存在担心自己的劳动成果被其他部门“争功”而刻意限制数据共享的实际情况。这些主客观因素都使得各部门、各地域间高高架起限制侦查数据交流共享的“壁垒”。因此，若要建立全国范围内的声纹数据库，应该建立合理的奖励和激励体制，解决当前科层体制导致的跨地域、跨部门案件信息共享难、合成作战难的问题。

应当在全国范围内建立全国联网的声纹数据库并逐步扩大其数据规模，将声纹数据库应用到网络犯罪的防范和打击治理中，防治结合，加强防范。可以分步、分人群逐步扩大数据库规模，应当在重点地区或者针对重点人员优先建立声纹数据库并逐步扩大到普通民众，尤其以金溪等诈骗重点地区为先，以电信网络诈骗前科人员为先，将声纹数据库用于网络犯罪阵地控制和高危人群管控中。同时，建立声纹大数据跨区域协作合成作战机制。实现将案件中提取到的嫌疑人的声纹检材入库在全国范围内的声纹大数据中比对和分析，再根据声纹比中率划定摸底排队的顺序和侦查的范围，像指纹数据库一样建立起现场声纹库、人员样本声纹库、专案声纹库等各类子数据库，并可以实现各类数据库联通交互，提高运用效率。

目前各地公安机关刑事技术部门尚无专门的声纹技术部门建设，多数公安院校中声纹鉴定技术的教学也是多依托于文件检验课程而设立，既没有专门的声纹鉴定专业研究方向，也没有专门的声纹鉴定课程，无法达到培养具备声纹鉴定技术知识的人才的要求。据了解全国大多数公安院校尚无专门的无声纹实验室，而中国人民公安大学“智能声纹鉴定实验室”于2018年12月挂牌成立，可以从源头上实现对声纹鉴定技术的“普及”和“推广”。

公安政法类院校应该加强相关的专业课程设置和专门人才培养，从源头上输送具备声纹检验能力和技术的优秀警学人才，加强公安学理论研究与实战应用的对接对口。另外，公安实战部门应当对刑事技术人员进行定期培训，加强现场勘查人员声纹证据提取、利用的意识，提高声纹证据运用的能力和水平。从传统物证转到电子证据，加强办案人员的电子证据意识。

虽然国家有关部门一直在加强科技强警建设，各类侦查技术的发展和应用也是突飞猛进，但是经过初步了解，全国多数基层刑事技术部门甚至一些省公安厅目前尚没有专门的声纹实验室或者虽有专门的实验室却并未加以有效的利用。实验室建设是进行理论研究、促进技术发展完善、实现技术司法实战应用必不可少的重要保障。在声纹实验室建设方面，广东省公安厅目前已经十分完备，拥有专门的组织机构和人员配置，广东省依靠声纹鉴定破获的案件数量全国最多，目前已达到205件，占全国的34.45%。

应当在各地各级公安机关刑事技术部门设立专门的声纹技术实验室。同时，应当进一步加强警企合作，警企合作是实现侦查技术推广应用的重要途径。公安机关应当与相关科技公司加强协作，加大声纹识别算法研究的投入，提高声纹鉴定软件的性能，提高声纹比对分析的可靠性和准确率，以更好地服务于法庭审判。目前科大讯飞等人工智能企业在声纹鉴定分析的算法和软件应用开发方面已经较为成熟，将其普及应用于侦查办案，可以实现警企互利互赢，促进公安领域的“军民融合”。

结语

近年来，随着互联网的迅猛发展，犯罪网络化已经成为刑事犯罪的新态势之一，网络犯罪更是已经成为当今社会的热点问题。但是，由于网络犯罪具有犯罪地域跨度广、受害人数量众多且分散、法益侵犯的非接触性等特点，且不断呈现出明显的流窜化、团伙化、职业化、产业化、专业化、科技化等新态势、新变化，因此网络犯罪存在立案管辖难、侦查取证难、定罪量刑难、法律适用难、追赃控赃返赃难等打击难题。同时，语音在网络、通信等社交领域普遍存在，尤其在以“诈骗电话”为犯罪手段的电信网络诈骗案件中广泛存在。声纹技术在电信网络诈骗案件的取证中可以起到重要作用。声纹不仅可以提供侦查线索，也可以作为定罪量刑的依据。声纹检验鉴定具备证据的客观性、合法性和相关性的基本属性，具有证明力和证据能力的法定证据，能够对网络诈骗案件的犯罪事实起到证明作用并被法庭所接受，可以在一定程度上解决网络犯罪取证难等难题。另外，起获的电信网络诈骗“窝点”中出现的各种音频资料中所包含的案件信息有时可以用于证明犯罪团伙内部的组织架构、运行模式和社交关系，借以实现“深挖余罪”“深挖余犯”，有利于对呈集团化、产业化、职业化态势的网络诈骗犯罪产业链“一网打尽”“治标治本”，提高对电信网络诈骗犯罪的治理能力和治理水平。