声纹识别和语音识别技术在公安领域的应用

2021-03-07 04:23:08

网络安全技术与应用 2021年4期

（中国人民公安大学信息网络安全学院北京 100038）

1 引言

人类发声是一个复杂的生理物理过程，它受语言中枢和多个发声器官共同支配。由于个体发声器官尺寸和形态上的差异、大脑神经的生理构造的差异、发声人的心理状态以及其所处的外界语言环境的差异，使得每个人的声纹图谱独一无二，且在一段时间内个体的声学特征稳定且唯一。为此，在一般情况下，根据声纹或语音来识别、判断说话人身份的可行性较大。

随着人工智能、大数据、云计算等技术的飞速发展，声纹识别和语音识别技术的准确性、智能性、迅捷性得到了大幅提升。声纹识别和语音识别技术逐步产业化，其典型应用场景惠及公安司法领域、智能家居、医疗服务监控、远程办公、金融行业身份确认等。近年来，我国声纹和语音识别技术发展势头迅猛，声纹识别、语音合成、语音转换、语义理解等技术已达到世界领先水平。

声纹识别和语音识别技术发展证明了语音资料作为证据的真实性和有效性，在电信诈骗等非物理空间案件中侦破中发挥了巨大的作用，其在公安实战中的应用场景不断探索与拓展。

2 声纹识别和语音识别技术

2.2 声纹识别技术

声纹识别是把声信号转换成电声学仪器上显示的携带语言信息的声波频谱的电信号，可以视作说话人语音中所含特征的集合，具有个体内的相对稳定性和个体之间的差异性，因此声纹可以用于个体识别以及同一认定。在采集便利性和识别迅捷性上声纹识别技术相较指纹、虹膜、人脸等生物识别技术具备明显优势，仅需监控摄像头或执法记录仪等具备麦克风功能的设备，极大提高了远程采集的成功率及识别的准确性。声纹识别技术的发展应用主要包括声纹预处理[1]、声纹特征提取[2]和识别方法[3]三个阶段。

2.2.1 声纹预处理

声纹预处理的目的是将干净的没有杂质的语音从带有噪声的语音中分离提取出来，是声纹识别中极其重要的一部分。具体声纹预处理方法可分为：数字信号处理和机器学习两类。

2.2.2 声纹特征提取

声纹特征是指能体现说话人个性的特征信息，声学特征、词法特征、韵律特征、方言信息、通道信息等都可以用数学方法来进行表达[4]。在公安实战中多考虑说话人本身而不是设备信息，因此一般不考虑通道信息影响。采用深度学习算法训练海量语音数据，过程中综合采用分类和对比能量损失函数，自动抽象、归纳、总结语音信号中描述身份的特征。研究中较多使用线性预测系数[5]，数据降维则多考虑线性判别分析降维（LDA）[6]。特征提取技术具有较强的泛化能力，在跨信道、不同信噪比、较长时间跨度的情况下，声纹特征仍然表现出较好的稳定性。

2.2.3 声纹识别

作为声纹识别技术的压轴流程，声纹识别通过模型来判定说话人的身份，目前常用的方法：高斯混合通用背景模型（GMM-UBM）[7]、联合因子分析（JFA）[8]、神经网络等。

2.3 语音识别技术

除声纹识别技术外，在电信诈骗、链条式毒品制贩等案件中也会采用语音识别技术对嫌疑人通话内容进行翻译理解以识别出通话主题。语音识别技术[9]主要包括：语音合成[10]、语音识别[11]、语义理解[12]等。

2.3.1 语音合成

语音合成方法主要有拼接法[13]和参数法[14]。拼接法最大限度保留了说话人的原始音色，保留了语义的自然度与清晰度。参数法通过数据构建模型，将文本特征转换为声学特征，声码器根据声学模型的输出重构语音波形[15]。从文本到语音（TTS）利用机器学习模型将给定文本转换成语音并加以输出，是语音合成技术的核心。

2.3.2 语音识别与语义理解

语音识别与语义理解都是基于内容处理语音，语音识别技术实现人机交互，将人的语音直接转换为相应的文本或命令[16]。语义作为数据是一种解释和逻辑表示，对应了物理空间中事物所代表的含义及含义间的关系。其中语义理解在公安领域应用的意义主要包含两方面：一是变换不同语义间的信息，二是进一步进行推理。

2.4 声纹和语音识别技术的实战能力分析

在公安业务应用中，利用声纹和语音识别技术，针对实时采集、历史采集的语音数据，提取其语音信息，再通过提取声纹模型、声纹建库、以声找人、以声定人、以语音定性等信息化手段比对鉴定，提升公安业务部门落地查证、情报挖掘、案件侦办、精准管控能力水平，为公共安全业务决策提供科学、有效的基础能力支撑。

2.4.1 声纹和语音采集

对于语音数据的采集主要包括两种：一是实时语音采集，二是历史语音采集。采集实时语音可通过讯（询）问、智能笔录等方式实现。双向讯问的方式适用于讯问室、信息采集室等环境，与电子笔录系统整合，实现高精度、高品质、基本信息自动关联多信道录音功能；智能分录系统适用于接处警等环境，与接处警工作站对接，实现报警人黑名单管理、报警人识别提醒等功能。历史语音采集包括电话语音与网络语音，大量的电话、网络历史语音能够用来对重点人员声纹建模。

2.4.2 声纹和语音比对

声纹比对在实际应用中主要有声纹确认（1:1），即在判定待检语音即假定身份人的语音；声纹辨认（1:N），即从大量声纹模型中找出这个语音属于哪个人的，或不属于本数据集。

在案件侦办方面，可通过比对声纹和语音信息，为案件侦查工作提供新的身份判别技术手段；在治安防控方面，声纹和语音比对可辅助身份查验与验证；同时声纹和语音比对技术也可应用在目标布控、触网报警、报警人身份识别、案件串并等方面。通过声纹强化串并案，助力犯罪证据收集、破案突破，为大数据分析提供新型支撑。

2.4.3 声纹和语音鉴定

声纹和语音鉴定需要实现同一性认定、真实性检验、语音降噪和微弱语音增强等技术应用。同一性认定是综合分析比对检材的声学特征与样本的声学特征，判断两者是否同一。其中检材一般为未知的涉案人，样本是被怀疑的已知身份的确定人，利用二者的声学特征进行身份鉴定。真实性检验是发现录音中是否存在剪辑点，鉴别数字化图谱对录音文件是否修改。大多数涉案语音文件都带有噪音，影响语音内容的听辨，语音降噪是把噪音降低、微弱语音增强，把过弱语音增强处理，提高信噪比，进而达到听辨要求。

3 声纹识别和语音识别在公安实战中的应用

3.1 公安工作中的应用现状

互联网技术的快速发展催生出各式各样的新型涉网犯罪，涉及语音材料的案件逐年攀升，以电信网络诈骗、网络涉恐涉毒等为代表的犯罪往往“只闻其声、不见其人”，对新时代公安机关反恐处突、侦查破案、治安防控带来了全新挑战。声纹识别和语音识别技术不仅为新型犯罪提供关键技术手段，同时还能够扩展到智慧警务新模式业务应用中。

兰州作为典型的资源型和发展中城市，曾经面临能源结构不合理，大气污染及其严重的典范，能够在非低碳试点城市的情况下，充分结合自身特点，实现发展与治污的平衡，不仅为中国，也为世界广大发展中国家城市提供了一个良好样本，成为中国城市低碳发展经验扩散的成功案例。

利用声纹和语音技术进行破案，是当前公安机关打击违法犯罪的重要技术手段之一，在确定案件性质、提供侦破思路、佐证其他证据、认定说话人身份等方面起重要作用。公安实战中运用语音材料的频率在不断增加，1963 年，日本警方通过分析语音材料成功侦破东京拐卖幼儿案是最早将语音识别技术应用到警务工作中。2019 年公安部牵头推广声纹识别技术，各地公安机关纷纷致力于在实战中发挥声纹信息的价值：如广东省公安机关通过采集声纹信息，主动发现涉诈线索；山东省公安机关采集和共享涉诈嫌疑人声纹信息，搭建诈骗语义模板，预警高危涉诈人员来电；湖北省公安机关建立声纹数据比对模型。“飓风14 号”案件就是使用声纹识别技术侦破电信诈骗案件的典型案例。该案件的侦破就是利用语音识别技术比对犯罪嫌疑人在即时通讯工具上留下的用于“工作”的语音数据与当地身份认证过的用于“生活”的语音数据，返回疑为同一人账号的对应关系，通过声纹比对定位嫌疑人身份信息，从而实施抓捕。

3.2 公安业务应用场景设计

目前，声纹识别和语音识别技术在提高公安业务处理效率，推动案件侦破能力，助力智能化警务模式的转变和发展发挥了一定的作用。本文根据公安业务特点设计以下应用场景，使声纹识别和语音识别技术进一步普惠公安业务应用。

（1）应用于智慧社区警务工作

“发案少、秩序好、社会稳定、群众满意”是智慧社区警务的发展目标。将声纹识别和语音识别技术应用于社区人口基础信息采集等工作，达到整合大量语音数据，丰富声纹库数据来源，完善智慧警务语音云平台的建设。面对大量的信息录入工作，囿于计算机操作水平分布差异，通过引入声纹识别和语音识别技术，自动识别完成信息录入、数据存储等工作，提高基层民警工作效率，同时构建起社区声纹数据库，丰富智慧社区平台数据源。

例如，装备便于携带的语音识别工具，民警可以迅速准确进行方言、外语与普通话的切换，更好进行情况了解、案件调查。在户籍信息、罚款缴费等服务部门引入智能语音机器人，通过语音识别引导办理相关业务，方便群众高效及时完成业务办理，实现智能警务服务模式，完善公安机关服务体系。

（2）采集、构建重点人员声纹库

通过收集海量已知身份的声纹信息建立声纹库，使用声纹识别和语音识别技术实现在声纹库中搜索比对相似声纹。将采集的语音存储至声纹库，按需分类，形成各种专属库，利用声纹库达到音频管理、以音找人、综合查询、统计分析等需求。

例如根据涉恐、涉政、吸毒等重点人员的声纹数据，建立相关数据库，集中储存、管理和应用其中的声纹数据。在日常办案过程中、重点区域和重大活动期间核查、采集相关人员信息的过程中，预警发现与数据库声纹信息相匹配的重点人员，进行事前预防。助力公安有效遏制与打击犯罪，降低犯罪率，维护社会安全稳定。

治安风险防控中，综合分析声纹信息，关注比对发现声音特征与数据库存储的声纹信息发现潜在的案件嫌疑人，从而预防和及时处置。

例如，在街面巡逻工作中，通过便携的语音采集识别设备进行身份确认，实现数据收集、声纹串并、声纹比对、声纹管理、综合查询等功能，实现语音数据的比对，确认目标身份，从而实现治安风险识别与实时预警，提升社会治安动态管控能力。

（4）应用于案件侦破工作

声纹识别和语音识别技术可以达到海量筛查的效果，将案件和涉案人员排列组合，通过多种排查方式，串并案件，提高办案效率。

例如，某些案件受案和侦查的初始阶段，公安机关可能仅掌握了一段语音信息作为线索，通过语音识别，提取嫌疑人的语音特征，判断说话人的身份，利用声纹库比对鉴定，对犯罪嫌疑人语音进行分析，刻画犯罪心理画像，提供破案线索。通过分析原始语音资料，确定案件性质为案件侦破提供方向。针对在逃人员可通过动态比对声纹信息库，追踪并关联相关团伙，结合定位系统及时进行报警和反馈，以便实施抓捕。

（5）应用于反电信诈骗案件侦破

电信诈骗犯罪分子主要是通过虚拟空间（如语音通话、短信、互联网等）对受害人实施远程诈骗，造成受害者的财产损失。针对这类案件，声纹识别和语音识别技术可充分发挥其技术优势。通过声纹识别和语音识别技术可以快速了解电信网络诈骗案件的诈骗剧本、被骗过程等案件基本事实，快速区分案件性质、案件类型和具体诈骗手段，及时采取针对性措施开展侦查工作，梳理案件侦破方向、节约案件侦查资源。通过对诈骗分子声纹识别，可以精准定位海量电话数据场景下的诈骗通话，快速发现有害诈骗信息。

例如，结合声纹识别、声纹聚类技术，利用采集标注的诈骗人有害话音集合，提取并存储此类人员的声纹特征，建立声纹库，新的通话接入时，经过声纹提取及声纹比对，可以实现目标通话中诈骗声纹的检出和发现。通过诈骗通话意图理解进行诈骗电话的精准分析，通过诈骗人声纹识别可以有效锁定诈骗人员[17]，通过对涉案的电信诈骗语音进行相似性对比，串并案件及时确定犯罪嫌疑人身份及犯罪团伙规模，为挽回受害者损失提供机会，为侦查破案提供线索、为案件诉讼提供证据。

（6）应用于案件证据证明

2012 年修订的《刑事诉讼法》将“视听资料、电子数据”规定为八种法定证据形式之一。语音材料属于“视听资料”，声纹鉴定则属于“鉴定意见”，明确了其具有证据效力。

语音识别和语音材料的司法鉴定可应用在：绑架案、敲诈案，告陷害、威胁恐吓、诽谤谩骂骚扰他人的案件；贪污、行贿、受贿等经济交往中的钱物、财产纠纷案；以及谎报火警、匪警等恶意扰乱机关办公秩序的案件等。在上述类型案件中，声纹可从整体上对声音进行固定和再现，以准确、客观、公正地恢复原始声音的真实情况，形象生动、直观全面地反映出案件事实，可称其为“会说话的证据”。

（7）应用于讯（询）问中

在讯（询）问中运用声纹识别和语音识别技术，结合视频监控技术，实时采集被讯（询）问人的声音数据、影像数据，使被讯（询）问人语言及情感更加的数据化、直观化、客观化，结合其语音、微表情、肢体动作等其他生理特征，交叉融合心理学、语言学等多门学科，分析被讯问人感情变化，及时掌握被讯问人的心理活动和情感走向，抓住其供述的薄弱点和漏洞，及时调整讯问方向，识破谎言进行突破从而更好获得线索和证据。

4 结论

智慧警务模式就是要充分发挥机器智能的基础作用，由人海战术转向人机智能交互。声纹和语音识别技术在智慧警务建设应用中具有特殊的价值。本文通过调研总结声纹和语音识别技术，分析公安实战中声纹和语音识别的技术要素，探究声纹和语音识别技术结合公安大数据在公安业务的应用场景、应用策略、以及应用前景。为了进一步实现声纹和语音技术在公安实战中的落地应用，建议通过建立全国或全省声纹数据库、将声纹信息系统与身份证系统及人脸识别系统等相结合的方式以期能够支撑服务公安大数据战略的落地实施，助推公安工作的质量变革、效率变革、动力变革。