AI在智慧城市建设中的新应用

2019-10-12 01:57:10徐建明

中国公共安全 2019年8期

□ 文/徐建明

智慧城市的发展中，视觉计算、海量视频监控的广泛应用，催生了AI人工智能抢先在智慧城市建设中公共安全领域形成全闭环，作为人工智能的先锋，生物识别技术由于技术研究的同源性和中国智慧城市的广泛样本量，也使得AI新贵企业从技术研究同源的师承脉络中不断演进，形成了人脸识别等生物识别技术的繁荣应用，而作为语音识别细分领域中的声纹识别也逐渐在智慧城市应用中扮演了人机交互的重要桥梁，并初步形成了和人脸识别一样开拓出智慧城市新市场，作为中国智慧城市的建设理念的践行者，行业内已经形成并达成智慧城市建设的三步并行的路线：“公共安全立体化、行业管理效率化、民生服务智慧化”。我们今天从AI赋能下的智慧城市深度应用中选取新贵垂直领域的AI赋能应用——声纹识别来阐述智慧城市中的AI赋能新应用的现状和发展应用。

声纹识别在公共安全领域的应用现状

生物特征是指每个个体所独有的、可以通过技术有效测量、甄别、鉴定与验证的某类生理上的特征或行为上的方式。从生物特征的来源进行区分，可初步分为两大类，一是生理特征，二是行为特征。生理特征通常指的是人脸、掌静脉、指纹、声纹、虹膜等；行为特征通常指的是笔迹、步态等。

生物特征识别技术就是利用各类传感与采集技术、深度学习等人工智能技术，通过对个人生理特征和行为特征进行计算，建立数学模型，并进行识别与区分的技术。

近年来，随着智慧城市建设的不断加速、以及人工智能技术的深度发展，越来越多的领域对生物特征识别技术产生了应用需求。而在各类生物特征识别技术中，智能语音类技术是应用得最广泛的技术之一。

智能语音类技术从应用广度来分，首屈一指的当属语音识别与声纹识别两大类。其中，语音识别技术主要是以计算机来识别语音描述的内容，并自动将语音内容转换为文字；声纹识别技术是通过对声音频谱等特征的全面分析，建立计算机对声音特征的描述，并基于此分辨声音的发出者的身份。两者原理上类似，都是通过对采集到的语音信号进行分析和处理，提取相应的特征或建立相应的模型，然后据此做出判断。但二者的根本目的，提取的特征、建立的模型是不一样的。

语音识别技术当前已广泛的运用在智慧城市的方方面面，例如地铁站的智能语音售票、运营商或银行的智能语音客服、智能手机上的语音输入法、各类语音助理与智能音箱等等，都运用了语音识别技术。

而声纹识别的应用领域则更加专业与细分，主要集中在公安、司法等需要利用声纹鉴定人员身份的领域中。现代语音同一认定（声纹鉴定）技术是随着语图仪（声谱仪）的发明而发展起来的。20世纪40年代初期，美国贝尔实验室发明了声谱仪，这个仪器是一个动态声波分析仪，通过对语音信号的时间、频率和强度（t-f-a）三种参数的实时分析，产生一个连续可视的语音频谱。当时在贝尔实验室工作的物理学家波特（Potter）等人开始研究利用声谱仪来分析语音。

最早进行语音同一认定（声纹识别的主要分支）研究的是美国的克斯塔（L·G·Kersta）。他于1962年研究并发表了名为《声纹鉴定》（Voiceprint Identification）的研究报告。他对123名健康美国人的“I，You，It”等声样的25000个声纹图进行了50000多项分析，实验准确率为97%-99.65%。

而在我国，早在上世纪80年代末就已由上世纪八十年代末，中国刑警学院文检系和公安部物证鉴定中心先后引进相关仪器设备并分别建立了声纹鉴定实验室，并进一步成立了声纹鉴定研究课题组，开展了声纹鉴定技术的研究工作。到现在，在全国各地公安机关的多年共同努力下，针对汉语这一世界最大语种独有的特点与规律，已然总结出一套科学的鉴定与甄别方法，声纹识别已成为公共安全领域鉴定人员身份的主要手段之一。

声纹识别在公共安全领域的应用特征与变化

传统的声纹识别的主要应用一是在民事纠纷、刑事案件等诉讼环节，针对各类录音文件鉴定其身份，是各类案件的侦办、审理环节确认嫌疑人身份及证据真伪的主要手段之一；二是应用在智能手机助理、智能音箱、智能客服等生活服务场景，用于识别用户身份，并提供针对性的服务。

在公共安全领域，随着互联网的高速发展，新型犯罪手段层出不穷，非接触式、跨地域、大型组织、高度分工等特点，均是新型犯罪的主要特点，以最为典型的电信诈骗为例，犯罪团伙往往是多层级单线联系、跨省甚至跨国作案、与被害人零接触。这类案件靠传统的接触式侦查手段往往难以为继，需要更高实时性的技术手段予以支持，是对案件侦破工作提出的新挑战，也正是AI赋能下的声纹识别技术所擅长的领域。

在这种背景下，声纹识别在公共安全领域的应用特征与变化主要有如下几点：

由离线应用向在线实时应用转变

近年来，随着人工智能，深度学习，大数据分析等技术的发展，配合国家现有的指纹库和人脸库等成熟的生物特征库，业内已经逐步研发出不少切合实战需求的声纹应用系统。

其主要的应用场景是为非接触性犯罪案件侦破提供高效准确的侦查手段——在电信诈骗、恐吓勒索等虚拟空间的犯罪案件里，犯罪分子与被害人接触会比较少，所以声音成为了最主要的破案线索，这类场景需要在线对特定场所采集的声音，与涉诈骗人员库等专题库进行实时比对，以期及时发现身份可疑人员，提高侦查效能。

由1对1验证向大规模数据比对转变

传统的声纹识别应用场景多为认定，即判断指定的声音是否由某个特定的人发出的，然而随着大数据、深度学习技术的发展，技术上已能支撑大体量声纹库的建立，并实现声纹数据的大规模检索与比对，协助公安机关快速确认掌握的声音线索的身份。

由单一声纹应用向多维数据碰撞比对转变

声纹识别的应用已为公安打击虚拟空间犯罪提供了一种行之有效的技术手段，可进一步配合已有的人脸识别、指纹识别等生物特征识别技术，现实空间和虚拟空间相结合，更全面的刻画犯罪嫌疑人的全息画像，对犯罪行为进行多角度、多方位的监控和打击，保卫国家和社会的安全。

声纹识别在公共安全领域的应用瓶颈与问题

声纹识别在公共安全领域的主要应用瓶颈与问题如下：

语音的时变性对声纹识别的影响

从根本上说，语音的个体稳定性主要是由语音的生理基础决定的。当一个人的发音器官发育成熟以后，他的呼吸器官、喉系统和共鸣腔的生理结构及其机能就进入一个相对稳定的状态，这就是声纹识别的生理基础。但是，声音的稳定性较人脸、指纹等生物特征相比，其稳定性相对较差，变声期、病变、外伤、录音条件不同、言语环境不同等因素都会使一个人的声音产生变化，使其稳定性减弱，而一种生物特征的广泛应用却要求在稳定性、差异性和反映性上均达到较高水平。因此，在公共安全这类严谨的应用领域，语音特征通常是作为认定嫌疑人（或当事人）的参考依据（特殊情况下可作为倾向认定的依据），但通常不能轻易作为否定依据。只有在特征的特异性较强且稳定并确认无伪装变化的情况下，才可直接用来否定嫌疑人（或当事人）。

跨信道采集对声纹识别的影响

声音的来源渠道多种多样，例如录音笔、电话、VOIP、拾音器等等，不同的采集渠道也会采用不同的音频编解码模式，模数转换的过程或多或少会造成声音的损伤。这就对声纹识别时候的特征建模提出了更高的要求，需要综合考虑并屏蔽因采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长等各种环境因素造成的影响，从当前业界实践来看，声纹识别也和其他识别一样，也向着深度学习的方向发展。

录音攻击、TTS等技术对声纹识别的影响

声音是最容易被伪造的生物特征之一，在当前技术水平下，录音剪辑、TTS等技术手段形成的录音片段，几乎可达到以假乱真的程度，可见，在声纹识别时候必须考虑到上述因素。

在应用时，业界通常会引入防录音攻击算法、活体检测算法等技术，用以屏蔽技术手段对识别准确性的干扰。

构建声纹识别大数据平台，实现公共安全领域深度应用

应用需求

当前，公安机关针对各类虚拟空间犯罪（例如电信诈骗、恐吓勒索等）的侦破，除了依靠追踪银行流水与电信话单外，有针对性的通过各种技术手段获取的通话录音、监听录音等音频线索也是重要的破案途径，但是单纯通过人工监听与甄别，既难以准确识别出犯罪嫌疑人，也难以将犯罪嫌疑人历史积案进行串并，公安机关迫切需要新的技术手段，以在在海量音频中挖掘线索、识别嫌疑人身份，甚至进一步建立事前主动出击、主动预防的能力。

应用目标

声纹识别大数据平台的建设，为上述问题的有效解决提供了一种新的技术手段。

声纹识别大数据平台是参照非接触式犯罪打击的业务需求与业务流程，专门针对多源异构的海量音频数据开发的大数据实战应用平台，通过实现声音数据的汇聚接入、优化治理、建库比对、声纹核验、声纹聚类等一系列功能，可满足声纹实战中线索排查、身份核验、类案串并等多方面应用需求，为更快的破大案，更多的破小案服务。

总体架构

典型的声纹识别大数据平台架构如上图所示，分为数据源、数据处理层、支撑服务层与应用层四部分。

在数据源的接入上，平台支持从网络通信、电话信道、录音设备和声纹采集设备等多种类型的数据源接入实时音频流或离线文件，最大限度扩展声音的来源。

在数据处理层，平台需对接入的各种类型音频文件进行汇聚与处理，包括数据接入网关、数据转储网关、算法引擎、管理控制台4部分。在此层次，需对接入的各类数据进行质量检测，过滤不符合声纹识别标准的低质量数据，对符合声纹识别标准的数据进行声纹特征提取，将非结构化数据变为计算机可识别的结构化数据。

在支撑服务层，主要是通过接入数据处理层的数据，为上层应用提供可扩展的声纹布控服务、声纹静态大库检索服务、声纹动态库检索服务、消息服务、文件存储、高速缓存服务、关系型数据库、大数据分析、弹性搜索、地图服务等一系列支撑服务与应用服务，支持各类声纹业务应用及大数据计算需要。

声纹识别大数据平台的典型部署架构如下图所示，包括数据接入网关服务器、特征提取主机、声纹动态布控服务器、声纹静态大库检索服务器、声纹动态检索服务、大数据服务器及应用支撑服务器。根据公安机关的实战需求，平台还需支持单网与双网部署模式。

平台功能与典型应用场景

声纹识别大数据平台具备声音数据的汇聚接入、优化治理、建库比对、声纹核验、声纹聚类等一系列功能，在公安机关的非接触式案件的侦查与研判上，具有广泛的应用场景，比较典型的应用模式如下：

线索排查场景。通过平台的声纹检索功能，可在海量声纹库中检索与输入的声音信息为同一身份的记录。该功能需要公安机关建立专题声纹库（如涉诈人员声纹库等），并根据业务需求进行标签标注，当获取到新的声纹线索时，通过声纹检索功能可快速确认发出声音的人员的身份。

身份核验场景。通过平台的声纹1：1核验功能，可实现基于声音的身份验证与鉴定，即通过对输入的2个声音来源进行特征提取，并比对两个特征的相似度，当相似度大于一定的阈值时，可判定2段声音为同一人发出。为进一步提高准确性，可引入多厂家、多版本的声纹识别算法，当多个算法均认为是同一人时，即可较为准确的判定。

该场景可有效协助公安机关在审讯时候快速认定犯罪嫌疑人的声音。

类案串并场景。平台支持针对每个案件建立档案，存储涉案声纹线索信息，并定期自动将涉案声纹进行比对，若多个涉案声纹记录由算法判定为同一人所发出，则可进行类案串并。该功能可协助公安机关扩大战果，提升打击效能。

声纹布控告警场景。在能获取实时声音数据的应用场景中，可进一步实现基于声音信息的布控告警功能，协助公安机关快速预警目标人员声音出现，以及时做出响应。

人员声纹画像场景。利用平台的声纹聚类功能，可实现基于声音信息的重点关注人员一人一档。该档案一方面可协助公安机关不断积累重点关注人员的声音信息，另一方面可利用大数据技术，结合声音采集的时间、地点等信息，进一步分析挖掘该人员的行为特征与业务特征，实现声纹大数据画像。

声纹识别在公共安全领域的应用前景与趋势

声纹识别具有采集简便、识别准确、难以伪造等众多优势，且对用户干涉较少，更易嵌入各类应用场景中得到接受。在全球范围内，声纹识别技术正广泛应用于身份验证、记录比对等场景。

随着技术的发展与算力的提升，如今的安全主管部门也在更多地引入这一技术进行犯罪活动的打击，例如，在高铁站、火车站、长途汽车站、飞机场等一场三站场景，通过声纹识别技术、结合人脸等生物特征识别技术，对乘客身份进行精准识别，可以有效实现人员管控；通过声纹布控告警等技术对非接触式犯罪进行远程网上侦查与打击，也能更有效的提升安全主管部门的作战能力。

结语

时至今日，声纹识别技术已经从实验室逐步走向各类实际应用场景中，处于大规模爆发性应用的前期，随着声纹识别的准确率继续增高、使用限制的不断减少，因其低侵入、无接触等特点，在将来必定会在更多行业、更多场景中得到更为广泛的应用。