电信诈骗是指犯罪分子通过电话、短信和网络方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人给犯罪分子打款或转账的犯罪行为[1]。近几年,随着移动互联网的迅速发展,利用电信网络高科技手段实施犯罪行为呈逐年增长态势。2011年全国电信诈骗案发10万起,到2012年增至17万,再到2013年案发30万起,年增长率超过70%,而到2014年全国电信诈骗案发高达40万起[2]。根据《腾讯2016年第二季度反电信网络诈骗大数据报告》分析结果,电话诈骗从涉案金额上,已经超过网络诈骗和短信诈骗,成为案值最高的电信诈骗类型。其中,仿冒公检法、仿冒熟人领导、仿冒客服三类诈骗涉案金额占电话诈骗总金额分别为23%、13%、12%,仅此三类电话诈骗类型造成的损失金额已接近整个电话诈骗的一半[3,4]。
电信诈骗主要呈现集团作案、作案手段更新快、高科技技术应用等特点[5],并且灵活运用短信、微信、QQ、网络电话、GOIP等技术,甚至是模仿跨国电信诈骗团伙惯用犯罪手段,使得诈骗可以在短时间内广泛蔓延并迅速造成难以估量的损失[6]。
目前,国内外在对抗电信诈骗中的研究主要通过分析用户通信行为、人工归纳规则来实现诈骗电话检测[7]。Mohamed等提出一种基于反向传播神经网络的诈骗电话检测模型,基于本地通信信息服务的电信插值,将20 000个样本随机分成训练样本和测试样本,用于分析反向传播神经网络性能[8]。Subudhi 等基于欺诈电话数据,从呼叫持续时间、呼叫类型、呼叫频率、呼叫位置等维度,利用支持向量机(SVM)分类器对用户的欺诈行为进行建模,并利用超球面支持向量机算法改进模型性能,降低错误检出率[9];国内大连海事学院的刘道宏等,从通话话单中构造欺诈用户数和非欺诈用户数的训练集,利用决策树分类算法构建诈骗预测模型,但该模型对诈骗电话识别性能有待进一步研究[10]。浙江警察学院周国民等,基于用户历史通话CDR话单,从通话时间、通话间隔、同一对象通话次数、通话周期等维度,分析诈骗用户特征,为后续诈骗电话识别模型的构建提供了可行的思路[11]。湖南大学王丹阳,针对响铃一声挂断这一类型诈骗电话,利用改进的贝叶斯算法筛选此类数据,再结合聚类挖掘技术建立诈骗电话识别模型[12]。中国电信广东研究院张慧嫦等研究一种基于信令数据的诈骗电话行为检测机制[13]。从诈骗电话业务特征中提取出识别模型的参数,利用人工归纳规则的方法建立模型。
从当前国内外研究来看,一方面,对电信诈骗尤其是电话诈骗的研究集中在用户通话行为分析及归纳上,需要大量的专家经验积累,且在诈骗手段快速更新、诈骗号码任意改号等场景中应用时,效果将难以保证。另一方面,对诈骗人自身以及诈骗套路特征的研究还有待进一步探索。
通过诈骗通话意图理解进行诈骗电话的精准分析,通过诈骗人声纹识别可以有效锁定诈骗人员,因此,本研究以诈骗人员和诈骗内容入手,创新性的基于智能语音技术,针对诈骗人声纹识别和诈骗通话意图理解进行诈骗电话的精准挖掘预警,探索诈骗人电话诈骗有效检测方法。
声纹同人脸、虹膜、指纹、DNA、静脉并称生物六大特征,本身具有唯一性。声纹识别技术,又称说话人识别技术(Speaker Recognition),是通过提取语音信号中代表不同说话人身份的相关固有特征,识别出说话人身份等方面的技术。由于声纹特征反应的是说话人的生理和行为特征,因而声纹是和说话人绑定紧密的生物识别技术,和说话人使用何种语种方言、语音内容无关的。声纹识别系统主要由声纹识别和声纹注册两大部分组成。
声纹注册指针对经编辑处理后仅包含有目标对象语音的数据进行语音检出、语音参数提取及声纹注册等模块的处理,最终获得当前注册语音所对应的声纹模型。当前声纹注册主要有手动精标注册、系统辅助注册、声纹自动建库三种方式。
(1)手动精标注册
对于诈骗人语音注册样本,通过新建人员信息,导入诈骗人电话信道语音。针对诈骗人电话信道的语音进行语音预处理、说话人分离,当语音经过预处理并经过质量检测之后,将电话信道的语音通过引擎标注的语音粗标结果,再通过手动精标过程,将符合注册条件的标注结果送入到系统中,并直接调用声纹注册引擎,将符合声纹注册标准的音频与注册成功的声纹存入数据库,实现诈骗人数据声纹注册和分类建库。
对合路语音系统无法分辨目标对象是哪一面,通过人工听音标注确认目标对象语音;针对小于3条的分路语音,通过手动精标选取合适目标对象片段语音。
(2)系统辅助注册
对于诈骗人语音注册样本,通过新建人员信息,导入诈骗人电话信道语音,系统自动对诈骗人的语音系统进行语音预处理、说话人分离以及声纹自动聚类技术,采用系统注册和人工辅助确认形成声纹模型的过程,将符合声纹注册标准的音频与声纹存入数据库,实现数据声纹注册和分类建库。
针对3条以上未标注的一个或多个说话人的分路语音(明确这些数据中目标对象有效语音量最多),系统通过自动聚类算法形成语音量最多的说话人声纹。
(3)声纹自动建库
在声纹自动建库过程中,利用语音预处理,声纹自动提取、声纹自动聚类和声纹自动建库技术,结合声纹特点、声纹质量和其他信息资源,实现自动生成声纹样本、声纹更新和变化检测体系化过程。支持声纹质量自动评估以及样本听音和人工更新能力。相对于传统人工注册方式,声纹自动建库能力更加高效、简单,适用于语音业务能力不高、海量号码自动建库等多种场景,以号码或者唯一ID进行声纹自动建库。
声纹识别指对一个输入数据,依次进行语音检出、语音分离、语音参数提取、声纹识别、得分规整等模块处理。
声纹识别流程如图1所示,通过积累目标对象语音,构建目标对象声纹库,用于识别待检测语音数据中是否存在目标对象语音,从而达到发现目标对象目的。
图1 声纹识别流程示意图
声纹识别主要由以下几个模块组成:
(1)语音分离模块:针对输入的整段未知语音,首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、音乐、背景噪音等现象进行自动判别及归类,再进一步针对不同说话人进行聚类,为后续的语音识别做好准备。
(2)前端特征提取模块:针对分离后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,例如常用的MFCC/PLP特征,并针对信道等因素进行RSATA、CMN等规整。
(3)说话人模板提取:对于提取好的目标人特征,采用目前最主流的本征信道因子分析、联合因子分析方法提取目标说话人模板。
(4)声纹识别引擎:针对电信语音数据中存在的跨信道情况,声纹识别引擎采用最先进的因子分析技术。
(5)得分规整:为了使不同目标人、不同信道下的得分可比,采用ZNORM和TNORM等技术对得分进行规整处理,并结合使用合作伙伴提出的INORM得分规整技术。
(6)结果处理:对海量待筛选数据与说话人模板的比较后的得分,通过阈值判断、得分排序后给出识别结果。对得分的高的数据进行预警,同时报出确认结果中出现的新号码。
通过对诈骗分子声纹的研究,可以精准定位海量电话数据场景下的诈骗通话,快速发现有害诈骗信息。具体过程如下:结合声纹识别、声纹聚类技术,利用采集标注的诈骗人有害话音集合,提取并存储此类人员的声纹特征,建立声纹库,新的通话接入时,经过声纹提取及声纹比对,可以实现目标通话中诈骗声纹的检出和发现,如图2所示。
图2 基于声纹识别电话诈骗检测示意图
取声纹识别线上一个月的预警效果数据,累计预警46 041条,平均每天产生有效预警约1 485条,平均预警准确率可达98.53%,精准度高,可满足公安防范劝阻实战应用,如表1所示。
意图理解技术主要对通话内容进行语义理解,从而识别通话主题。意图理解主要由智能语音识别技术、语义理解技术两大部分组成。
本文中,研究并综合利用循环神经网络(RNN)以及长短时记忆(LSTM)神经网络,实现对声学信息的建模,最终完成将语音转成文字的目标。智能语音识别技术流程如图3所示,主要包含以下八个模块:
表1 声纹识别近一个月预警效果
图3 智能语音识别技术框图
(1)语音分割模块:针对输入的整段未知电话语音,通用的做法首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始电话语音中的人声、非语音、音乐、背景噪音等现象进行自动判别及归类,再进一步针对不同说话人进行聚类,为后续的语音识别做好准备。
(2)前端特征提取模块:针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,例如常用的MFCC/PLP特征,对于带调的中文语音识别还需提取Pitch等特征,并针对信道等因素进行初步的CMN/MSVN等规整。
(3)区分性特征提取:除了使用传统的MFCC等谱特征以外,基于神经网络的TANDEM区分性特征是当今语音识别系统中的热点之一,可以对传统仅基于谱特征的语音识别性能起到很好的补充作用。
(4)特征规整模块:为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的语音内容信息,主流的特征域处理方式包括VTLN、HLDA、特征域SAT等技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人语音内容信息被去除的声学特征。
(5)多遍解码框架:为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率等因素,使用如上图所示的多编解码技术框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势。
(6)声学模型训练:为了配合上述多遍解码框架和各特征域技术点的加入,需训练对应的声学模型,并相应加入当前主流语音识别系统中的关键技术点区分性训练以持续提高识别性能,在此过程中对区分性训练的准则和参数优化算法进行研究。除此之外,如果针对海量训练数据(包括有监督的和非监督的)不断提升训练效率,并在声学模型中充分发挥海量数据对说话人、口音、方言等的覆盖效果,也是本次训练的重点。
(7)语言模型训练:基于海量且话题广泛的文本数据进行超大规模语言模型训练,并进行语言模型区分性训练以及基于类别的语言模型自适应研究。
(8)置信度判决:连续语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率(WPP)等技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识。
本文研究基于深度学习的语义理解技术,采用多知识源特征对转写关键词进行置信度重估,并采用Word Embedding技术计算每个词的词向量,同时将关键词的置信度作为该词的权重对所有词的词向量进行加权平均,得到整个文本文件的词向量表示;最后,利用利用分类算法计算转写后文本与用户兴趣模型的相关度,得到最终的相关度得分并按照该得分对原始语音文件进行排序,对文件得分划定阈值,得到原始语音文件的重要性级别,将最终的语音排序结果和级别信息推荐给用户,实现面向电话场景的语音意图的理解识别与推荐。
传统的文本分类方法有关键词匹配、规则文法、神经网络等,其中关键词匹配、规则文法依赖人工经验归纳规则从而构建模型;基于神经网络(如LSTM、CNN)的文本分类属于深度学习方法的应用研究。
3.2.1 基于组合关键词匹配的文本意图研究
在文本意图分类中,通常是通过精确关键词匹配来达到分类的目的。本文中对精确关键词匹配技术进行扩充,不仅仅通过单个关键词进行匹配,而且通过定义组合关键词,以及在组合关键词上进行多种模式的匹配来实现文本意图分类。假设要识别文本意图类别A,目前用到的匹配模式共有:
(1)与类别A正相关的组合关键词
每一组关键词都定义了多个关键词,匹配时,如果该组关键词都能被命中,则认为正向匹配度加1;
(2)单个正相关关键词,设定最少命中次数限制
每个单独的关键词,都设定最少命中次数,只有当输入文本中含有该关键词的次数超过最少命中次数时,正向匹配度加1;
共回收101份问卷,在课堂形式有趣、提高自主学习能力、增强逻辑思维能力、提高临床问题解决能力,提高临床阅片技能,提高沟通协作能力等6个方面,A组(教改组)学生认为受益程度均高于B组(对照组),差异具有统计学意义(P<0.05),两组全面的掌握知识方面比较,差异无统计学意义(P>0.05),见表2所示。
(3)负相关组合关键词
每一组定义多个不同关键词,同时设定在进行该组关键词匹配时,需要同时命中的关键词数量,当命中数不超过定义的关键词数,负向匹配度加1;
最终根据正向匹配度和负向匹配度得分联合进行A意图类别的归属判别决策。整个过程如图4所示:
图4 意图A关键词判别过程
3.2.2 基于规则文法的文本意图研究
文法的作用等同于正则表达式,每一个文法规则都定义了一个句子集合。在文本意图研究中,通过将定义的分类目标分解为小的目标点,分别针对每个目标任务定义多个文法,用来匹配输入,同时结合抽取的实体要素和关系等信息,通过统计匹配上的不同类别下的目标点的情况来决策是否属于某个定义的意图分类类别,基于规则文法进行意图分类的整体过程,如图5所示。
图5 文法判别过程
3.2.3 基于神经网络的文本意图研究
基于神经网络的文本意图研究,主要利用卷积神经网络(CNN)及长短时记忆网络(LSTM)两种分类模型。典型的卷积神经网络(CNN)文本分类模型,如图6所示。
图6 CNN文本分类结构
CNN文本分类结构如下四个部分:
(1)输入层:输入层是句子中的词语对应的词向量(word vector)依次(从上到下)排列的矩阵,假设句子有n个词,vector的维数为k,那么这个矩阵就是n×k的(在CNN中可以看作高度为n、宽度为k的图像)。这个矩阵的类型可以是静态的(static),即word vector是固定不变,也可以是动态的(non static),动态则是在模型训练过程中,word vector也当做是可优化的参数。
(2)卷积层:输入层通过卷积操作得到若干个Feature Map,卷积窗口的大小为 h×k ,其中h表示纵向词语的个数,而k表示word vector的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map。
(3)池化层:池化层用Max-over-time Pooling的方法,简单地从之前一维的Feature Map中提出最大的值。这种Pooling方式可以解决可变长度的句子输入问题,即不管Feature Map中有多少个值,只需要提取其中的最大值。最终池化层的输出为各个Feature Map的最大值,即一个一维的向量。
(4)全连接+softmax层:池化层的一维向量通过全连接的方式,连接一个Softmax层,Softmax层可根据任务的需要设置,通常反映着最终类别上的概率分布。
而LSTM模型作为一种特殊的循环神经网络(RNN)结构,可以用来处理序列数据。RNN网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。LSTM网络作为RNN的一种延伸,可以更好地利用文本中的词序信息,文本分类中常用的LSTM网络如图7所示。
文本中的n+1个词依次通过LSTM后,得到相应的n+1个隐层神经元向量将这些隐层向量求平均(mean pooling),即得到整个文本的分布式特征表示,然后紧接着是一个简单的逻辑回归层,得到一个类别分布概率。除了mean pooling,也可以使用max pooling,或者两者同时使用并将两者得到的h相拼接。
本文拟结合关键词匹配、规则文法、神经网络三种方法进行电话诈骗意图识别。结合已有的和采集标注的业务数据,提取各类诈骗话音的语义特征,建立诈骗话音语料的语言模型和语义模型,实现有害诈骗电话的检测,实现过程如图8所示。
图8 基于意图理解的诈骗电话检测示意图
取意图理解线上一个月的预警效果数据,累计预警18 036条,平均每天产生有效预警约580条,平均预警准确率可达96.94%,精准度高,可满足公安防范劝阻实战应用。如表2所示。
随着移动互联网技术的发展,电信诈骗带来的危害和影响日益严重。电话诈骗作为电信诈骗的子类型,案发数量、涉案金额均占据非常高的比重,目前基于此方向的研究仍然处于起步阶段,为此,本文分别从诈骗用户自身的固有特征和诈骗主题内容出发,研究有效的诈骗电话检测方法,并落地实战应用。后续研究将继续深入分析诈骗电话特征,建立覆盖度更完整的诈骗检测机制,为防范和打击电信诈骗提供更加有力的技术参考。
表2 意图理解近一个月预警效果
随着电话诈骗剧本套路的不断变化,下一步将深入研究模型的自适应训练技术,不断更新诈骗意图理解模型,并持续构建诈骗分子声纹库。同时,电话、短信、网络多手段融合诈骗趋势明显,需深入研究多源数据融合分析实现电信类诈骗线索的预警分析,以保卫人民群众的财产安全和合法权益,维护社会诚信和社会秩序。