基于语音话单分析的骚扰电话识别技术研究

2022-01-21 01:11
信息通信技术 2021年6期
关键词:骚扰电话号码运营商

李 正 陶 冶

1 中国电子信息产业集团有限公司第六研究所 北京 100083

2 中国联通研究院 北京 100176

引言

依据《全国人大常委会关于加强网络信息保护的决定》《电信条例》等法律法规,骚扰电话被定义为:未经电话(包括固定电话、移动电话或者其他移动通信终端等)持有者同意或者请求,或者电话持有者明确表示拒绝,以拨打等方式向其发送商业性电子信息或其它违法犯罪信息的行为,主要包括响一声电话、诈骗电话、中介推销电话等。

随着产业链重心迁移与运营商大力度治理,垃圾短信问题开始降温,骚扰电话问题愈演愈烈。可信号码数据中心发布的《2020年骚扰电话形势分析报告》显示,2020年用户号码标记总量达15.07亿次,较2019年增长了19.44%左右[1]。骚扰电话与社会工程学、透传等新技术相结合,不仅严重影响了人们的日常生活,而且给人们带来巨大的经济损失。公安部最新数据显示,2020年电信诈骗致财产损失达353.7亿元[2],较2018年增长了59.3%[3]。

骚扰电话对社会公正、国计民生产生的严重影响,使得骚扰电话问题已经上升为社会问题和国家安全问题。国家高度重视,将骚扰电话治理作为两会提案焦点之一,并相继开展了数个专项治理行动。2018年7月至2019年12月,13部委联合开展综合整治骚扰电话专项行动[4]。2020年8月,中央文明委集中开展电信网络诈骗专项治理行动[5]。

骚扰电话不仅严重影响了运营商的品牌形象,而且使运营商面临严峻的法律风险和监管压力。央视3·15连年曝光电信欺诈问题,运营商被指不作为或为幕后推手。2015年,深圳、广州两例运营商赔付案件中,深圳移动、广州电信分别赔偿受害人8.8万元[6](占损失的20%)、1万元[7],为受害人提供了新的赔偿路径。2020年1月14日,公安部部长赵克志在全国打击治理电信网络新型违法犯罪工作电视电话会议上要求,进一步压实各部门主体责任,推动形成齐抓共管、综合治理的工作格局,着力提升打击治理能力,坚决遏制电信网络新型违法犯罪的多发高发势头[8]。

运营商迫切需要治理骚扰电话。骚扰电话治理不仅可以使运营商减少用户投诉,提升用户感知,履行国企社会责任,进一步提升运营商品牌形象,而且运营商能够通过净化语音网络空间,保障通信网络的可管、可控。

再进一步,运营商可以借助骚扰电话治理示范信息生活创新服务。围绕骚扰号码资源,创新合作发展,产业合作共享,实现双赢,打造电信防欺诈生态圈,提升客户体验,改善客户口碑,同时推动商业模式创新,向金融、电商等行业提供安全服务。

1 研究现状

骚扰电话治理是继垃圾短信之后又一信息安全挑战。骚扰电话黑色产业链完善,拨打工具成熟,投入少、回报高,准入门槛低,拨打技术和方式持续演进。而骚扰电话治理难度大,技术门槛高。骚扰电话攻易守难的特点,使得攻守双方的投入严重失衡。

目前,骚扰电话治理主要借助众标众享和信令分析两种技术方式完成。

1.1 互联网企业

互联网企业主要通过众标众享的方式治理骚扰电话。众标,即用户通过移动客户端主动标注骚扰电话,客户端将标注上传服务器;众享,即服务器收集统计标注的骚扰电话,向使用移动客户端的用户提示骚扰电话标注次数。但在使用移动客户端的用户中,能够主动标注骚扰电话的用户仅占20%;且在被标注的骚扰电话中,号码申诉率高达30%。由此可见,互联网企业治理骚扰电话的价值不在于单个号码标注的准确性,而在于整体经过标注的码号资源及其衍生的增值服务。

事实上,通过众标众享方式识别骚扰电话依然会存在许多不足之处:

1)仅以标注作为判别依据,判别依据单一,判别粒度粗,缺乏差异化。

2)用户主观标注,标注随意,难以形成统一的标注标准,公众号码准确,个人号码申诉率高。

3)一般标注数量达到一定的阈值才被认为是骚扰电话,识别出骚扰电话的时间相对滞后。

4)对于苹果终端,通过将骚扰号码暴力插入通讯录的方式进行来电提醒,用户体验差。

1.2 中国移动

中国移动是最早开展骚扰电话治理工作的国内运营商,其综合运用信令分析和众标众享两种方式治理骚扰电话。

1)在网络侧拦截响一声电话、诈骗电话和虚假主叫

中国移动在洛阳建立骚扰电话集中处置平台,采集各省智能网或交换机上疑似骚扰电话的信令,通过信令分析识别骚扰电话;各省通过黑名单拦截响一声电话。

中国移动在浙江等省分别建立国际诈骗电话拦截系统,拦截国际接入的虚假主叫电话。

2019年,中国移动共拦截国际诈骗电话1016万次、垃圾短彩信48.1亿条[9]、“呼死你”电话17.6亿次[10]。

2)在终端侧提示中介推销电话、快递送餐电话和黄页电话

中国移动与搜狗、恒安嘉新等厂商合作,获取第三方骚扰号码库,结合多个自有客户端产品,以众标模式治理骚扰电话,比如江苏移动与恒安嘉新合作研发“移动手机卫士”、南方基地与搜狗合作“和通讯录”等。其在云端服务器设有号码管理系统,具有号码仲裁和分析能力,以此进行号码库的维护。

北京移动与360合作基于彩印的骚扰电话提醒业务,2015年4月进入商用阶段[11]。

1.3 中国联通

中国联通目前主要通过众标众享的方式治理骚扰电话。一方面与互联网厂商“电话邦”合作,将其骚扰电话识别功能集成在“联通营业厅”Android客户端中,向用户提供骚扰电话提醒及拦截服务。另一方面,与搜狗、百度等厂商共同合作基于闪信的骚扰电话提醒业务,已在全国部署上线。

1.4 对比分析

运营商开展骚扰电话治理工作主要可以使用两种技术模式。一种是直接集成互联网企业等第三方的骚扰号码资源,另一种是借助自身电信资源优势,使用数据分析平台。本文对两种工作模式进行了对比分析,如表1所示。

表1 工作技术模式对比

通过对比可以看出,运营商借助电信资源优势,使用数据分析平台治理骚扰电话优选于直接集成互联网企业等第三方的骚扰号码资源。

2 基于语音话单分析的骚扰电话识别模型及验证

本文基于某运营商现网的话单数据展开研究,采用机器学习技术,提出一种基于语音话单分析的骚扰电话识别模型,并对模型进行了验证。

2.1 模型建立

2.1.1 基本思路

1)前提假设:使用互联网标注数据作为样本,其对骚扰号码的标注是可信的。

2)分析过程:①互联网未标注号码未必不是骚扰电话,即互联网未标注数据不完全可信,不宜作为样本。因此,训练样本仅包含骚扰号码数据,无正常号码数据。但在测试样本中,既有骚扰号码数据,也有正常号码数据。所以,对于测试样本的标注,不能使用分类算法。②训练样本中,互联网对骚扰电话数据进行了诈骗、广告推销、房产中介、快递、送餐等进一步标注。所以,当测试样本为骚扰号码数据时,可以使用分类算法进行二次标注。

通过上述分析可以得出,首先通过聚类算法对训练样本进行学习分析,然后使用相似性检测对测试样本进行一次标注,最后在一次标注的基础上使用分类算法对测试样本进行二次标注。

2.1.2 模型设计

2.1.2.1 一次标注模型

1)学习阶段

①使用皮尔逊相关系数对训练样本进行相关性检测,确定学习指标,通常选取主叫次数、主叫占比、被叫不重复率、平均通话时长、位置区码(LAC)不同个数五个指标。②对训练样本使用标准差标准化(Z-score)公式进行归一化处理,其中为均值,为标准差。③使用最大期望算法(EM)找到训练样本的最佳聚类个数,并建立高斯混合模型(GMM),其中为第个高斯的权重,为第个高斯的概率密度,得到个均值和标准差。

2)预测阶段

①对测试样本使用标准差标准化公式进行归一化处理。②使用三倍标准差法计算每个测试样本点与所有之间的标准差当其中任一个小于其所在类别的3倍时,将放入集合,否则将放入集合N。③集合即为测试样本中的骚扰号码。

2.1.2.2 二次标注模型

1)学习阶段

①使用皮尔逊相关系数对训练样本进行相关性检测,确定学习指标,通常选取主叫次数、主叫占比、被叫不重复率、平均通话时长四个指标。

2)预测阶段

使用上述分类算法对已标注骚扰的测试样本进行分类,得到测试样本的二次标注。

2.2 模型验证

2.2.1 一次标注实验

1)训练样本选取

我们采用某运营商连续6天的全国语音话单数据,其中共包含812319328个号码,产生5969963634条通话记录。通过主叫次数大于10,主叫占比大于0.6,被叫不重复率大于0.6的规则筛选出7916372个号码进行随机采样,采出142267个号码。然后对采出号码进行随机采样,采出142267个号码。

2)训练样本学习

①联通号码学习结果

对被标注为骚扰的7078个联通号码通过主叫次数、主叫占比、被叫不重复率、平均通话时长、LAC不同个数等指标进行学习,结果显示最佳聚类个数为4,如图1所示。

图1 联通号码学习结果图

②非联通号码学习结果

对被标注为骚扰的30797个联通号码通过:主叫次数、主叫占比、被叫不重复率、平均通话时长等指标进行学习,结果显示最佳聚类个数为4。结果如图2所示。

图2 非联通号码学习结果图

3)测试样本选取

在上述筛选出的7916372个号码中,去除随机采样的142267个号码,得到7774105个号码,其中联通号码4329554个。

4)测试样本预测

①联通号码预测结果

我们对4329554个未知标注的联通号码进行预测,经过分析得到55116个(疑似)骚扰号码并对其标注。然后通过互联网爬虫的方法爬取这55116个疑似骚扰号码,得到24184个被标注为骚扰的号码。

②非联通号码预测结果

我们对3444551个未知标注的非联通号码进行预测,经过分析得到166333个(疑似)骚扰号码并对其标注。然后通过互联网爬虫的方法爬取这166333个疑似骚扰号码,得到137192个被标注为骚扰的号码。

部分结果如图3所示。

图3 测试样本部分结果预测图回拨验证

为了验证骚扰电话识别准确率以及持续优化模型,本文选择了部分预测结果中互联网未标记的疑似骚扰号码进行了人工拨测。

本文共计对562个互联网未标记的疑似骚扰电话号码进行了人工拨测,拨测结果如表2、表3所示。

表2 人工拨测结果表

表3 部分拨测验证结果

2.2.2 二次标注实验

我们对85087个带有二次标注的骚扰号码进行实验,其中包括广告推销号码16599个,房产中介号码9434个,快递送餐号码51530个,骚扰诈骗号码7524个。本次选取主叫次数、主叫占比、被叫不重复率、平均通话时长等特征进行实验,利用决策树、逻辑回归、支持向量机(SVM)等分类算法,采用十折交叉验证,即把数据分为10份,1份作为训练数据,其他9份作为测试数据,训练数据得到的模型应用到测试数据,将模型的判定值和数据本来的标记值进行对比,得到判定率,循环执行10次。

1)第一轮分类,如图4所示。

图4 第一轮分类结果图

2)第二轮分类,如图5所示。

图5 第二轮分类结果图

本文将房产中介和广告推销合并为一类进行分类。

综上可知,将骚扰电话分为骚扰诈骗、中介推销、快递送餐三类进行识别效果最好,同时使用决策树算法对骚扰电话进行分类效果最好,准确率能够达到75%以上。

3 骚扰电话识别技术应用方案

对于骚扰电话识别技术的应用,目前国内运营商主要通过手机终端应用(APP)向用户提供骚扰电话提醒服务。本文基于某运营商现网业务,总结出四种骚扰电话提醒方案,并对每个方案的优缺点进行说明。

3.1 骚扰电话识别系统

基于本模型构建的骚扰电话识别系统以大数据分析系统为基础平台,采用机器学习的方法对骚扰号码的历史通信行为进行挖掘分析,发现骚扰号码的通信行为特征,以此识别新的骚扰号码,同时结合第三方号码库对识别出的疑似骚扰号码进行验证和校准,最终形成有效的数据服务能力。

3.2 基于炫铃/彩铃的骚扰电话提醒方案

目前运营商炫铃/彩铃业务平台在被叫侧采集呼叫信令,此平台对信令进行解析,将主被叫号码发送至USSD平台,然后USSD平台向骚扰电话识别系统查询主叫号码是否骚扰电话,如果主叫号码为骚扰电话,那么骚扰电话识别系统将该电话号码骚扰类型发送至USSD平台,然后USSD平台将该号码骚扰类型推送至被叫用户终端显示。其流程图如图6所示。

图6 基于炫铃的骚扰电话提醒方案流程图

该方案适用于全网用户,对骚扰电话的提醒几乎没有时延,用户体验好,但需要用户开通炫铃/彩铃业务。另外,该方案需要运营商对炫铃/彩铃业务平台进行升级改造。

3.3 基于SIM/USIM的骚扰电话提醒方案

用户SIM/USIM中安装Applet,负责监听用户来电。当用户来电时,Applet获取主被叫号码,通过数据短信方式上传至SIM/USIM卡平台,该平台解析数据短信,将主被叫号码发送至骚扰电话识别系统,如果主叫号码为骚扰电话,那么骚扰电话识别系统将该电话号码骚扰类型发送至USSD平台,然后USSD平台将该号码骚扰类型推送至被叫用户终端显示。其流程图如图7所示。

图7 基于SIM/USIM的骚扰电话提醒方案流程图

该方案部署方便,实现容易,无需运营商进行现网改造。但该方案仅适用于SIM/USIM是JAVA卡的用户,而且骚扰电话提醒存在一定时延。

3.4 基于电话秘书/电话管家的骚扰电话提醒方案

当主叫号码呼叫被叫号码时,被叫用户忙音、关机或不在服务区,则交换机将主叫号码发送至电话秘书/电话管家业务平台,通过该平台向骚扰电话识别系统查询主叫号码是否骚扰电话。如果主叫号码为骚扰电话,则骚扰电话识别系统将该主叫号码骚扰类型发送至电话秘书/电话管家平台,最后电话秘书/电话管家平台将带有该主叫号码骚扰类型的漏电提醒短信在被叫用户闲时或开机时通过短信中心发送给被叫用户。其流程图如图8所示。

图8 基于电话秘书/电话管家的骚扰电话提醒方案流程图

该方案仅针对开通了电话秘书/电话管家业务的用户,通过该方案可以进一步增加用户黏度,但需要运营商对电话秘书/电话管家业务平台进行升级改造。

3.5 基于微信的骚扰电话提醒方案

微信用户通过公众号发送号码至微信公众平台,然后经过该平台转发号码查询请求至骚扰电话识别系统,通过该识别系统再将号码查询结果发送至微信公众平台,最后微信用户可通过公众号查询结果。其流程图如图9所示。

该方案可作为其他提醒方案的补充,集成在运营商相关的官方微信中,以提升用户体验,增加用户黏度。

4 结语

本文基于某运营商现网话单数据,采用机器学习方法,提出一种基于语音话单分析的骚扰电话识别模型,并对模型进行了验证。验证结果表明,该模型能够有效识别骚扰电话,与互联网企业相比具有识别范围广、准度高的特点。同时,本文与运营商的现网业务相结合,总结出四种骚扰电话提醒方案,并对每个方案的优缺点进行说明,以期对运营商开展骚扰电话提醒业务具有一定的借鉴和指导意义。

骚扰电话问题已经成为产业痛点,骚扰电话治理将成为信息安全领域的新课题。随着国家进一步加强对电信企业的监管要求和考核力度,各运营商将会逐步开展骚扰电话的治理工作,届时骚扰电话识别技术也将有突飞猛进的发展。

猜你喜欢
骚扰电话号码运营商
说号码 知颜色
一个号码,一个故事
猜出新号码
一张图看三运营商政企业务
骚扰电话有增无减 运营商难辞其咎
陕西综合治理骚扰电话
13部门联手重拳整治骚扰电话
微评
疯狂编辑部之骚扰电话
这个号码很吉祥