董佳鑫 罗婷
摘要:当今社会智能手机已经成为人们生活的必需品,庞大的智能手机用户数量使得垃圾短信充斥在整个通讯网络环境中,因此对于大量垃圾短信识別的研究非常重要。文章基于一种将BERT 模型和TextCNN 模型融合的垃圾短信识别方法,同时聚焦于垃圾短信文本的上下文语义以及关键词特征。该方法利用开源的垃圾短信数据集进行试验,试验结果表明,BERT-TextCNN 融合模型在垃圾短信的识别在精准度、召回率以及F1 值这些指标上都有不错的表现,相较于现有模型有明显提高。
关键词: 文本分类;TextCNN;BERT;垃圾短信;融合模型
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)06-0001-04