云数据护盾下的社交网络安全卫士*

2024-01-02 09:32饶安琪张晨光赵展鹏王楷文
山西电子技术 2023年6期
关键词:模态社交文本

饶安琪,宋 斌、2,*,张晨光,赵展鹏,王楷文

(1.河南科技大学 信息工程学院,河南 洛阳 471023;2.河南科技大学 河南省网络空间安全应用国际联合实验室,河南 洛阳 471023)

根据调研国内外对社交网络安全问题的研究,目前基于社交网络平台独特应用特质,人们面临的网络风险隐患除传统安全威胁外主要包括四类:敏感信息检测、虚假信息传播、恶意用户识别以及云存储的数据安全性。本文创新性地提出基于细粒度情感的文本敏感分类检测方法、多模态融合敏感分类检测方法、动态数组多分支树的云数据完整性验证方案、多用户下的云数据完整性验证方案,构建云数据护盾下的社交网络安全卫士平台。

该平台可适用于政府互联网安全监管机构和网络信息安全行业企业,政府机构和企业与本团队达成合作后,需提供社交平台的数据接口,通过调用接口实现其平台的安全检测及控制功能,为社交平台安全以及用户使用体验提供更优质的服务以及更舒适的用户体验。云数据护盾下的社交网络安全卫士平台功能流程图如图1 所示。

图1 社交网络安全卫士平台功能流程图

1 敏感信息智能检测

随着社交网络的极速发展和网络用户的增长,信息呈指数级增长,并呈现方式多样化、内容海量化等特点,大量含有涉黄、涉政、涉恐、辱骂言论、赌博等类型的敏感信息充斥在互联网环境中,对社会和谐安定造成了极大危害。因此,及时检测互联网中的敏感信息是保障互联网健康发展的迫切需要。

社交网络中的信息以多种形态呈现,其中敏感信息主要存在于文本和图片中,所以对敏感类文本和图片的检测是网络不良信息检测的重要组成部分。现有对敏感信息检测的研究大都是采用单模态特征进行敏感识别,即所谓的单模态数据分析,很少考虑多模态在敏感信息检测中的应用,如文本、图片、表情、音视频等多模态敏感信息的融合判断,不能从整体上判断推文的全局敏感性,识别效果和准确率还有待提高,所以加强社交网络敏感信息检测对净化网络、防止恶意传播极其重要。

1.1 测试方法

针对现有的基于图片或文本的单模态敏感信息检测方法存在检测结果无法充分反映推文整体敏感性的问题,本技术提出基于深度学习的多模态融合敏感信息分类检测方法[1]。

该方法首先使用FastText作为文本敏感分类模型,通过引入文本情感极性,提高文本敏感信息分类检测准确率。然后将在大规模图片数据集上进行预训练好的InceptionV3模型参数进行迁移,然后对其进行参数微调,使用敏感图像数据集训练敏感图片分类模型,本技术主要将图片检测结果分为四类:涉黄类、涉政类、涉恐(暴)类和其他类。最后在决策层进行数据融合,设计了模型融合公式,将文本敏感分类模型的结果和图片敏感分类模型的结果根据融合公式进行计算。本技术提出的多模态敏感信息分类检测方法大致可分为三个阶段:图文敏感特征提取阶段、图文特征融合阶段和敏感检测分类阶段。完整架构如图2 所示。

图2 多模态融合的敏感信息分类检测框架

1.2 研究方法

针对在线社交网络用户发布的信息呈现内容多样化、多模态等特点,拟研究提出基于深度学习的多模态融合敏感信息检测方法,从而有效控制社交网络敏感信息的发布和传播,以实现社交平台敏感信息监督和治理。

1) 基于细粒度情感的文本敏感分类检测方法

我们针对传统的关键字匹配方法准确率低、检测速度慢等问题,设计了结合语义分析的快速敏感信息识别方法。该方法中敏感词库包含大量敏感词,在使用过程中,用户也可根据需要进行敏感词的增删改查等操作[2]。利用FastText快速文本处理方法,结合敏感词库和语义分析对文本进行敏感性检测,在进行文本敏感性判定的同时,引入情感极性因子,提出一种基于情感词和敏感词共现分析的敏感信息识别方法。

2) 多模态融合敏感分类检测方法

针对传统敏感图像检测的二分类问题,设计敏感图像分类检测模型,将图像分为四类:涉黄、涉政、涉恐和其他类图像。为解决单模态文本或图片的敏感信息检测方法不能充分挖掘社交网络敏感信息内容的问题,拟提出一种图文融合多模态敏感信息检测方法,采用决策层融合策略,根据概率分配和相关阈值的设定,进行图片和文本的融合分类[3]。

2 虚假信息传播控制

近年来,在线社交网络中的虚假信息传播给政治、经济和生活等多个领域带来严重的负面影响,引发了学术界与产业界对这一科学问题的持续关注。通过对国内外虚假信息传播研究成果调研发现,虚假信息传播研究可以追溯到早期复杂网络和小世界网络中的谣言传播动力学模型研究[4],且持续到近几年来关于社交自然人和社交机器人的混合型、交互式传播模式研究。虚假信息传播模型的研究主要针对传播动力学模型、独立级联模型和线性阈值模型等。虚假信息传播行为模式的研究主要是通过发布、转发、提及、评论等多种混合式行为方式进行虚假信息传播。如何综合应用社交情境安全分析和新一代人工智能技术,挖掘社交用户群体在传播过程中的内在特征、产生机理与传播规律成为目前亟需解决的重要问题。

面向社会化媒体平台虚假信息传播控制,重点围绕社交用户虚假信息传播意图检测与传播趋势识别,通过利用社会情境分析和人工智能技术,拟提出传播行为和潜在意图的计算分析方法,实现社交用户传播前和传播中及时有效的控制。虚假信息传播控制主要用于定时预测社交平台中用户传播虚假信息的潜在风险等级,根据社交平台中用户发布动态、发起话题的数量,预测用户传播虚假信息的潜在风险等级(用户传播虚假信息的意愿强度等级分为强、中、弱三类),以实现社交平台对虚假信息传播的事前和事中控制。

虚假信息检测分为特征提取和模型构建两个阶段。特征提取阶段是以形式化的数学结构来表示信息内容和社交上下文相关辅助信息。模型构建阶段是进一步构建基于特征表示的信息内容模型、社交上下文模型和混合模型,来更好地检测虚假信息和真实信息。虚假信息传播访问控制体系结构如图3 所示。

图3 虚假信息传播访问控制体系结构

访问控制模型主要分为基于角色的访问控制模型、基于属性的访问控制模型和基于关系的访问控制模型[5]。这些模型分别将角色、属性和关系作为主要元素来控制对信息的访问。在 OSNs 信息分享过程中,基于角色的访问控制通常利用多重关系、关系强度、方向关系、用户到用户的关系和用户到资源的关系等来控制信息的传播[5]。基于关系的访问控制根据社交用户之间的各种关系进行授权访问,来实现社交用户对资源的传播控制,提高了信息共享的安全性。虚假信息传播使用控制模型如图4 所示。

图4 虚假信息传播使用控制模型

3 恶意行为检测

传统恶意用户检测算法的成功应用都是建立在社交大数据基础上的,而在实际应用场景中,恶意用户呈现分散性、潜伏性、复杂性等特征,单方的社交用户数据无法满足检测要求,需要双方乃至多方的用户数据。因此,怎样在保护普通用户信息安全的情况下结合多方信息进行建模计算、进行恶意流量的精准监测,是在线社交互联网技术中亟待解决的难题。

针对在线社交网络中恶意用户检测,拟提出一种基于纵向联邦学习的社交网络跨平台恶意用户检测方案和面向多方隐私保护的恶意用户检测算法,该方案对多源异构数据进行预处理,采用加密样本对齐和加密模型训练方法[6],构建如图5 所示的数据预处理层、样本对齐层、联邦学习层、数据应用层等层次化社交网络跨平台恶意用户检测架构,可在保障用户隐私的前提下,实现对恶意用户的精确检测。

图5 社交网络跨平台恶意用户检测架构

4 云数据安全保障

云存储是通过虚拟化的技术以较低的成本扩充用户的存储空间,以此来减轻用户管理和存储数据的成本,并且可使用户随时随地访问云端的数据。但是,当用户把数据存储到云端的同时也失去了对云数据的物理控制能力[7],云端数据可能会因为受到硬件或者人为等不确定因素的影响而有所缺失,云服务提供商也可能会为了利益而丢弃一些用户不常访问的数据以节约存储成本[7]。然而,出于维护自己声誉或者避免赔偿的问题,云服务提供商可能会隐瞒这些事故。这些数据安全问题极大地降低了人们对云存储服务的信任度,严重地影响了云存储服务的推广和应用。所以,云端数据完整性验证成为了亟待研究的问题。

4.1 动态数组多分支树的验证方案

拟将叶子节点设置为数组结构,降低树的高度,提高节点的利用率,简化动态更新的过程,缩短数据块的查询时间,从而有效减少验证过程中的通信开销和计算开销,提高验证效率。

4.2 多用户下的云数据完整性验证方案

拟将多个用户考虑进来,设计一种多用户下的数据完整性验证算法,方案利用聚合签名的性质,将多个用户的多个标签聚合成一个短标签来进行完整性验证,从而提高验证效率。

为验证和保持云计算环境数据完整性,如图6所示,拟提出一种动态数组多分支树的云数据完整性验证方案和多用户下的云数据完整性验证方案,以提高人们对云存储服务的信任度。

图6 数据完整性验证系统模型图

5 结语

现如今社交网络在人们的生活中扮演着重要的角色,它已成为网络时代人们生活的重要部分,在为人们提供便利和欢乐的同时,其安全和隐私等问题日益凸显。侵犯个人隐私、窃取个人信息等违法犯罪行为时有发生,网上黄赌毒、网络谣言等屡见不鲜,已经成为影响国家公共安全的突出问题。检测敏感信息、控制虚假信息、分析恶意行为、云数据安全技术已经是当前研究亟需解决的重要问题,关于社交网络安全的研究具有非常广阔的前景,也需要更多的技术迭代达到最佳的效果。因此,构建云数据护盾下的社交网络安全卫士平台既是时代的选择,也是人们的需求。

猜你喜欢
模态社交文本
社交之城
社交牛人症该怎么治
社交距离
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
你回避社交,真不是因为内向
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度