公共资源网络中资源滥用行为检测研究仿真

2020-11-17 03:30侯霄昱陈彦霖
吉林大学学报(信息科学版) 2020年3期
关键词:马尔科夫公共资源符号

冯 喆, 侯霄昱, 陈彦霖

(1.考文垂大学 电子计算机工程学院, 英格兰 考文垂CV15FB; 2.天津市烟草专卖局 综合计划处, 天津300041;3.天津师范大学 管理学院, 天津300387; 4.天津市区第一烟草专卖局 党建工作科, 天津300050;5.广东文理职业学院 机电工程系, 广东 湛江524400)

0 引 言

公共资源网络治理是现代公共资源治理的重要模式。 在公共资源治理过程中, 政府行为、 非政府行为、 盈利行为等多种相对独立的资源应用行为构成一种相互依存的信息交流网络, 并在其网络中达到公共资源的互动。 由于在很长时间内, 公共资源网络中的资源滥用现象一直比较严重, 因此是目前公共资源网络整治的重点。 美国计算机部门, 将公共资源滥用定义为, 拥有组织网络、 系统数据以及访问权限的信息人员, 以营利或其他经济政治目的造成的资源浪费[1]。 从宏观角度上看, 公共资源网络滥用行为是内部人员根据自己的安全平整, 进行的系统资源出卖。 早在2007 年, 法国兴业银行交易员, 依靠管理员身份, 侵入公共资源网络进行非法交易, 导致银行亏损数十亿美元[2-3]。 由此可见, 公共资源网络滥用具有巨大危害性。 而具有恶意的内部人员因为其具有合理合法的网络资源应用身份和相关授权许可, 其资源滥用行为不会违反法律法规和常规安全监管机制, 所以难以被及时察觉[4]。 因此, 对于公共资源网络中的资源滥用行为模式检测是现代公共资源维护的重要研究领域。 因为人类的行为具有模式定化, 即往往表现出一种常规的模式, 在进行网络资源访问时也不例外。 因此研究当前使用用户访问的系统模式, 并与其进行对比选择其不一致性, 是一种可行的资源滥用监督方法。 笔者基于这一理念,以隐马尔科夫模型(HMM)为核心, 设计出一种新的公共资源网络中资源滥用行为检测研究方法, 并基于真实的仿真数据, 验证检测方法的真实有效性[5-6]。

1 公共网络资源滥用行为检测

1.1 隐马尔科夫模型设计

隐马尔科夫模型本质上是一种分析统计模型, 包含了以下数据参数:S表示系统离散状态下的数据,则有S={s1,s2,…,sN}, 集合势为N[7];Q表示系统状态序列, 则有Q=q1,q2,…,qX, 其中X是序列中的状态系数,qt∈S(1≤t≤X)是当前时刻下系统状态; π 代表网络初始状态下的概率分布且有: π =[πi]。A为状态转移矩阵,A= [aij], 其中aij= Pr(q1=O为当前观测数据的符号集合,O={o1,o2,…,oM}M[9]。B为当前观测符号矩阵, 则有:B= [bjk]。 其中bjk= Pr(ok sj) 且有1≤k≤M。P表示观测符号序列, 且有:P=p1,p2,…,pY,Y表示当前序列下的观测符号,pt∈O(1≤t≤Y)是在时刻系统下的观测符号[10]。

因为隐马尔科夫模型在后续检测研究中属于一个双重随机过程, 其内部包括两部分: 马尔科夫链的数据随机过程, 如图1 所示。

其中马尔科夫数据链描写了系统状态转移时的动态反应机制, 受到上述转移矩阵A的实际影响, 初始状态下的概率分布一般为π; 在进行数据随机迭代过程中, 可以描述当前系统状态和观测符号之间的数据统计关系, 受到符号矩阵控制影响[11-12]。 在隐马尔科夫模型中, 当前状态和转移过程不能直接进行观测,外部只能通过直接序号进行正向逆推。

要保证隐马尔科夫模型完全正常计算统计, 需要确定π、A、B等参数, 则模型用λ=(A,B,π)表示。

当前模型的观测序号P, 可能来自于系统多类型的状态序列或同长度状态的观测符号序列

图1 HMM 示意图Fig.1 HMM schematic diagram

根据当前模型序列Q生成序列P的实际概率为

如果当前观测数据存在独立数据, 则式(2)可进行扩展

因此利用参数λ 表示当前隐马尔科夫模型观测序列的概率为

隐马尔科夫模型其重点可以通过数据分析, 确定当前观测符号序列, 预算新的观测符号实际出现概率[13]。 而在信息安全测试和行为检测中, 因为资源浪费者或攻击者的对应模式难以获取, 导致无法有效提取对应特征, 而其用户行为相对易于观测和监控[14]。 因此根据用户行为作为当前隐马尔科夫模型的观测信号, 通过连续不间断的收集当前公共网络资源用户检测行为符号, 可以建立其行为常规模式。 通过对其可能出现的用户行为进行预测, 可以有效降低当前恶意行为的误报率和漏报率。 为资源滥用检测提供可能。

1.2 建立内部人员行为数据集

设计基于上述隐马尔科夫检测模型, 利用Windows 操作系统信息为蓝本进行行为检测。 首先建立敏感文件信息集, 这些信息集可以集中分布在系统敏感文件夹中, 用户需要在各类型文件中进行敏感信息相关事务的操作, 对应类型如表1 所示。

表1 敏感数据分类Tab.1 Classification of sensitive data

其中进行文件进程读取和写入等操作是不会出现系统安全问题, 所以在对模式进行评估检测期间,基本忽略上述操作[15]。

根据敏感操作, 可以开始收集当前公共资源下的行为数据信息, 设计采用程序接口挂接技术, 实时截取进程当前公共资源网络下的操作调用函数, 判定当前用户进程下的文件初始行为路径, 全部敏感文件数据的操作均会被记录, 从而形成特殊操作序列。 在实际用户行为的监视过程中, 需要记录用户操作, 而操作对象的操作值不需要记录。 例如当前公共网络资源下A 对于敏感文件B 进行了多重操作, 则需要记录操作行为, 而不需要对敏感文件进行记录。 这种记录方法收集的数据集可以生成当前用户的操作序列, 不会涉及到信息系统的敏感信息和用户隐私, 所以不会出现系统隐患。

在建立内部人员行为数据集的过程中, 可以观测到的部分就是所有的操作序列, 而序列对象和操作值具有不可见性, 因此设计根据上述HMM 模型, 建立完整的序列集(见图2)。

图2 用户行为下隐马尔科夫模型Fig.2 Hidden Markov model with user behavior

在马尔科夫模型中, 状态可看做是敏感信息存储的文件夹, 而观测符号则是各文件夹下属的执行操作。 用户在系统内敏感文件夹中进行事物处理操作时, 其个人行为会在HMM 模型下进行状态转移,其表现形式就是当前模型下的用户操作序列。 如果系统需要执行的文件较少, 可以敏感文件作为当前隐马尔科夫模型检测状态, 观测符号作为模型操作, 从而建立对应检测结构。

1.3 模型检测参数建立

建立当前用户行为的马尔科夫对应检测数据, 最重要的就是确定当前模型的实际参数值, 包括A、B和π。 在此次设计的用户行为模型建立中, 已知该参数模型为N 和M, 根据上述行为数据集截取的观测信号序列和模型参数初始值, 可以确定当前模型的检测参数。 为了简化运算, 将A、B 和π 的初始值均设为均匀分布状态也就是当前隐马尔科夫模型的任意状态均为1 / N。 模型中状态分布概率同样为1 / N。 此时每个状态的观测符号出现概率最终为1 / M, 则以N 值和M 值以及对应的A、B 和π 值为基础, 采用Baum-Wlech 算法建立训练参数。

因为对模型参数训练的行为需要基于当前公共资源网络的正常行为, 然而在使用信息中, 相比较正常的用户行为, 资源滥用行为占少数, 所以可以根据其数量比值, 进行初步估算。

1.4 实现资源滥用检测

经过上述模型训练后, 当前隐马尔科夫模型参数A、B和π 均已经确定。 设λ值在当前时刻t中的输出长度为R, 此时符号序列概率P1的计算公式为

计算此时两个对应序列出现的概率差值

如果当前的ΔP≤0, 说明经过训练的隐马尔科夫模型中, 新观测的符号序列出现概率提高, 观测符号OR+1为正常行为; 若ΔP>0, 说明此时的P2概率要低于P1, 此时新序列无法完全被隐马尔科夫模型接收, 则说明OR+1可能出现少量资源滥用行为。 此时可以根据当前公共资源网络信息安全要求, 设定实际阈值h, 则有

此时判定OR+1是资源滥用行为。

当OR+1出现滥用异常时, 会立刻报错, 否则OR+1加入当前观测符号序列, 并作为下一组观测符号的基础序列。 随着时间的增加, 当前用户行为模式可能会出现变更, 通过不断改变当前观测符合模式的初始意义, 确定其行为模式, 实现最终行为检测。

2 仿真实验

公共资源网络的数据传输频率如图3 所示, 该数据传输作为实验环境, 在此情况下, 资源进行共享与应用。

本次实验中, 考虑2 种公共资源滥用行为, 一是加速攻击, 即在一定时间段内频率加快的资源滥用手段; 二是脉冲攻击, 该攻击的强度和时间冲击性均不稳定。 以上2 种形式是资源滥用行为的宏观体现形式, 具有较强的代表性。

对第1 种形式的公共资源滥用行为, 在进行数据训练的仿真实验过程中, 实验研究人员在训练数据的分组中, 分别替换掉观测符号, 此次设计的检测方法和用于对比的TP 检测方法其准确率对比图如图4所示。

对第2 种形式的资源滥用行为, 在进行数据训练过程中, 逐一分组, 每组随机替换观测符号, 前半部分替换符号数量为后半部分的50% ~70%, 形成替换波动和不规律性, 然后进行检测。 其对比结果如图5 所示。 从实验结果可以看出, 2 种监测方法在加速攻击时, 整体检测率均趋于稳定, 而在脉冲攻击时, 因为波动问题, 二者的检测率均具有明显的波动,但是从整体上看, 此次设计的检测方法波动较小, 更具有适应性。

从准确率上看, 以往的TP 检测其准确率基本维持在71% ~75% 左右, 仅达到合格线, 不能保证检测率。 而此次设计的检测方法, 其检测率搞到95% 以上, 明显高于以往的检测方法, 足以证明其检测优势性。

图3 网络数据发送频率示意图Fig.3 Schematic diagram of network data transmission frequency

图5 形式1 资源滥用行为的实验对比结果Fig.5 Experimental comparison of form 1 resource abuse behavior

图6 形式2 资源滥用行为的实验对比结果Fig.6 Experiment and comparison of the misuse of the two-resource in form Ⅱ

3 结 语

对于不同来源的资源入侵和滥用行为, 其检测方法本质均是从内部出发进行检测。 笔者基于隐马尔科夫模型, 提出了一种以公共资源网络内部人员行为检测为核心的检测方法, 通过敏感文件操作和行为观测符号, 确定模型观测参数, 用于滥用行为的检测。 仿真结果证明该方法真实有效, 具有更好的适用性。

猜你喜欢
马尔科夫公共资源符号
基于三维马尔科夫模型的5G物联网数据传输协议研究
基于叠加马尔科夫链的边坡位移预测研究
学符号,比多少
公共资源交易平台构建及体制机制创新
基于改进的灰色-马尔科夫模型在风机沉降中的应用
“+”“-”符号的由来
云南省积极推进公共资源交易标准化工作
图的有效符号边控制数
中国符号,太美了!
连续隐半马尔科夫模型在轴承性能退化评估中的应用