一种基于混合微调策略的虚拟机异常检测器增强方法

2024-09-27 00:00:00丁锐

科技资讯 2024年16期

摘要：虚拟机异常检测器在现实场景中面临训练数据样本稀疏的问题，为了实现稀疏样本条件下的虚拟机异常精准检测，提出了一种基于混合微调策略的虚拟机检测增强方法。首先，利用大语言模型，基于提示工程，对收集的虚拟机逃逸样本进行提升工程，得到增强的样本。其次，采用LoRA和PreFix混合微调策略对收集的虚拟机逃逸样本进行提升工程，得到增强的样本。再次，利用增强样本对预训练大模型ChatGLM进行微调，生成一种专用于生成虚拟机逃逸数据的模型。最后，利用专用模型生成的样本扩充数据集，增强基于学习的虚拟机异常检测器。通过实验验证，该方法显著提升了虚拟机逃逸检测的准确性，并降低了误报率。

关键词：异常检测虚拟机微调策略样本增强

中图分类号：TP393文献标识码：A文章编号：2096-4706（2023）00-0000-00

AnEnhancedMethodforVirtualMachineAnomalyDetectorsBasedonHybridFine-TuningStrategy

DINGRui

KunlunDigitalTechnologyCo.，Ltd，Beijing，100026China

Abstract：Virtualmachineanomalydetectorsarefacedwiththeproblemofsparsetrainingdatasamplesinrealisticscenarios.Toaddresstheissueofaccuratedetectionofvirtualmachineanomaliesundersuchsparsesampleconditions，avirtualmachinedetectionenhancementmethodbasedonahybridfine-tuningstrategyisproposedinthisarticle.Firstly，byusingalargelanguagemodelandbasedonpromptengineering，thecollectedvirtualmachine（VM）escapesamplesareupgraded，andtheenhancedsamplesareobtained..Secondly，ahybridfine-tuningstrategycombiningLoRAandPreFixisareusedtoenhancethecollectedVMescapesamplesandobtainenhancedsamples.Subsequently，theenhancedsamplesareutilizedtofine-tunethepre-trainedlargemodel，ChatGLM，therebycreatingadedicatedmodelforgeneratingVMescapedata.Finally，thegeneratedsamplesfromthededicatedmodelareleveragedtoaugmentthedatasetandimprovetheperformanceofthelearning-basedVManomalydetector.ExperimentalvalidationdemonstratesthatthismethodachievessignificantimprovementsinVMescapedetectionaccuracywhileeffectivelyreducingthefalsealarmrate.

KeyWords：Anomalydetection;VM;Fine-tuningstrategies;Sampleenhancement

虚拟化技术，作为一种重要的计算范式，已经在云计算、数据中心、企业网络等领域得到广泛应用。它通过将物理资源（如处理器、内存和存储）抽象为虚拟实例，使得多个虚拟机能够在同一物理服务器上同时运行，从而提高了资源利用率和灵活性[1]。虚拟化技术的发展不仅推动了云计算的兴起，也为企业提供了更高效、可扩展和灵活的计算环境。然而，随着虚拟化技术的广泛应用，虚拟机安全问题日益引起关注。攻击者利用各种手段，如虚拟机逃逸、侧信道攻击、恶意代码注入等，试图获取虚拟机内部的敏感信息、控制虚拟化环境或破坏其正常运行，这些攻击手段对云计算、数据中心等关键领域的安全性和可靠性构成了严重威胁[2-4]，因此，保护虚拟机安全变得至关重要。有效的虚拟机安全机制能够防止虚拟机逃逸和其他恶意攻击，确保虚拟化环境的完整性和保密性，这不仅对云服务提供商和企业用户来说是一项重要任务，也对整个云计算生态系统的可信性和可靠性产生了深远影响。

尽管已经有一些虚拟机安全机制和技术被提出和应用，但现有的防御手段仍然存在一定的局限性。攻击者不断改进和演化他们的攻击手段，新的攻击特征使得基于特征的检测器发生概念漂移，从而无法有效地发现安全威胁[5-7]。为了解决训练样本稀疏和质量低下问题，本文提出了一种基于混合微调策略的虚拟机检测器增强方法，以改善虚拟机逃逸检测的准确性和鲁棒性。通过充分利用深度学习和预训练大模型的优势，本方法能够提高虚拟机检测器对新型逃逸技术的识别能力，并降低误报率。综上，本文主要贡献如下。

（1）针对虚拟机逃逸检测任务在现实场景面临的训练样本缺失问题，提出了一种基于混合微调策略的样本增强方案，增强的数据能够有效改善基于深度学习的检测器概念漂移问题。

（2）通过大量实验分析，证明了本方法可以有效地增强虚拟机检测器性能，同时讨论了不同微调策略的性能表现。

1基于混合微调策略的虚拟机检测器增强方法

1.1基于提示工程的原始样本增强

本节内容的目标是利用大语言模型强大的文本生成能力，基于提示工程扩充原始训练样本，从而为后续的预训练模型微调提供数据支撑。包含的步骤有：收集并处理真实虚拟机逃逸相关数据，基于多轮对话提示，引导ChatGPT模型生成高质量的扩充数据。本文所有参数符号及意义如表1所示。

1.1.1数据采集与处理

基于机器学习的虚拟机异常检测器在工作中通常需要进行系统数据的采集和预处理。下面介绍本文的数据处理流程。

（1）数据采集：利用Linux性能事件采集工具ebpf收集虚拟机运行时的系统数据，这些数据包括虚拟机的性能指标（如CPU利用率、内存使用量、磁盘读写速度等）、网络流量数据和系统日志；（2）数据清洗与预处理：采集到的原始数据通常需要进行清洗和预处理，以便后续的特征提取和模型训练，包括均值插补法处理缺失值、标准方差理异常值、数据平滑去除噪声、归一化等操作。

本文所提方法框架示意图如图1所示。通过收集进程生命周期数据和进程性能事件数据，得到原始的训练数据集如下：

1.1.2基于提示工程的数据增强

由于系统调用等数据经过word2sec向量化处理后，可以将训练样本扩充，可以视为文本增强任务。本文使用ChatGPT——一个基于GPT的最先进大语言生成模型来增强原始数据。具体地，对于原始训练样本，具有m个token，预训练的优化目标可表示如下：

经过构造的多轮对话提示，本文利用ChatGPT得到扩充后的样本集。对话例子为：输入的数据样本为（P1，N1），请输出更多的语义相近的（Pi，Ni）。

1.2基于混合微调策略的数据增强

混合微调策略（JointFine-TuningStrategy）是指在自然语言处理（Naturallanguageprocessing，NLP）中使用预训练语言模型的过程中将预训练模型与任务特定的数据同时进行微调，这种策略将预训练模型与任务相关的数据合并在一起，通过端到端的微调来优化整个模型。其好处有：（1）任务自适应能力提升；（2）减少数据需求；（3）加速训练收敛；（4）提升模型性能。因此，混合微调策略可以在预训练模型的基础上通过使用任务特定的数据进行微调，充分发挥预训练模型的优势，提升模型的适应性和性能。

1.2.1前缀微调

前缀微调（PrefixFine-Tune）技术包括通过在输入词前构建一组特定任务的虚拟词组作为前缀来微调语言模型（LargeLanguageModel，LLM）的参数。这个过程可以描述为：（1）将数据集的80%分成训练样本、20%分成测试样本；（2）使用训练样本对ChatGLM进行前缀调优训练，并保存训练后的前缀参数权重；（3）使用测试样本评估前缀调整后ChatGLM的文本生成性能，并优化模型超参数，模型超参数设置如下：Pre-SequenceLength=128，LearningRate=2e-2，BatchSize=16，epochs=5，MaxSourceLength=128，MaxTargetLength=256。

1.2.2低秩适应微调

低秩适应微调（LoRAFine-Tune）方法是一种参数效率高的微调技术，它假定任务适应过程中模型的参数变化表现出低秩特征。同样，其模型设置为：Pre-SequenceLength=128，LearningRate=1e-4，epochs=10，MaxSourceLength=128，MaxTargetLength=256。

因此，本文基于两种微调方法的优点构建的联合微调方法如下。（1）将最优前缀参数权重与预训练生成模型ChatGLM结合使用，存储为ChatGLM-Prefix模型。（2）基于相同的训练集，使用LoRA方法进一步完善ChatGLM-Prefix模型。（3）将ChatGLM-Prefix模型与LoRA参数权重相结合，得到ChatGLM-Prefix-LoRA模型（）。经过上述步骤后，基于ChatGLM-Prefix-LoRA并将作为输入，我们可以得到最终的扩展数据集。

1.3基于增强样本的虚拟机异常检测器增强

本文使用增强后的数据集作为输入样本，在其他参数设置不变的情况下，重新训练已有的基于机器学习的虚拟机异常检测器。具体流程为：使用已有的检测器作为基础模型，加载它的权重和结构；冻结部分参数，添加新的连接层；定义损失函数，并不断训练策略调整。

2实验与分析

2.1实验设置

本文选择的检测器如下表2所示，具体地，检测器D1[8]和D2[9]都是基于LSTM构建神经网络，检测器D3[10]利用系统调用增强检测模型的可解释性。使用这些检测器对应的数据集作为原始训练样本完成数据增强。

2.2虚拟机异常检测器增强的有效性验证

为了评估数据集对检测性能的影响，我们实施并比较了3种有代表性的无监督基线方法，包括最先进的异常检测技术。如表3所示，实验结果表明，与所有基线方法相比，增强型检测器在准确度（ACC）、精确度（PRE）和F1指标（F1）方面表现出明显的优势，同时召回率（REC）略低。

2.3混合微调策略性能比较

为了评估联合微调方法的有效性，本文使用Bleu和Rouge指标来评估微调模型的性能。其中，Bleu指标通过测量生成文本与参考文本之间匹配的n个词组的数量来评估文本生成的准确性。具体来说，它计算加权后的4-grams累计得分，Bleu-4分数越高，说明生成文本的质量越好。Rouge指标是一种基于召回率的评估方法，用于评估文本生成的质量，与Bleu类似，它通过计算生成文本和参考文本之间重叠n-grams的数量，用和参考文本之间重叠的n-grams数量来量化生成质量。本研究采用的Rouge指标包括Rouge-1、Rouge-2和Rouge-L，Rouge分数越高，表明文本生成质量越好。实验结果如表4所示。

实验表明，与未进行任何微调的ChatGLM相比，使用前缀和LoRA的微调模型在仅添加小参数的情况下测试样本的Bleu和Rouge指标得分明显更高。此外，ChatGLM-Prefix模型的Bleu分数比ChatGLM-LoRA模型高出约3%，但与此同时，其Rouge分数却比ChatGLM-LoRA模型低了约10%。

通过联合微调训练的ChatGLM-Prefix-LoRA模型进一步提高了测试样本的Bleu和Rouge指标得分。具体来说，与ChatGLM-LoRA模型相比，该模型Bleu和Rouge得分分别提高了约5%；与ChatGLM-Prefix模型相比，该模型的Bleu得分提高了约2%，Rouge得分提高了约10%-15%；与未进行任何微调的ChatGLM相比，该模型的Bleu和Rouge得分分别提高了约15%～20%。实验结果证明了基于前缀和LoRA的ChatGLM联合微调训练方法在数据集构建任务中的有效性和优越性。

3结语

本文提出了一种基于混合微调策略的虚拟机检测增强方法，旨在应对虚拟机异常检测器在现实场景中面临的训练数据样本稀疏问题。实验表明，通过该方法，可以在稀疏样本条件下对虚拟机异常检测器的增强，从而实现虚拟异常环境的精准检测。

参考文献

[1]邢凌凯，张健.基于HPC的虚拟化平台异常检测技术研究与实现[J].信息网络安全，2023，23（10）：64-69.

[2]文高阳，许博阳，张聪慧.虚拟化技术在云安全中的隔离与保护[J].信息与电脑（理论版），2023，35（18）：193-195.

[3]蒲江，陈海燕，田楠.虚拟化环境安全浅析[J].网络安全技术与应用，2023（3）：4-6.

[4]张娟，刘瑶，刘芳伶.基于角色的云环境下虚拟机安全访问控制策略[J].通信技术，2021，54（9）：2214-2219.

[5]孙海波，温鸿翔，王竹珺，等.云计算安全威胁及防护研究[J].中国新通信，2021，23（5）：149-151.

[6]吕宗平，梁婷婷，顾兆军，等.概念漂移下的系统日志在线异常检测模型[J].计算机应用与软件，2023，40（10）：314-321.

[7]陈志强，韩萌，李慕航，等.数据流概念漂移处理方法研究综述[J].计算机科学，2022，49（9）：14-32.

[8]WANGYL，WANGQX，CHENXS，etal.Containerguard：Areal-timeattackdetectionsystemincontainer-basedbigdataplatform[J]，IEEETransactionsonIndustrialInformatics，2022，18（5）：3327–3336.

[9]WANGYL，CHENXS，WANGQX，etal.Unsupervisedanomalydetectionforcontainercloudviabilstm-basedvariationalautoencoder[C]//ICASSP2022-2022IEEEInternationalConferenceonAcoustics，SpeechandSignalProcessing（ICASSP）.IEEE，2022：3024–3028.

[10]KARNRR，KUDVAP，HUANGH，etal.Cryptominingdetectionincontainercloudsusingsystemcallsandexplainablemachinelearning[J].IEEETransactionsonParallelandDistributedSystems，2021，32（3）：674.

科技资讯2024年16期

科技资讯的其它文章: 信息时代图书馆知识资源服务平台建设探讨; 高校图书馆微信移动服务平台的构建要点探析; “图书馆+”环境下基层图书馆全民阅读推广思考; 基于学习通网络学习平台的高职英语教学系统构建探究; 泾县地震台DSQ水管倾斜仪观测资料典型干扰分析; 回龙湾隧道土建结构病害处治设计