基于大模型的智能抄清:事件要点抽取与报告生成

2024-01-10 04:00曾文龙
网络安全与数据管理 2023年12期
关键词:段落小节文档

曾文龙,刘 丹,张 超

(1.中国人民解放军31307部队,四川 成都 610000;2.电子科技大学 电子科学技术研究院,四川 成都 610000)

0 引言

在当今信息爆炸的时代,海量的数据源源不断地涌现,其中包含了各种形式的信息,从新闻报道到社交媒体内容,再到专业机构的报告和数据。解析和理解这些数据,提炼其中的关键信息,一直是一项极具挑战性的任务。

智能抄清技术是一种基于自然语言处理和机器学习的技术,其目标是从大规模文本数据中抽取关键信息并生成概括性、准确性强的内容摘要,帮助人们在信息过载的时代快速获取所需信息。不同于传统的信息摘要方法,抄清技术不仅能提供概括性的内容,还可以重新组织信息,使得生成的摘要更富有创造性和可读性。

在安全情报领域,有大量情报数据需要及时处理和分析,以识别可能的威胁和风险,智能抄清可以快速抽取关键信息,分析威胁的性质、来源和可能影响,并生成详尽的报告,为安全专家提供深入的情报分析支持,从而制定更有效的安全应对策略。

然而,传统的手动抄清方法已经无法满足处理庞大、多样化情报数据的需求。在提取和概括信息的过程中,有时会出现信息遗漏或失真,影响了摘要的准确性和完整性。对于一些主观性较强或需要深层语境理解的文本,当前技术难以达到人类的理解水平。对于长文本的处理,当前方法往往效果不佳,难以保持信息的完整性和连贯性。

为了应对这一挑战,本文提出了一种创新的基于大模型的智能抄清方法,该方法以事件要点抽取和报告生成为关键步骤,旨在实现高效、准确和可靠的情报分析和推理。

1 方法

本文提出了运用大模型进行智能抄清的方法。该方法首先对文档进行分型,再基于主题、要点、事件信息、段落小节进行四个维度的信息抽取,然后将抽取的结果作为大模型报告生成的数据支撑;接着利用大模型的分析能力,对事件进行研究、分析和评估,并形成书面报告。

本文提出的方法的创新之处在于,结合了多维度的信息抽取、大模型的分析推理和报告生成的能力,使得抄清更加全面、深入,并且提供更具有价值和深度的书面报告。在多维度信息抽取中,通过抽取主题、要点、段落小节和事件等多维度的信息,获得了文档中不同层次、不同关键性质的信息,使得抄清更为全面和细致。对基于大模型的报告生成,将抽取出的关键信息作为输入,利用大模型的生成能力,生成更为全面且内容丰富的书面报告,更好地结合了信息抽取和生成模型的优势。

1.1 事件要点抽取

事件要点抽取是从文档中提取重要信息的过程,结合语义、语法、上下文信息和推理逻辑等多种语言信息进行分析展示。

要实现这一过程,需要采用自然语言处理和机器学习技术,利用文档的结构信息和内容信息进行抽取,从海量非结构化情报数据中提取事实要点。通过文本分类器、主题抽取算法、原文要素抽取和段落小节抽取等模型,自动识别文本中的重点关注人物、组织机构、主要事件等基本信息,同时提取用户关注的其他要素信息,为报告生成提供基础信息来源。

要点抽取的核心目标在于保留文档中的关键信息,帮助用户快速理解文本内容,减少信息过载的影响。这一过程不仅需要依赖先进的技术,还需要结合领域知识和人工智能算法,以确保抽取的准确性和全面性。

1.1.1 文档分型

文档分型是根据文档的内容、类型、主题或其他特征将文档进行分类、分组或归档,以便更好地管理和组织文档。

在安全情报领域,文档分型可以根据威胁类型、攻击来源、受影响实体等标准对文档进行分组。文档分型是事件要点抽取的第一步,通过有效地从分类文档中提炼信息,使得情报团队能够更有针对性地分析和应对威胁,提高工作效率和情报利用价值。

本文首先将抄清文章定义为科技、经济、政治、娱乐、商业、其他六种类型,并在纽约时报(https://www.nytimes.com)上爬取了600篇相关新闻作为训练数据,最后使用BERT(Bidirectional Encoder Representations from Transformers)和softmax的组合进行文档分型训练。

当使用模型作为分类器时,这些非结构化的文本序列需要转换成结构化的特征空间[1]。常见的文本分类技术包括逻辑分类、boosting算法、bagging算法、KNN、支持向量机、决策树、随机森林、条件随机场CRF等[2]。

基于BERT的分型模型如图1所示。通过在大规模文本数据上进行预训练,模型学习了丰富的上下文表示和语言知识,使其能够更好地理解词语和句子在语境中的含义和关系。它的双向性和对上下文的全面考虑使其适用于文章分型任务,因此本文将新闻文本使用预训练BERT模型作为特征提取器进行输入,并通过输出层的[CLS]位置对应的值传入到softmax中进行分型任务的训练微调,从而实现对文章类型的分类。

图1 分型模型框架

1.1.2 主题生成

主题生成是从大量文本数据中自动确定主题并生成相应的摘要和标签,将一篇文本自动转化为表示其主题的词或短语的技术。主题生成可以用于文本分类、话题检测、信息过滤等任务中。

常见的主题生成算法包括基于概率模型的方法(如Latent Dirichlet Allocation模型、贝叶斯概率模型)、基于深度学习的方法(包括词向量模型、循环神经网络和Transformer等)、基于话题模型的方法等。由于预训练模型的出现,基于深度学习的生成模型在主题生成领域的应用越来越广泛,也出现了一些基于此的改进方法,如加入注意力机制、引入增量训练等[3]。

大语言模型(LLM)是具有大量参数和能力的语言模型,它们经过大规模的训练,能够理解和生成自然语言文本。在情境学习框架下,大语言模型在各种自然语言处理任务中表现出了出色的性能。这包括但不限于翻译、问答、关系抽取和主题生成等任务。本文选择了ChatGLM-6B和Alpaca两种模型,以便将情境学习应用于主题生成任务,从而更好地适应本文的需求。对于主题生成,使用大型语言模型进行这项工作通常可分为以下三个步骤:

(1)构建prompt:每个输入文章都需要构建一个与其内容相关的prompt。这个prompt可以是一段文字、问题或指令,作为大模型的输入引导,使其能够理解输入文章的主题和要点。

(2)模型生成文本序列:将构建的prompt输入到大模型中,模型将根据该prompt生成与输入文章主题相关的文本序列。这个过程可以通过对模型进行fine-tuning来优化模型在特定任务上的表现,提高生成文本的准确性和相关性。

(3)文本序列与相关段落小节对应:生成的文本序列需要与原始输入的段落小节相对应,以确保生成的内容与输入文章的不同部分相匹配,保持逻辑连贯性和主题一致性。

在图2中,第一句话是任务描述,这个描述不仅告诉了大语言模型应该关注的任务重点,还指示模型理解输入的文章并输出与主题相关的内容。第二部分将原文作为输入提供给模型,模型在这个阶段需要运用其大量的预训练知识和对语言的理解能力,通过对原文的分析和编码,捕捉其中的语境、主题、语义等信息,模型会尝试将输入的信息编码成适合进一步处理的形式,以便于后续对主题进行输出。在第三部分,模型将其对原文的理解转化为与文章主题相关的输出内容,这个输出不仅需要与原文主题相关,还需要保持准确性和连贯性,以便于后续应用或进一步分析。

图2 主题抽取示例

1.1.3 要点抽取

要点提取是一种从文本中识别出重点信息的方法。其主要思想是通过识别文本中的关键单词或短语,从而得到文本的概要或标签。要点提取在文本分类、信息检索、文本聚类等任务中具有广泛的应用。常见的要点提取算法包括基于词频的方法、基于TF-IDF的方法、基于主题模型(如LDA)的方法以及基于机器学习和深度学习的方法[4]。

基于词频的方法是通过统计词语在文本中出现的频率来确定其权重,以较高的频率为主要依据挑选出要点。基于TF-IDF的方法在基于词频的基础上增加了逆文档频率的考虑,该方法可以用来衡量单词在特定文档中的重要性和相对于整个语料库的稀有性。基于主题模型的方法则利用文本中主题的概率分布进行建模,找出与主题相关的词语作为要点。基于机器学习和深度学习的方法是通过对大量训练数据的学习得到要点提取的规律,例如BERT模型可以通过自监督学习得到更好的文本表达。

如图3所示,原文中通过序号1、2、3标记或者带星号标记等信息一般均为事实要点信息,本文通过规则算法将此类信息从原文中直接抽取出来,并利用SimBERT模型评估抽取结果与文章主题的相关性,如果结果涵盖了文章的核心概念、主题或关键观点,那么这些信息便作为要点信息保存下来。

图3 要点筛选示例

1.1.4 事件信息

Open Information Extraction(OIE)是一种从自然语言文本中提取结构化事实的技术。它通过自动识别文本中的主语、谓语和宾语等成分,从而生成一组结构化事实。OIE算法主要分为规则算法和基于机器学习的方法。规则算法是直接查找符合一定规则和模式的词组,然后将这些短语转换为三元组。而基于机器学习的方法则利用神经网络模型或传统机器学习算法,从大量的语料库中学习如何使用统计模型来提取语义三元组[5]。

事件信息抽取是OIE的一种类型,在进行事件信息抽取前,需要对输入文本进行指代消解处理,将文本中的代词和名词指向其代表的实体内容。本文使用语言技术平台(Language Technology Platform,LTP)对文本进行指代消解处理[6],首先对文本进行分词、词性标注和句法分析处理,提取出文本中所有的代词、名词短语等指称词汇。接着,使用规则或模板来判断这些指称词汇与先前提到的实体是否指代相同的实体,如果是,则将它们标注为同一个实体;否则将它们标注为不同的实体。

接下来,本文利用OpenIE6模型对处理后的文本进行事件信息提取。OpenIE6是一个开源的事件三元组抽取工具,其基本原理是从自然语言文本中自动抽取所有事件三元组,包括主语、谓语和宾语。得到这些事件三元组后,再通过KBIR和T5抽取原文的关键短语,最后将三元组与关键短语进行筛选和去重,保留那些具有较高语义相似度和重要性的信息,从而实现事件信息的精确提取。

单独使用OpenIE6进行事件信息抽取时,由于文本表述的多样性和文本上下文的差异性,提取出的事件三元组可能存在一些重复或冗余的信息。因此,结合指代消解以及关键短语的语义相似度比较,可以提高信息抽取的准确率,得到更加精确、完整的事件信息。

1.1.5 段落小节

段落小节是一种将一段文章自动转化为简洁、准确、具有概括性的标题的技术,以提高用户体验和效率[7]。在新闻自动摘要、电商商品推荐、搜索引擎结果呈现等任务中,都可以通过段落小节技术将原文章转换为更为简明扼要的表述方式。

常见的段落小节算法包括基于生成模型的方法、基于强化学习的方法、基于预训练模型的方法。基于生成模型的方法首先将原始文本编码为向量,然后通过循环神经网络(RNN)或自注意力模型(Transformer)等深度神经网络生成标题。基于强化学习的方法通过训练一个智能体,根据生成的标题获得奖励,以优化标题的生成[8]。由于基于预训练模型的方法只需要对已有大规模语料库进行预训练,能够直接完成新文本的生成任务,并且具有较高的效率和准确性。T5、autoNLP和Pegasus都是常见的基于预训练技术的模型[9],具有良好的泛化性和较高的准确性,被广泛应用于段落小节中。

T5(Text to Text Transfer Transformer)是本实验抽取段落小节的基础模型,由Raffel[10]提出。T5是一个通用的基于文本到文本转换的框架,它在许多NLP任务(如文本摘要、问答、机器翻译等)上产生了先进的性能。该框架背后的基本思想是将所有NLP任务转换为文本对文本问题。该框架接收文本作为输入,并生成一个新文本作为输出,如图4所示。

图4 T5模型任务示例

模型以无监督的方式在大型数据集上进行预训练,然后对下游任务进行微调,从而在NLP和其他任务中产生先进的性能。本实验充分利用了预训练模型的优势。由于T5模型是一个微调的预训练模型,因此复制了基本模型的所有参数。然后,在SIPRI网站爬取的数据集上训练模型进行段落小节抽取。

1.2 报告生成

在报告生成阶段,将抽取的事实要点和一些背景信息输入到大模型中,利用大模型的生成能力生成逻辑性强、准确性高的抄清报告。通过输入抽取的事实要点和相关背景信息,大模型能够自动归纳、总结和分析这些信息,并生成结构化的、内容完整的抄清报告。报告内容包括事件的基础情况、重要事实要点、事件发展脉络、情感分析结果以及针对该事件的预案和对策建议等。

1.2.1 模型预训练与微调

思考和决策过程中的推理能力是人工智能的一个重要方面,其中大语言模型(LLMs),如GPT-3[11]、ChatGLM等,通过学习大规模语料库的语言模式和知识在一些自然语言处理任务(如算术、常识和逻辑推理)中能够表现出强大的推理能力[12]。

大模型具有分析推理能力的原理是基于它所采用的深度学习算法和海量数据的训练。在深度学习中,大模型通常是由多个层、多个参数和复杂的网络拓扑结构组成的,这使得它可以处理非常大的数据集和非常复杂的

问题。大模型可以通过反向传播算法来调整网络中的各个参数,使网络的输出结果更加接近于已知的正确答案。这个过程可以让大模型逐渐学会不同的数据特征和问题规律,从而在未知情况下进行预测和推理。

结合自身所积累的抄清行业数据对通用大模型进行微调,并在此基础上结合行业化、场景化的数据与知识进行进一步训练,以提升大模型针对抄清行业及应用场景的模型表现和可控性,形成抄清行业大模型,帮助AI完成“专业教育”。基于抄清行业大模型,可通过API接口等方式,方便、快捷地调用、整合与自身行业更为匹配的行业大模型的底层能力,再结合自然语言处理相关技术能力,即可实现基于抄清大模型的基础报告生成训练。

在大模型训练过程中,主要通过远程监督方式,将纯文本与现有知识图谱进行对齐,能够自动标注大规模训练数据。在完成基础的知识对齐与抽取后,本文通过知识融合解决当前模型缺乏层次性与逻辑性的问题,使模型生成的文章更精准,错误更少,质量更高。

1.2.2 生成报告

对抄清数据进行文本分析之后,需要通过prompts手动模板设计抄清报告的整体结构和布局,手动模板设计是基于人工经验设计模板用以处理文本生成任务,最终调用相应的抄清大模型自动生成抄清报告的内容。本文中采用的抄清报告生成方案为Stanford_Alpaca+LoRA,它是ChatGPT轻量级文档开源版本,使用LoRA技术在Meta的LLaMA 7B模型上进行微调,在冻结原模型LLaMA参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数[13]。由于这些新增参数数量较少,这样不仅微调的成本显著下降,还能获得和全模型微调类似的效果。

图5所示的多维度展示则为事实要点的抽取结果,训练的大模型基于抽取与总结的事实要点信息进行自主报告生成,生成的报告用词准确,语法规范,事实要点逻辑清晰,每条事实描述或总结都有清晰的事实材料依据并标明出处和来源,整体行文流畅,符合实际应用需求。

图5 多维度事件信息展示

通过结合事实要点和报告生成,本文提出的智能抄清方法能够高效地从海量情报中提取有价值的信息,并生成准确且内容丰富的抄清报告。这种方法可以极大地帮助情报分析人员快速理解和分析情报数据,从而提高分析效率和决策准确性。

2 实验与评估

2.1 数据集

本文通过爬虫技术在SIPRI (https://www.sipri.org/)爬取了350篇具有深度的文章作为训练和测试数据集。表1展示了该数据集的一个验证集划分情况。

表1 SIPRI数据集情况

同时为了训练分型模型,本文利用爬虫技术从纽约时报(https://www.nytimes.com)上爬取了600篇相关新闻,并将其划分为科技、经济、政治、娱乐、商业、其他六种类型,表2显示了该数据集的分布情况。

表2 纽约时报数据集情况

2.2 实验设置

实验采用Ubuntu 18.04操作系统、Python 3.10和PyTorch1.8框架,并使用A800 80 GB GPUs进行加速。

本文通过人工评估和专家对比实验,对生成的报告进行准确性、完整性和可读性等方面的评估。

2.3 实验评估

为了使模型的效果评估更加准确,本文邀请了5名领域专家和4名人工智能研究人员使用投票机制对数据集进行训练标注。并根据他们的专业知识和经验,对结果进行主观评估和比较。同时在段落小节部分设计了对比实验:

(1)PEGASUS模型[14]。该模型提出了一种新的自监督目标PEGASUS,在海量文本语料库上预训练基于Transformer的大型编码器-解码器模型。实验表明,它在12个下游摘要任务上取得了先进的性能,在低资源摘要任务上也取得了令人惊讶的性能。

(2)BART模型[15]。BART是一种用于预训练序列到序列模型的去噪自动编码器,通过用任意的去噪函数破坏文本并学习模型来重建原始文本进行训练。当对文本生成和理解任务进行微调时,它尤其有效,与反翻译系统相比,可增加高达6 ROUGE和1.1 BLEU的增益。

(3)T5模型[10]。该模型通过引入一个统一的框架,将所有基于文本的语言问题转换为文本到文本的格式,探索了NLP的迁移学习技术的前景。本文比较了几十项语言理解任务的预训练目标、体系结构、未标记数据集、转移方法和其他因素,并取得了最先进的结果。

3 结果及分析

针对纽约时报数据集,本文对六类分型效果进行了统计和评估。根据图6所示的结果,本文的模型在平均分型效果上已经达到了95%以上的准确率。这意味着本文的模型能够高度准确地对纽约时报数据集中的文本进行分类,并将其正确地归类到对应的六个类别中。这样的高准确率可以为用户提供可靠的分类结果,使他们能够更好地理解和分析数据集中的信息。

图6 新闻分型准确率示意图

针对SIPRI数据集,本文进行了段落小节效果对比研究。随机选择了10篇文章,并使用不同的模型对这些文章进行段落小节生成。图7展示了本文针对训练数据使用的模型相较于其他模型的准确数量,对比结果表明,本文的模型在针对SIPRI数据集中的段落小节生成任务上表现出色。相对于其他模型,本文的模型能够更准确地凝练有信息量的段落小节。这意味着本文的模型能够提供更优质和高效的摘要结果,帮助用户更好地理解和获取文章的核心信息。

图7 段落小节模型效果对比图

基于抽取的事实要点,本文利用微调的大模型生成了20篇报告,以专家总结的关键信息涵盖情况为标准,其包含的重要信息占比如图8所示,实验结果表明,基于大模型的智能抄清方法能够有效地从海量情报数据中提取关键事实要点,并生成准确、全面且内容丰富的抄清报告。与传统手动分析相比,该方法大大提高了分析效率,并减少了人为因素对分析结果的影响。此外,通过与人类专家的对比实验,发现生成的抄清报告在准确性和可读性方面与人类专家的水平相当甚至更好。

图8 报告重要信息涵盖率

4 结束语

基于大模型的智能抄清方法具有广泛的应用前景。它可以在情报分析领域中应用于事件态势研判、预案生成、安全风险评估等任务,为决策者提供准确、全面的情报支持。此外,随着大模型技术的不断发展和改进,未来可以进一步提升智能抄清方法的性能和适用范围。

本文提出的基于大模型的智能抄清方法通过事实抽取和报告生成的过程,实现了从海量情报数据中快速提取关键信息并生成准确、全面的抄清报告。实验结果验证了该方法的有效性和可行性,并展示了其在情报分析领域的应用潜力。未来的研究可以进一步改进模型的性能,拓展方法在更多领域的应用,推动情报分析和推理技术的发展。

猜你喜欢
段落小节文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
羌族萨朗舞歌巴茸的音乐分析
——以羌族舞歌《叶忍》为例
快把我哥带走
【短文篇】
心理小测试
德沃夏克
——《幽默曲》赏析
夏天,爱情的第四段落
李斯特《匈牙利狂想曲第十一首》音乐分析
基于RI码计算的Word复制文档鉴别