李 栋,刘人杰
广东司法警官职业学院, 广东 广州 510520
当前,人们对消防安全的要求越来越高。这不仅需要进一步研究消防工程技术和大力培养消防救援队伍,更需要改进现有消防安全管理模式。然而,目前消防安全管理存在一定不足。首先是民众消防安全意识淡薄。在经济效益主导观念影响下,消防安全管理工作一定程度上被忽视[1],部分民众消防安全意识差,缺乏基本防火、灭火、逃生自救常识[2]。其次是专业人员不足,消防技术服务机构部分从业人员未获得执业资格,专业技术能力不强,难以胜任技术服务工作[3]。消防安全主体也缺乏消防安全管理人员,以住宅小区为例,部分住宅指派非专业人员兼职消防工作,消防设施、器材长期无人管理,甚至消防控制室无人值班[4]。此外,日常消防安全管理通常只涉及消防设施和器材的维护和保养,忽略了消防安全宣传教育、消防演习等。综上,如何加强消防安全管理成为当前亟待解决的问题。
而今随着自然语言生成技术(Natural Language Generation,NLG)的日趋成熟,出现了以概率学为基础的大语言模型(Large Language Model,LLM)和以图数据库为基础的知识图谱(knowledge graph)等典型应用,为现有消防安全管理模式的改进提供了解决方案。本文探讨自然语言生成技术在消防安全管理领域中的应用,为消防安全管理与自然语言生成技术的结合应用提供借鉴。
自然语言生成是自然语言处理领域中的一个研究方向,通过对关键信息进行规划和表达,使计算机能够像人一样生成高质量的自然语言文本。在诸多应用领域中,如智能客服、智能写作、新闻自动化等,都证明了其潜在的应用价值。从整体消防安全管理应用来看,自然语言生成系统可分为数据层、中间层和自然语言生成层,如图1所示。
图1 自然语言生成系统框架图
1. 数据层
在数据层,系统需要获取预先输入的数据源。数据类型主要有文本、数据、图片及视频,根据标注与否可分为原始数据和标注数据。原始数据如现行消防安全管理制度中某一条文本身,可作为自然语言处理的语料;标注数据如一张消防车道被车辆占用的照片,通过人工标注为占用,则该照片的标签为“存在占用”,可用于图像识别算法的训练。
2. 中间层
在中间层,系统将数据层中的数据解析存储到数据库或者训练成机器学习模型。针对不同数据格式,分别采用自然语言理解、数据处理、图像识别和视频分析的方法。
自然语言理解是将人类语言处理转化为机器语言,处理流程大致分为获取语料、语料预处理、特征化(把字和词表示成向量)、模型训练,随后对模型效果进行评价。通过对语言模型的使用,可实现信息检索、文本分类和自动文摘等[5]。
数据处理是将数据源处理后,从中提取有益知识,并用恰当的方式将结果展现给终端用户。其流程通常包括数据抽取与集成、数据分析、数据解释[6]。数据处理结果存储在数据库中,根据数据层中数据的不同结构可设计为图数据库、关系型数据库等。如对应急预案文本进行信息抽取后的三元组信息(头实体、尾实体、关系)可存储至图数据库中,从而具有高效的图遍历和查询能力,可通过查询语句便捷获取信息;对建筑信息模型IFC4 格式进行消防设计信息提取,可将建筑内部细节转化为可用于消防合规性审查所需信息[7]。
图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术[8],主要分为以特征提取为核心的传统方法和以深度神经网络为核心的深度学习方法,可以实现图像分类、目标检测、人脸识别等。
视频分析的本质是对连续图像序列进行处理,其实现方法与图像识别的实现方法类似。基于深度学习的视频分析可实现对象分类、对象检测、路径跟踪。其中,对象分类是获取视频中对象所属的类别,对象检测是获取对象在视频图像中的位置,路径跟踪是获取同一对象在连续时间内的位置信息[9]。
3. 自然语言生成层
在自然语言生成层中,需要构建一个系统来结合用户的即时输入和中间层组织生成输出文本。根据用户即时输入的不同,自然语言生成可分为文本到文本的生成和数据到文本的生成[10]。
文本到文本的生成主要研究内容为输入现有文本,对其进行变换和处理,生成一个新文本,主要包括文本缩写、文本扩展、文本改写和推理等。(1)文本缩写是指提取长文本的关键信息生成短文本,其应用可分为文本摘要、问题生成和干扰项生成。文本摘要是指根据原文生成新的文本以表达原文的核心含义;问题生成是指根据给定的事实输入和答案,生成自然语言表述的问题;而干扰项生成是为给定的问题回答组合自动生成足够的干扰选项,以形成适当的选择题[11]。如火灾应急预案通常包含大量信息,但不是每个人都有时间和精力阅读整个指南。文本摘要可以自动从应急预案中提取关键信息,生成针对个人的摘要,方便消防工作者和群众掌握发生火灾时具体的行动流程。(2)文本扩展是指将短文本扩展为包含更丰富信息的长文本,其应用可分为短文本扩展和主题文章生成。短文本扩展为基于一组长文档将短文本扩展为类似的长文本;主题文章生成是给定主题集合,生成主题相关的文本。如在应急预案编写过程中,文本扩展可根据使用场所的性质生成常见危险源,或根据消防设施种类生成对应的使用方法,减少应急预案制定的工作量。(3)文本改写和推理可分为文本风格迁移和对话生成。文本风格迁移是指在保留原文本内容的基础上,生成具有目标风格的文本[12]。如在消防安全宣传中,由于不同受众群体对消防安全知识的储备量存在差异,可以使用文本风格迁移技术,将一篇消防安全知识宣传文本转换成适合不同知识背景的语言风格,以便更好地理解和接受。对话生成是指自动生成答案来回答给定问题。如通过对话生成技术可以开发出智能辅助系统,该系统可在实时提供建议和指导的同时协助人们更好地应对不同情况下的紧急救援任务。
数据到文本的生成主要研究使用恰当而流畅的文本描述结构化的数据,分别采用基于规则和模板的方法与基于神经网络序列生成方法。基于规则和模板的方法通过将规范化或半规范化的数据经过一系列处理后,模仿人类专家语言模式制作规则语句模板,生成专业性较强的文本。此方法通常适用于特定领域如生成医学检验报告。基于神经网络序列生成方法根据数据库的输入记录生成一个内容计划,指定哪些记录将在文档中及以何种顺序进行语言描述,随后以给定数据作为输入,按照内容计划生成文本[13]。如以某个地区既有生产安全事故总体情况作为训练材料生成内容计划,随后将当月该地区的事故数据输入系统,以生成月度生产安全事故总体情况。相比较基于规则的方法,基于神经网络序列生成方法对数据到文本生成的泛化能力更强,但需要庞大的训练数据作为支撑。
视觉—语言生成属于数据到文本,其目标是生成给定图像或视频的解释或摘要,包括图像描述、视频描述和视觉叙事[10]。图像描述是对给定一幅自然图像生成一句自然语言描述。视频描述是对给定一段视频(通常是几十秒的短视频)生成一句准确、细致描述。视觉叙事要求模型对给定图像序列,在深度理解图像序列基础上生成连贯的叙事故事[14]。
从对自然语言生成技术的研究中可以得知,要将其应用在消防安全管理领域,必须收集大量消防信息,这些信息可从消防文本和消防数据中获取。(1)可用的消防文本包括政府发布的消防文件,如各级消防法律、消防系统设计验收规范和消防政策文件;各单位已有的消防管理工作文本,如消防档案、灭火与应急疏散预案、消防安全隐患检查报告、消防培训讲稿、消防工作例会记录等;消防知识文本,如消防行业教科书、网络百科全书、科普文章、火灾事故案例等。(2)可用的消防数据包括既有智慧消防建设成果,如收集的消防设施数据、对应的消防数据分析结果、消防监控系统记录的图片视频等;既有消防工作数据,如各类消防设施的技术参数、防火检查巡查记录、建筑信息模型或情况表格等。
基于上述消防信息资源,可以利用自然语言生成技术来实现消防安全管理领域的自动化和智能化。通过将这些信息资源输入到自然语言生成系统中,可自动生成或填充消防安全管理领域的自然语言文本,赋能消防安全管理工作,从而提高消防安全管理的效率和准确性。
消防安全管理涉及预防火灾、减少火灾损失及保障人员生命和财产安全,涵盖对消防安全责任的明晰、消防安全制度和管理措施的建立、灭火和应急疏散预案的编制和演练等,均涉及大量文本的撰写。下面结合现有技术具体分析自然语言生成技术在消防教育培训和完善消防安全管理制度方面潜在应用,如图2所示。
图2 自然语言生成技术消防应用
消防教育培训旨在提高人们对火灾的认识和了解,培养人们火灾安全意识和自救互救能力,以减少火灾事故的发生和降低火灾事故的损失。自然语言生成技术在其中的应用主要包括以下几方面。
1. 火灾基础理论讲解
消防教育培训的目的是让受众掌握防火、灭火、疏散知识体系,只有熟练掌握火灾基础理论,才能根据不同情况选择合适的策略。当前火灾基础知识的讲解主要基于教科书内容,而在具体消防培训中,培训对象学历层次和专业不同,对火灾相关名词的了解程度不一,单一的课程内容难以满足需求。文献[15]针对包含辱骂、侵犯等词汇的攻击性言论进行了基于深度学习的短文本去攻击性研究,提出替换攻击性词语和改写全文文本风格迁移方式。基于类似逻辑,可对火灾相关名词不同解释详细程度进行分级,从而生成适合不同学历层次的火灾基础理论讲解文本。如对未接受理工科教育受众,可结合具体例子和实际应用解释火灾相关名词,对涉及的化学物质,增加介绍性文字说明;对低年级学生,则更多使用比喻形式文本,并通过其他文本风格迁移模型生成偏口语化的文本,提升学生群体接受程度。
2. 消防法律法规知识普及
消防从业人员了解和掌握消防法律法规非常重要,但消防法律法规涉及司法、消防、住建多个部门,相关条文数量大且更新速度快,对消防从业人员的学习能力提出一定挑战。对群众而言,消防法律法规学习成本高,难以理解。文献[16]提出基于自然语言处理技术构建民法法律知识图谱,利用知识图谱结构,帮助法律工作人员对案件进行分析、处理和判断。因此,可对消防法律法规条文进行语法解析生成知识图谱,并设计若干查询语句。在实际使用中,可根据教学目标筛选出若干条文,如对商业综合体员工进行培训,则可以通过查询语句输出本地适用的消防安全管理规定,以及针对商业综合体具体部位的防火规范要求,从而提升人们对消防法律法规的认知和理解。
3. 火灾应急处置能力培训
火灾发生时,正确的应急处理措施可最大程度减少人员伤亡和财产损失。消防教育培训需要培养人们的应急处置能力,从而根据不同场景,执行正确的应急处理方法。文献[17]提出名为GPT-3的大语言模型,通过海量文本、问答、范例作为训练样本,可用于文本生成、自然语言理解、对话系统等领域。在大语言模型中,由于海量输入信息中包括某种情形下火灾的处置方法,在对其系统进行提问时,会基于多次出现的问答模式输出正确率最大的回答,同时随着大语言模型高质量训练样本数量和大语言模型参数的增加,生成的回答将更加准确。此种方法依赖于高质量的语料,但由于大语言模型的黑箱特性,输出的回答可能出现错误,因此需要人工进一步修改。因此也可对火灾应急处置知识文本进行语义分析生成知识图谱,此种方法成本更高但结果可控。
4. 自动生成问题
在上述三种培训内容里,为检验学员知识掌握程度,培训教师往往会设计一系列问题作为现场问答或课外习题。文献[18]提出一个通用型的面向跨语言生成的预训练模型,并在汉语事实性问答数据上进行了问题生成试验。对于消防知识,可使用类似的神经网络模型自动生成问题,通过输入指定教学文本,系统输出该模型下置信程度最高的问题-答案组。通过这种方式,消防培训教师可快速生成大量高质量练习题,帮助受众更好地掌握知识。此外,自动生成问题的方法还可以用于自适应学习,学员可根据自己的学习进度,通过系统自动生成练习题。
5. 消防设施的辨识和使用
消防教育培训中,消防设施的辨识和使用是一个重要的教学内容,其种类繁多,形状与功能也各不相同,需要有针对性地进行教学。文献[19]提出名为OFA 的统一的文本图像多模态预训练模型,可应用于各种任务,包括图像生成、视觉基础、图像描述、图像分类、语言建模等。通过图像描述技术,可生成消防设施图片的文字描述,学员可通过自行拍摄照片生成文字描述来学习消防设施的特点和使用方法。但目前图像描述技术对消防设施的识别不够深入,用于模型训练的图像描述文本未与国内消防规范结合,无法根据消防设施的型号生成更具体的描述文本,在后续工作中可加强消防规范与多模态模型的耦合。
总体而言,消防教育培训应用面对的群体多样性强,学习的连续性和强度也难以保证,因此当前消防教育培训主要通过课程、媒体宣传和平面图指导等方式相结合,碎片化程度较高,导致群众普遍缺乏系统完整的消防知识。自然语言生成技术所具备的特性适于消防教育培训行业,如上文通过对火灾基础理论教学和消防设施辨识和使用教学等的分析,分别提出利用文本风格迁移和图像描述的方法可解决该教学中存在的痛点。就目前而言,利用自然语言生成技术为消防教育培训赋能的情况较少,但随着模型训练成本的进一步下降和适于自然语言生成的消防文本/数据日益丰富,消防教育培训将会与自然语言生成技术深度融合,给群众带来更加个性化、即时性的消防知识。
消防安全管理制度要求社会所有个体遵守并执行相应规则,使消防管理工作的开展具有一定科学性与规范性,避免出现盲目管理导致的安全事故[20]。然而,如果缺少消防专业人士的参与,消防安全管理制度可能存在覆盖范围不够、缺乏可操作性及执行不到位的问题,通过自然语言生成技术,可在如下方
面对消防安全管理制度进行改进。
1. 制度编写
消防安全管理制度是消防安全管理的总纲,需要准确、具体规定消防管理工作的各个方面。在编写过程中,存在以下困难:首先,许多单位缺乏消防安全管理制度编写经验,需要外部专家协助制定;其次,制度内容编写者需要对相关法规、标准和火灾相关知识、案例有深入了解,出台的制度才具有指导性;此外,消防安全管理制度只有与单位内部实际情况深度融合,才具有可操作性。
基于大语言模型的自然语言生成技术可通过学习消防安全管理制度的范本、单位情况、火灾案例和防控措施,生成符合标准的消防安全管理制度,并由单位消防安全管理制度编写者承担修改职责,如图3所示。此外,对单位现有建筑信息进行抽取,可将所需要的建筑内部细节转化为文字数据的表述,从而作为大语言模型的提示,帮助自然语言生成系统更加准确地生成消防安全管理制度。由于大语言模型通过强化学习思想可将生成的制度符合所给定的制度模板,在制度规范化上具有优势,此外通过对建筑信息和单位情况的读取,可将所有相关的消防安全管理措施罗列出来,方便制度编写人员进行修改。
图3 消防安全管理制度编写流程
然而,自然语言生成技术的黑箱特性可能会导致消防安全管理制度编写应用中存在信息不确定性、错误、不完整等问题。因此,可以采取以下措施来解决这些问题:首先,完善自动编写制度的修改审核机制,确保制度通过专家的修改审核之后才可以发布,并着重对大语言模型未能根据新发布消防法规修订内容所制定的制度内容进行修正。其次,应尽量使用高质量和时效性的消防安全管理制度作为大语言模型的语料,并按照不同场所性质分类,使得生成的制度文本更加具有指导性和适用性。
2. 制度执行
消防安全管理制度的执行是消防安全管理的关键环节,也是防范火灾事故、保障人员生命财产安全的最后一道防线。然而,实际执行中,由于人员流动性大、制度培训不到位、员工维护制度的积极性不高等原因,制度执行难以达到理想效果,从而导致消防安全管理工作的失误。
基于自然语言的历史火灾数据库查询(text-to-SQL),可根据具体消防安全管理制度和不同场所,生成真实火灾案例作为管理制度的补充资料。文献[21]通过构建多个深度学习模型来实现自然语言查询到SQL 语句的转化方法,可实现自然语言查询数据库内容。通过将自然语言数据库查询技术与自然语言生成技术结合,可生成真实火灾案例补充资料,使消防安全管理制度中的要求更容易被接受,也可消除人们的侥幸心理。然而,真实火灾事故往往涉及公民隐私和数据安全问题,因此需要通过火灾模拟结果作为补充。在后续研发中,可由国家统一发布典型火灾事故、单位内部火灾案例及可信度高火灾模拟结果,三者组成历史火灾数据库,并增加火灾查询语句语料,提高针对消防安全管理方面的查询语句生成效果。
使用自然语言生成技术可对消防安全管理制度生成针对性的制度执行手册,帮助个体理解执行消防安全管理制度。命名实体识别技术可实现从非结构化的文本中识别出所需的实体及类型,其识别结果可用于实体关系抽取、知识图谱构建等众多实际应用[22]。通过命名实体识别技术,可对消防安全管理制度中的关键实体进行识别,如人员、消防设施、危险源及建筑部位等。在实际应用中,可对不同类型人员涉及的管理制度统一摘出,随后将消防设施、危险源及建筑部位等信息输入大语言模型,经修改审核输出具体操作方法,从而生成针对特定类型人员的制度执行手册。
与消防教育培训不同的是,利用自然语言生成技术对消防安全管理制度进行编写和执行对出现错误的容忍性更低,专业性要求更高。在制度编写上,因为制度的合适与否取决于其应用场所和服务人群,而非消防知识类型的事实性文本,因此制度编写依赖于人工干预,但日后随着按各种类型场所和不同受众的消防安全管理制度文本大规模共享,自然语言生成制度的准确率将会进一步提高。而制度执行是在制度编写的基础上解释制度,因此从制度层面和用户层面可分别生成辅助文本,以保证制度的准确执行。
随着新一代信息技术的飞速发展,自然语言生成技术在消防安全管理领域中低成本、大规模的应用成为可能,但也面临着来自技术、安全和制度等多方面的挑战,急需进一步改进。
自然语言生成技术需要大量语料文本进行模型训练,以ChatGPT 为例,其公开的GPT-3 版本共使用了45 TB 大小的语料及1 750 亿个参数[20],就目前而言,ChatGPT 在公开文本信息较多的领域取得的效果更好。而在消防安全管理领域,相关制度、语料库和数据集的缺乏目前是一个亟须解决的问题,如文本风格迁移需要大量平行语料、图像描述需要大量图像标注数据。因此,要解决这个问题,首先,需要各个单位在日常消防安全管理中积累并上传各类语料和数据,丰富语料库和数据库的内容,提升自然语言生成应用效果;其次,要解决好数据共享问题,高质量的语料作为消防工作的积累成果,可通过设立付费机制或共享联盟的方法,促进语料之间的共享。
在使用自然语言生成技术时,使用到的信息涉及单位内部建筑细节、消防数据等,对某些单位而言,可能存在数据泄露、机密流出等风险。同时,个人在使用服务器在境外自然语言生成服务时,也会导致大量中文语料流出,不利于我国在自然语言生成技术领域与发达国家的竞争。要解决这些问题,首先,需要大力发展我国自主可控的消防自然语言生成系统,对用户上传的消防信息要进行加密和权限控制,保证数据安全;其次,也要防止境内消防数据、消防资料等被境外通过计算机爬虫等技术抓取用于自然语言生成模型训练,如中国知网已根据《数据出境安全评估办法》[23]限制境外用户访问,体现了我国对自然语言文本资源外泄的防范;最后,要加强对公民的信息安全教育,控制单位内消防安全数据信息流向,并对违反规定的行为进行处罚。
自然语言生成技术的准确性和可靠性对消防安全管理领域的应用至关重要。如果模型生成的信息不准确或有误,可能会影响消防工作的决策。因此,要提高自然语言生成技术的准确性和可靠性,需要进一步改进其算法和模型,加强对语料库和数据集的处理和分析,提高模型的精度和鲁棒性。同时,也要以增加人工审核环节、生成信息来源的方式,加强对生成内容的审查,基于概率学的自然语言生成则需要通过引入第三方插件的方法来解决黑箱问题。另外,也要实时更新自然语言生成技术中使用的模型或数据库,保证生成的内容符合最新的消防法律法规。
当前自然语言生成技术通过对人类作品的学习模仿,在许多行业达到了熟手的程度,深刻改变了人类社会的内容产出模式。而消防安全管理领域涉及大量文本的处理,与自然语言生成技术的许多典型应用场景不谋而合。本文首先从自然语言生成技术的主流应用出发,将其划分为数据层、中间层和自然语言生成层,并结合消防安全管理应用分析了应用场景,梳理了当前自然语言生成技术所需的消防文本和消防数据。随后分别探讨了自然语言生成技术在消防教育培训和消防安全管理制度改进两个方面的应用形式,参考了自然语言生成技术中的文本风格迁移、问题生成等模型方法,为其实际落地应用提供了借鉴。最后剖析了自然语言生成技术应用所存在的普遍问题和在消防安全管理结合应用中存在的特殊问题,包括语料库及数据集缺乏问题、信息安全问题及准确性和可靠性问题。而在实际工作中,如何将自然语言生成技术真正在消防安全管理中应用,还有赖于政府、企业和高校之间的协同合作,共同探索自然语言生成技术在消防安全管理行业的实际应用方式。