郑江平 渠寒花 王慕华 丰德恩 唐 卫
(中国气象局公共气象服务中心 北京 100081)
冬季奥林匹克运动会是世界规模最大的冬季综合性运动会,2022年在北京、河北举办,比赛项目中冰上项目占30%,雪上项目占70%。冰雪项目与气象条件关系密切,尤其是在室外的雪上项目,受气象条件影响更大[1],如高山滑雪,对风速风向、能见度、温度都有严格的要求。气象是冬奥成功举办最关键因素之一[2]。冬奥气象中心现场预报服务团队负责在比赛之前和比赛之中分析、判断、把握天气,将专业预报结论以图片、图表或文字表述的气象服务产品形式传达给公众、赛事组织及国际气象专家,其中,以自然语言表述的气象服务文本,因其直观、形象、简单易懂的特点,成为保障高质量冬奥气象服务链条上必不可少的重要环节。目前,冬奥气象服务文本由服务团队基于观测及模式预报产品人工编辑完成,文本生成效率不高;生成文本质量因编辑人员不同可能出现差异性,质量发生波动;冬奥赛事保障对英文表述文本需求迫切。面对冬奥气象服务责任大、时间紧、任务重、质量要求高等特点,利用自然语言生成技术研究精准、高效的冬奥气象服务文本自动生成技术,成为保障冬奥气象服务成功的辅助手段之一。自然语言生成是人工智能和计算语言学的分支, 是基于语言信息处理的计算机模型,体系结构包括内容规划(宏观规划)、微观规划(句子规划)和表层生成3个基本功能模块[3]。内容规划确定内容并完成结构规划,将句子规划后的文本描述映射到文字、标点等方面,形成表层文本[4-5]。近年来,国内外陆续开展了自然语言文本生成研究与实践,气象领域也应用自然语言生成技术开展了气象文本生成探索。FoG系统能够生成双语天气预报文本[6],SumTime系统能够生成海洋天气预报文本[7],此外,英国阿伯丁大学的Reiter等[8]提出概率生成模型进行天气语言文本的自动生成;相比之下国内相关领域的研究则开展较晚,2000年由上海交通大学研发的多语种天气预报文本自动生成系统(MLWFA)[9]开启了国内基于自然语言处理进行天气文本自动生成的先河,吴焕萍等[10]提出了针对气象落区文本语言生成的基本原理与流程。文本自动生成技术应用于国内奥运会及其他赛事气象服务保障方面[11-12],李德泉等[13]基于TeX模版技术,介绍了奥运气象文本自动化生成流程,服务于2008年北京奥运会、残奥会气象保障任务。
上述研究与实践为冬奥气象服务文本自动生成奠定了一定的研究基础,但实现冬奥气象服务文本自动生成仍需要解决一系列新情况新问题。首先,冬奥气象服务是我国气象服务首次保障国际冰雪赛事项目,需要新建冬奥赛事活动及气象服务用语的专项语料库。其次,雪上项目易受大风(强阵风)、强降雪、低能见度等天气影响,需要提取建立冰雪赛事活动与高影响天气条件的关键数据知识特征。另外,本文将首次尝试运用篇章规划技术构建文本自动生成模型,代替以往使用的模版技术。开展冬奥气象服务文本自动生成关键技术研究,将满足冬奥赛事项目应用场景和服务对象的特殊需求,并为今后各类大型冬季赛事气象服务保障提供解决方案。
设计面向冬奥气象服务的文本自动生成模型,需要从冬奥气象服务场景出发,提取冬奥气象服务文本自动生成的关键特征,涉及冬奥服务文本生成的输入数据、基础语料、句式结构、篇章结构和内容描述等特征(见图1)。输入数据特征方面,关注以点、线、面为属性的冬奥赛区内特定赛点、场馆、重要赛道及赛区的气象要素的时空变化及天气趋势演变特征,以定性描述(如“increase”“be up to”)和定量描述为主(如“11~14 m/s”、“5~8℃”),其分析结果决定了文本内容的准确性;基础语料方面,涉及大量的气象要素类别及量级、赛事名词、规则及句式描述等基础语料;在文本结构方面:主要包括标题、生成时间、天气实况及预报组成,文本结构清晰且比较固定;段落结构方面,英文文本表达,以天气要素或赛事的名词短语(np)、描述天气变化的动词短语(vp)、时态说明(tense)及表达时间、方位的副词(advp)等构成;文本内容方面,涉及赛事监测预报范围内重要关键点的天气、气温、风速风向、积雪深度等要素,构成赛事天气服务热点,根据赛事安排、气象观测条件、天气条件阈值而服务内容差异较大,文本描述的先后顺序也因气象要素与赛事服务紧密程度不同而变化,传统的基于模板的、固定描述顺序的气象文本生成方法无法满足需求。
图1 冬奥气象服务文本篇章结构特征及句式结构特征
针对以上需求,本文提出基于自然语言生成方法的冬奥气象服务文本生成模型,结合冬奥服务数据和知识,形成从气象大数据挖掘分析到知识建模、句式创作、自动生成的智能化文本生成流程,提升冬奥气象服务精细化、自动化和智能化水平。
从模型设计来看,冬奥气象服务文本自动生成的关键问题集中在冬奥专项语料库、内容规划、句式规划及篇章结构规划4个环节(见图2)。
图2 冬奥气象服务文本自动生成模型
语料库实体单元构成了冬奥气象服务文本的基本单元,是冬奥服务领域的知识抽象与建模。通过对文本特征分析,挖掘出冬奥气象服务的规律性特征及文本特性,以专项语料库组织和管理文本相关时间变量、地理变量、方向变量、气象要素变量及断句结构、句式、段落及篇章结构等。由于冬奥气象服务工作开始时间不长,初始语料的获取主要有3种途径:(1) 冬奥现场服务团队提供的冬奥稿件样例,主要包括服务团队2018年项目测试中的文本样例中获取,样本量较少;(2) 在线或历史冬奥资料,利用公开数据集与历史冬奥资料库,利用在线分词、文本挖掘技术进行语料提取,作为冬奥语料库重要内容;(3) 历史大量的气象服务文本,开展中英文文本标注和分词,提取具有共性的天气变量、方向变量、句式结构等,作为对冬奥语料库的有益补充。经规范化处理,初步形成冬奥气象服务的专项语料库,包括赛事名词库、冬奥知识规则库、冬奥服务风险提示库、文本语言连词库四类,形成的语料词条及样例见表1,并根据冬奥服务深入开展而不断丰富。
表1 冬奥气象专项语料库词条语料来源
从冬奥数据、知识挖掘出发,设计文本生成的自动化引擎从而完成文本内容规划,将促使冬奥气象服务文本生成过程从围绕文本的主观探索向围绕服务热点的启发式流程转变。包括气象数据的时空特征分析提取、天气服务热点知识的获取两个方面。
冬奥气象数据时空特征提取,将实时冬奥赛区所有观测站逐10分钟、1小时实况观测数据,以及冬奥气象服务团队进行主观订正之后的0~24小时逐1小时、2~3天逐3小时、4~10天逐12小时预报结论数据通过一定模型转化到空间区域上,结合冬奥气象服务专项语料库中各专用服务名词和气象站点时间、空间和要素值之间的关联关系,构建冬奥气象服务时空特征提取模型,确定气象要素及相关量级,对气象要素的时间、地点、强度等信息进行合理组织,解决从气象数据到文本描述的生成问题,获得文本内容规划气象要素类型、时空变化趋势的描述信息[14]。包含气象要素分级定性、区别性描述、时间对比分析、空间差异比较、可能性描述确定5大类文稿生产内容规划文本特征提取。(1) 要素分级定性:通过对一种或者多种组合分析,对任意天气现象进行更为精细的分级定性。例如根据天气现象雪编码和降水量提取降雪级别,不同降雪量可描述为{snow shower,light snow,moderate snow,heavy snow}。(2) 要素区别性描述:利用指标库中专家经验知识区分一种气象要素在服务用语中更为贴切表述,进而增加服务用语的感情色彩。例如不同天气条件下对气温区别性描述{freezing,cold,chilly,cool}。(3) 时间对比分析:利用历史、实况和预报气象数据对占据空间并随时间变化的气象要素强度进行时空统一推理,确定连续天气过程已经或者将要持续的时间和变化幅度。统计分析结果将存入知识库中,作为下时次开展时间对比分析参考依据。例如表示天气过程发展变化的描述{drop,increase,over,decreas…}。(4) 空间差异比较:对同气象要素值或变量分析在场馆、赛道、赛区等不同地理空间位置所体现的差异性变化,尤其针对赛事高度关注的不同高度赛道风速风向、关键赛程能见度变化的精准分析,采用客观化分析模型生成基于冬奥空间区域的气象要素分布特征。例如赛道的起点和终点可描述为{Men’s downhill piste start,Men’s downhill piste end…}。(5) 可能性描述确定:综合气象要素覆盖的赛区地理区域面积变化气象要素量级,及叠加区域的持续范围移动方向获得天气要素未来几天加强或消逝的天气变化趋势,形成对赛区关注的降雪天气发生可能性的描述{likely,probable,highly likely,almost certainly…},对表述赛场“可能性”描述短语的箱线图,将90%<可能性≤100%时描述为“almost certainly”,以定量分析方法捕捉小尺度山地空间天气要素的细微变化。
冬奥天气服务热点知识的获取。从冬奥气象中心《2022年冬奥会和冬残奥会气象服务需求分析报告(2017版)》中整理(见表2),同时结合与现场服务团队中多年预报经验的专家访谈后,获得与赛事组织、气象服务保障相关的经验阈值和关联规则。冬奥场景下的气象服务知识表现为基础气象观测因子与指标、规则及属性值间的二元或三元关系。将知识内涵定义为持续时间范围内气象因子的分段函数,{气温,最高温,最低温,能见度,平均风,阵风,降雪…},将知识外延设计为冬奥赛事气象服务风险服务等级的偏序集{无风险,风险蓝色等级,风险黄色等级,风险红色等级},结合谓词逻辑和描述逻辑表示的形式化语言,利用形式概念分析多值背景模型转换,实现多值背景向单值背景转换,完成从冬奥数据特征到构建冬奥知识库,实现冬奥知识计算和风险服务等级的挖掘。渠寒花等[15-16]前期将形式概念分析多值背景转换、谓词逻辑及OWL2描述规范研究应用于气象服务领域,为本文工作提供了理论基础和应用工具。
表2 部分冬奥赛事项目与天气条件关系表
续表2
语言学理论是自然语言生成的理论基础。将知识推理结果形成的词、短语等内容规划信息,辅以语言学的修辞关系,可以控制局部连贯性,生成自然语言句式。功能合一语法(FUG)是美国计算语言学家Martin Kay于1985年提出的用于自然语言处理的形式语法,后来成为应用最广泛的形式语法之一。在语法中,词条定义、句法规则、语义规则、句子的结构功能关系全部都由复杂特征集来表示,采用合一运算(unification)进行特征结构(feature structure,FS)的操作和推理。基本思想是输入指定特征,并将特征与生成语法进行一致化,通过递归的矩阵运算,生成全部的特征结构及句式,这种语法既可用于自然语言的自动分析,又可用于自然语言的自动生成,是一种双向性的语法,广泛应用于计算机语言学、机器翻译、自然语言理解与生成等领域。利用FUG理论,根据知识驱动引擎阶段生成的词、短语,加上修辞关系,可以优化组织信息内容,以增强局部连贯性。冬奥赛事服务文本的句式从特征结构来看,主要包括名词短语(赛事项目名称Alpine_Skiing、Sliding、Cross-countrySkiing,天气要素名称如the wind、the temperature)、动词短语(天气变化,如描述气温变化的rise、drop)、副词短语(如描述风力持续时间from pm 6:00-9:00)等,表示了冬奥气象服务领域的“谓词-论元结构”的信息,在功能合一语法中将这些信息转写为功能描述的属性值矩阵,作为自然语言生成系统的输入,梳理形成天气条件功能描述信息(见表3)。
表3 高山滑雪中心某日天气条件功能描述
功能语法进行递归合一运算的过程,利用系统网络结构的属性矩阵,能够处理过去、现在及将来时等不同时态的句子,表达动词的及物性关系,保证句式主语和谓语的数的一致[17],符合冬奥服务文本生成的句式修辞关系要求。每个复杂短语成分的特征(如np、vp等)都有一个模式说明(pattern),而每个简单成分的特征(如名词、冠词、动词)都有一个词汇说明(lex),通过模式指定句子中各个特征的描述顺序,生成系统可以利用模式说明将功能描述线性化。用于生成句式的天气服务短语特征结构列表,将用于生成的语法与输入中的特征结构进行合一,采用多次回归运算,生成全部的文本句式,批量句式生成需要借助英文自然语言自动生成系统,经过多次特征结构转换和递归合一运算,形成文本的基本单元-句式,如“Visibility was good from today morning to afternoon.”“The wind speed will increase from 12th afternoon.”
文本篇章规划是文本生成的一个不可或缺的组成部分,即采用计算机手段,确定所要生成的内容以及生成内容之间的逻辑关系,进行句式、段落及篇章结构的规划、组织和生成。以往气象服务文本的篇章规划主要采用模板方式组织,通过提取文本中的共性特征进行固定化,如固定的标题、标注、图片等,而将文本中的可变部分,如气象信息等使用特定标签标注开始和结束、由分析程序替换为最终产品,模板方法实现起来技术简单,一定程度上满足了定制服务需求,但存在模板风格单调、文本形式单一、模板应用场景可迁移性差的问题。
XML Schema是W3C组织于2001年推荐的模式设计语言。XML Schema提供了广泛且可扩展的类与类型系统[18],其创建方法运用了面向对象的概念和机制,如全局和局部、继承、扩展和替代、封装和模块等,定义的大量组件及面向对象方法,能够定义出现在文档中的元素、属性、元素次序、元素数目、文本类型、混合内容等,约束XML文件逻辑结构,进行篇章结构的组织与管理。结合冬奥气象服务文本结构分析,基于该模式设计文本句式结构、段落结构和篇章结构,并可针对未来需求进行扩展[18]。考虑到冬奥文本结构的层次性、内容的可扩展性和模块的复杂性,本文在篇章结构设计中采用了结构化设计方法,而在段落对象的设计采用了面向对象的设计方法。将文本结构中的段落定义为模式对象,利用接口方式进行对象间交互,在冬奥服务文本中,对象可以是一个词、词语、句式或段落。设计多层嵌套封装的层次,将句式定义为Schema的嵌套组件,同时将句式组件中的词语、词封装为类型(相当于文本中的变量名)的全局组件,从而所有变量可被全局访问和重用(相当于文本中的时间、要素变量值)。本文应用该模式在句式顺序组织、同义句式多样化表达和篇章结构的组织三方面实现了文本篇章的组织和生成:(1) 句式描述顺序的组织。句式描述顺序决定了段落的组织结构。气象要素及数值量级的描述,与赛事及相关气象条件密切相关,由特征引擎阶段获得的要素及量级的优先级确定,在模式生成时依据优先级类型加入索引标注,自动形成段落中天气热点句式组织。(2) 同义句式的多样化表达。采用动态扰动进行同义短语替换能丰富语言表达方式,如,同是对于天气晴朗的表述“fair,clear,sunny,bright”,预设多种表达方式,实现句式的同义替换,在自动化实现过程中,以
图3 经XML Schema规划的文本层次结构
综合上述文本自动生成方法,对冬奥气象服务文本的生成进行定时任务设置,利用Python编程实现,完成北京延庆赛区高山滑雪中心气象服务文本自动生成,并在2019年—2020年现场服务团队冬训中得到应用、反馈(文本生成样例见图4)。
图4 冬奥气象服务文本模型自动生成样例
开展文本自动生成评价有助于模型的完善和改进。借鉴国内外自然语言生成评价方法,结合冬奥服务文本应用场景,经与现场服务团队协商,先期以准确度、流畅性和生成效率等3个指标评价模型质量。由于人工样本量较少,技术团队先后以文本比较、问卷调查、现场访谈方式,对比分析了2019年12月至2020年1月由现场服务人员和计算机分别生成的文本内容,得到初步结论:
(1) 自动生成的文本内容,在数据时空特征及天气服务热点信息提取方面准确率高,相较现场服务人员人工撰写的服务文本更能精准获取服务要点,同时能兼顾赛事其他重要气象要素的描述,行文结构比较客观。人工撰写的文本会因预报员之间经验差异,在数据分析结果、天气热点捕捉、文本内容撰写方面体现出更多主观性。
(2) 自然语言描述较为顺畅,经功能语法规划的英文句式表达,一定程度解决了从词、短语生成句式的问题,能满足服务产品基本要求。但整体来看,自动生成的句式以基础单句为主,与人工撰写相比,句式之间的逻辑性相对较弱,尤其对于阶段总结性句式表达,常常需要服务团队人工补充,这也是自然语言生成的难点所在。
(3) 文本自动生成效率高,从人工撰写2小时缩短为分钟级、秒级的自动生成,极大程度简化了人工数据分析、对比、文本撰写的工作量,得到现场服务人员的认可。
就文本自动生成模型试用和反馈来看,冬奥现场服务团队总体认为文本生成效率较高,能对天气服务热点快速反应,形成初步满足现场服务人员的实用性强的文本材料,可以作为现场服务文本材料初稿。
冬奥气象服务文本自动文本生成,根据冬奥气象服务需求及文本特征要求,旨在以精确、高效、自然语言表述的文本自动生成减轻现场气象服务人员工作量,有效保障冬奥气象服务时效性,提升气象服务保障水平。以自然语言生成、功能语言学理论为指导,提出包含专项语料库的语料收集与预处理,构建冬奥服务特征的驱动引擎实现服务热点发现,利用功能合一运算进行文本句式生成,并基于XML Schema实现文本结构的组织和生成,形成了冬奥气象服务文本生成解决方案,初步满足测试赛期间服务人员需要,主要体现在:
(1) 提出冬奥气象服务热点知识快速发现及应用方法。以W3C描述逻辑为基础,设计集数据特征时空分析、赛事阈值条件、服务指标的特征驱动引擎,通过智能推理应用形成赛事气象服务热点,使冬奥赛事气象服务保障更有针对性。
(2) 实现了功能语言学在气象服务文本生成中的应用。从功能语言学角度,研究气象服务知识、短语、关键词的语言组织,较传统模板生成在核心知识表示准确度、自然语言表达流畅性方面有了很大进步。
(3) 形成文本自然语言表述多样性技术的探索与应用。基于XML Schema规划的文本篇章结构规划,尤其是动态扰动的句式组织,使区分不同日期、天气条件、服务场景的自然语言表述成为可能,推动在描述风格、词语表达上的技术创新。
文本生成研究将随着冬奥气象服务的推进不断完善,深入应用分析反馈与定量评估将是下一步将要开展的工作。目前来看,本文在功能语言学文本表层生成技术方面尚未涉足。另外,研究将现有文本生成功能集成于冬奥现场气象服务等业务系统中,形成文本辅助生成的工具供用户使用也是下一阶段工作将要考虑的重点。