张守先 任鹏 李满江
(1.半岛都市报社,山东 青岛 266071;2.潍坊日报社,山东 潍坊 261000;3. 潍坊北大青鸟华光照排有限公司,山东 潍坊 261061)
新闻报道是及时传播信息和监督社会的重要方式,对社会发展非常重要。这要求新闻写作高效和准确,全天候产出大量高质量新闻。然而,传统新闻写作完全依赖人工记者,效率比较低,难免会出现延迟和错误,影响新闻的时效性和准确性。同时,传统写作也易受个人主观因素影响,新闻报道的真实性和客观性难以保证。
近年来,神经网络、深度学习和生成模型等技术的快速发展,特别是预训练语言模型的出现,使机器具有了比较强的语义理解能力和长文本生成能力。这为新闻自动写作提供了可能,有望提高新闻写作的效率和客观性。如基于seq2seq 和GPT 的方法实现了新闻摘要和标题生成;基于BERT 的方法可以生成简短的新闻文章。这些工作推动了新闻自动写作技术的发展,但生成文本的连贯性或多样性仍有提高的空间。
目前基于人工智能的新闻写作,主要用于以下几个方面。
(1)自动化新闻撰写:基于数据模板,生成如运动比赛、股票行情、天气预报等自动化新闻。
(2)财经新闻编写:根据金融数据,自动生成相关的财经新闻、分析报道。
(3)影评撰写:根据影片数据和评论材料,自动生成影评文章。
(4)赛事新闻:根据体育赛事数据,自动生成球赛新闻、运动员数据分析等。
(5)新闻稿自动编辑:辅助编辑进行新闻写作和修订工作。
(6)新闻摘要生成:自动析出新闻文章的关键内容摘要。
为实现新闻写作的高效化、准确化和客观化,这个项目提出利用ERNIE 等预训练语言模型,通过大量新闻数据集的训练,实现高质量新闻稿自动生成的方法。ERNIE 是一种基于BERT 的语言表示模型,在长文本生成和多样性方面有较强的能力。项目使用大规模新闻语料库训练ERNIE 新闻写作模型,使其学习新闻文章的语法、词汇、结构和风格等知识。在此基础上实现高质量新闻稿的自动生成,以期达到与人工写作相当的效果。
这个项目的提出是基于新闻写作需求和现有技术发展的考量。方案有望实现新闻采写的自动化与智能化,构建高效、准确与客观的新闻报道体系。
新闻自动写作是自然语言生成的重要应用之一。早期的工作主要基于模板和规则,生成效果比较差。随着深度学习和神经网络的发展,特别是预训练语言模型的提出,新闻自动写作取得了比较大的进展。对新闻自动写作而言,核心是训练一个能够生成连贯、语法正确、主题明确的长文本的神经网络模型。具体来说,常用的技术路线包括。
(1)数据准备:收集大规模的高质量新闻文本数据,包括新闻标题、内容、摘要等。并进行数据清洗、分词等预处理。
(2)模型选择:通常选择基于Transformer 或LSTM 等结构的预训练语言模型,如GPT、BERT 等,这类模型在长文本生成任务上效果较好。
(3)模型训练:使用新闻文本数据针对语言生成任务进行模型精调。训练目标是最大化生成新闻文本的链式概率。
(4)文本生成:给定新闻主题、关键词等条件,模型自动生成标题和正文。可以生成一篇完整的新闻,也可以只生成摘要等。
(5)生成文本后处理:对模型生成文本进行语句规范化、语法纠错等后处理,提高可读性。
(6)结果评估:从语法、逻辑、连贯性等方面评估生成文本的质量,并反馈改进模型。
关键的创新点是利用大规模预训练模型,让模型学习新闻语言的语法和风格特征。相比以往基于模板的方法,预训练模型生成的新闻文本连贯性更好,逼近人工写作效果。但仍需人工审核,以确保生成质量。
基于seq2seq 模型的方法可以生成新闻摘要和标题,但生成的文本连贯性和准确性比较差。GPT 在较长文本生成方面有优势,应用于新闻文章生成,但生成的文章主题单一,缺乏多样性。BERT 的出现使机器具有比较强的语义理解能力,在文本分类、摘要和问答等任务上均取得优异效果。基于BERT 的方法实现了新闻摘要和关系抽取,证明BERT 可用于新闻生成。但BERT 对长文本生成的能力较弱,生成的新闻文章较短。ERNIE 是在BERT 基础上的改进,在长文本生成与多样性方面表现更优。Sun 等证明ERNIE 可以生成连续且主题多样的长文本,为新闻文章生成提供有益启发。
这个项目在ERNIE 等预训练语言模型的启发下,提出通过新闻数据集训练ERNIE 模型,实现高质量新闻稿自动生成的方法。此方案生成的新闻稿连贯且准确,具有较强实用性,期望达到与人工写作相当的效果。
为实现新闻写作的高效化、准确化与客观化,本项目提出利用ERNIE 等预训练语言模型,通过海量新闻数据集训练,实现高质量新闻稿自动生成的方案。
百度在预训练语言表示模型领域进行了大量研发和应用,主要的中文预训练模型包括:ERNIE(Enhanced Representation through kNowledge IntEgration)、ERNIE 2.0(在ERNIE 基础上提出持续学习框架,可以不断从数据中学习,增强模型能力)、ERNIE-Gram(针对语法任务,如语法解析、语义角色标注进行预训练,获得强大的语法建模能力)、ERNIE-Gen(支持端到端的文本生成,构建通用的生成预训练框架)、PCL-Med(医疗领域特定的预训练语言模型,提供精准的医疗文本理解)、PLATO-2(大规模预训练语言模型,具有超过200 亿参数,是当时最大的中文预训练模型)、 CPM(Chinese Pretrained Model)(百度自研的最新预训练模型,具有千亿规模的参数量和强大的语言理解能力)等。ERNIE 是百度推出的一款基于BERT 的中文预训练语言表示模型,代表了百度在知识增强预训练模型上的创新,是在BERT 基础上的改进,引入了知识图谱,增加实体语义的理解能力,增加了语言表示对多义词、同义词的理解,提高句法分析能力,采用逐段预测的训练方式,提高长文本生成能力,引入短文本匹配任务,增强了文本相似度的判断能力,设计了新的数据集,如多义词数据集、同义词数据集、新闻标题数据集等,进行细致的语义理解预训练,构建了领域知识图谱,如百科知识图谱、产业知识图谱等,加入先验知识,采用了句子重排、相似句子匹配等预训练任务,进一步强化语义理解,使用海量高质量的数据进行了预训练,提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有显著提升,更适用于智能写作等生成应用。相比BERT,ERNIE 在长文本生成和多样性方面表现更优,适用于新闻文章生成。[4-5]本项目使用ERNIE模型,其参数量较小,训练速度更快。[3]
项目使用百度新闻数据集,其包含数百万篇新闻文章及元数据。选取了近3 年的近百万条新闻,数据集按7 : 2 : 1 比例划分为训练集、验证集和测试集。训练集(Training Set)用于训练模型的参数和权重,占数据集的最大比例,一般60%~80%,反复使用以“训练”模型,使其逐步学会特征模式。验证集(Validation Set)用于调整超参数和评估训练过程中模型的性能,占数据集的较小比例,一般10%~20%,不用于训练参数,只用于指导如何改进模型。测试集(Test Set),用于评估最终训练好的模型在真实数据上的表现,占数据集的较小比例,一般10%~20%,只使用一次来全面评估模型效果,不用于也不可见训练。划分这三个数据集是为了使模型泛化性更好,避免过拟合训练数据。采用不同数据的评估使模型更稳定可靠。
在数据集上训练ERNIE 新闻写作模型的流程如下。
(1) 对新闻数据集进行清洗、分词和过滤,获得高质量的数据集;去除重复新闻、用程序去除空行无效字符等噪声数据、纠正一些明显的拼写错误、用程序移除无实际语义的停用词(吧、吗、啊、噢,等)、删除信息量太少的新闻样本等,这样可以提高数据集的整体质量,移除噪声数据,获得干净、高质量的新闻语料库,更好地训练ERNIE 写作模型;
(2) 按照ERNIE 模型的输入格式,对数据集中的文章标题、内容和摘要等进行编码,增加[SEP] 、[CLS] 等标记,ERNIE 模型限制最大输入长度为512 个词汇,超过的部分会被截断;
(3) 设定ERNIE 模型结构和训练超参数,如学习率(Learning Rate)、训练批大小(Batch Size)、训练轮数(Epoch Number)、序列长度(Sequence Length)、优化器(Optimizer)、权重衰减(Weight Decay)、 热启动比例(Warmup Proportion)、 峰值学习率(Peak Learning Rate)、损失函数(Loss Function)、裁剪比例(Clipping Ratio)、随机失活比例等,这些超参数需要通过反复试验来确定合适的组合,才能让ERNIE 在新闻写作任务上获得最佳的训练效果;
(4) 使用训练集对ERNIE 新闻写作模型进行预训练;
(5) 使用验证集对模型进行评估,调整超参数,选择较优模型;
(6) 最终模型在测试集上生成新闻稿,并进行人工评估。
模型生成新闻稿的流程为:输入新闻主要内容(主题、关键字等);ERNIE 模型自动生成一篇完整的新闻文章,包括标题、内容和摘要。
本方案使用先进的ERNIE 预训练模型,通过高质量新闻数据的训练,使其学会新闻语言表达的各个方面,在此基础上实现新闻文章的自动生成。生成的新闻稿流畅连贯,准确度较高,更具有实用价值,有望达到与专业记者写作效果相当的质量。
为验证本方案的效果,我们进行了新闻自动写作的实验。
使用百度新闻数据集,包含近3 年数百万篇新闻文章及元数据。[1-2]选择其中近百万篇作为实验数据集,包含新闻标题、内容和摘要。新闻类别包括政治、财经、社会、娱乐、科技等共30 个左右类别。按7:2:1 比例划分为训练集、验证集和测试集。
采用ERNIE 模型,其参数量较小,训练速度更快。训练10 轮,训练60 小时。
从准确性、主观性和多样性等几个方面评估模型生成的新闻稿:
事实准确性:新闻内容是否能够描述清楚事件的基本事实,时间、地点、人物等要素是否准确。
逻辑性:新闻表述是否连贯清晰,没有逻辑错误或语句前后矛盾的情况,查看文章段落之间的衔接是否顺畅自然,是否存在逻辑断裂的情况,分析文章段落的主题或中心句是否一致,是否会出现跳跃性主题转变的情况,检查文章内容的叙述顺序是否合理,事件或描述是否按时间顺序叙述,观察因果关系的叙述是否合乎常理,不会出现违反事理的因果关联,判断交代的细节或事例是否能有效支持中心论点,避免出现例子与论点不一致。
流畅性:语言表达是否通顺、风格一致,没有语法错误或语句不通顺的地方,逐句阅读文章,感受句子之间的衔接是否平顺自然,看词汇使用是否得体精准,避免出现语义不通或使用不当的词语,判断行文节奏是否合理,不会出现语句结构或长度突然失衡的情况,观察用词表达方式是否多样,不会重复使用相同词语或句式模板,语音朗读文章,感受朗读流畅性,判断是否存在容易打结的语段。
完整性:新闻结构是否完整,包含必要的标题、导语、正文、结尾等部分,是否遗漏了重要信息,正文内容是否涵盖了事件或观点需要阐述的主要方面,是否成功传达了中心思想或观点,不只是断片式的描述,文章各部分是否条理清晰,前后呼应,不会出现逻辑跳跃。
客观性:新闻观点是否中立客观,没有包含过于主观的评论或判断,避免存在明显的倾向性或情绪化表达,文章引用的依据是否可靠权威,文章对不同观点或立场是否给予公正的描述,而非只立足一方,文章中人物描写是否公正,避免出现倾向性评价,是否过多使用含情绪色彩的词语,文章中因果关系分析是否符合逻辑,避免出现以偏概全的情况,文章的观点是否有事实或数据支持,而不是主观臆断。
可读性:新闻的可读性和趣味性是否足够,是否过于单调或模板化。
总体流畅度:从整体上看,新闻质量是否达到可以发布的标准,逐段通读全文,感受篇章语言风格和语句流畅度的整体一致性、各个段落的衔接是否自然、文章的起承转合是否完整、开头和结尾是否吸引人并带来完满的阅读感受、避免整体用词单一重复性太高、全文语言风格是否会出现风格剧变的情况。
根据这些指标,对算法生成文章的优劣进行整体判断,并给出改进方向,指导模型进一步优化,利用评分机制,允许模型输出多候选文章,人工选择评分最高的来反馈给模型,调整损失函数,增强对特定指标的惩罚力度(如流畅性等)。
本实验的最终结果表明:
(1) 生成新闻稿准确性较好,匹配输入主题,事实基本准确;
(2) 不存在明显的主观倾向,达到一定的客观中立性;
(3) 输入不同条件,生成新闻稿主题和内容较为多样。
综上,本方案生成的新闻稿在准确性、客观性和多样性等方面均达到较高水平。相比人工新闻写作,本方案在减轻人工工作量、提高效率和准确性方面显示出较大优势。
本项目利用ERNIE 等预训练语言模型,通过海量新闻数据集训练,实现高质量新闻稿自动生成的方案,达到较好的效果。该方法具有以下优点:
(1)显著提高新闻写作效率,大幅减轻记者工作量,说明具有较强的实用性;
(2)生成新闻稿准确度较高,难以被轻易检测出,达到专业水准,更适合应用于真实场景;
(3)支持一次输入生成多篇主题和内容各异的新闻稿,显示出较强的多样性。在一定程度上降低了个人主观的影响,使新闻报道更加客观和中立。
然而,该方法也存在一定不足:
(1)生成新闻稿的多样性还有提高空间,多个条件下生成的文章主题和内容重合度较高;
(2)生成的新闻稿缺乏个性化表达和真实感,难以达到人工写作的效果;
(3)模型生成的新闻稿需要人工审阅和修改后才可直接发布,这增加了后续工作量。
未来工作主要关注以下几点:
(1)使用更大规模的训练数据,采用更强大的预训练模型,如BERT-large 等,提高生成效果。BERTlarge 总参数量达到了3.4 亿参数,使用更多未标注的语料进行预训练,包括整个维基百科和书籍语料库,因此语言表达能力更加强大和通用、下游任务效果更好、处理长文本时表现更好。
(2)研究条件输入的方式和生成策略,增强生成新闻稿的多样性;
(3)优化数据预处理和模型训练流程,使生成的新闻稿融入个人化表达和真实感;
(4)人工审核与机器生成的协同,构建高效准确的新闻生产系统,实现人工智能的互补;
(5)加强连贯性的调整,不断提高生成的文章的连贯性。
新闻报道是及时和准确传播信息的重要方式,对社会发展来说很重要。但是,以前的新闻写作方法效率不高,难以满足全天候大量高质量新闻的需要,而利用人工智能写稿可以一定程度上满足我们的要求,人工智能写稿可以提高写作效率,节省人力成本,可以在短时间内生成大量文章草稿,尤其适用于产出需求较高的应用场景。人工智能写稿还减少人为错误,提高写作质量,算法生成可以避免人工误操作,保证输出文本的标准性和一致性。自动写稿技术在效率、质量、创新等多个方面对人类具有重要意义和价值。当然,也需要人机密切协作,才能发挥最大作用。
该项目用ERNIE 这种预训练语言模型,通过训练大量高质量新闻数据集,实现了自动生成高质量新闻稿的方法。实验结果表明,这个方法生成的新闻稿在准确度、客观性和多样性方面达到比较不错的水平。
与人工新闻写作相比,这个方法在很大程度上提高了效率和准确度,弥补了人工写作的不足,实现了新闻采写的自动化和智能化。但是,生成的新闻稿个性化表达和真实感仍然不足,多样性还需要提高,还需要人工审阅,首先要检查人工智能生成的文本的逻辑性和连贯性,现有生成模型偶尔会产生不合逻辑、不连贯的语句或段落,需要人工修改和完善,人工智能生成的文章可能会包含不准确的信息或错误的事实(所谓一本正经的胡说八道),需要人工核实真实性,算法难以理解人文精神内涵,需要人工加入这方面内容,此外,机器学习依赖历史数据,对全新事件理解能力弱,需要人工创新,因此自动写作技术尚未完全成熟,仍需人机互补才能产出高质量文本,因此当前阶段人工参与不可或缺。未来随着技术进步,人工干预需求可能会下降。
该项目为新闻自动写作的研究和应用作出了有用的探索。通过不断优化数据和模型,新闻自动写作技术期望达到与人工新闻记者相媲美的效果,进一步改变新闻行业的生产模式,为构建信息时代高质量的新闻报道体系提供重要支持。