浅谈智能写稿的技术与实践

2023-11-17 10:14:28张守先任鹏李满江

中国传媒科技 2023年9期

张守先任鹏李满江

（1.半岛都市报社，山东青岛 266071；2.潍坊日报社，山东潍坊 261000；3. 潍坊北大青鸟华光照排有限公司，山东潍坊 261061）

1.目的

新闻报道是及时传播信息和监督社会的重要方式，对社会发展非常重要。这要求新闻写作高效和准确，全天候产出大量高质量新闻。然而，传统新闻写作完全依赖人工记者，效率比较低，难免会出现延迟和错误，影响新闻的时效性和准确性。同时，传统写作也易受个人主观因素影响，新闻报道的真实性和客观性难以保证。

近年来，神经网络、深度学习和生成模型等技术的快速发展，特别是预训练语言模型的出现，使机器具有了比较强的语义理解能力和长文本生成能力。这为新闻自动写作提供了可能，有望提高新闻写作的效率和客观性。如基于seq2seq 和GPT 的方法实现了新闻摘要和标题生成；基于BERT 的方法可以生成简短的新闻文章。这些工作推动了新闻自动写作技术的发展，但生成文本的连贯性或多样性仍有提高的空间。

目前基于人工智能的新闻写作，主要用于以下几个方面。

（1）自动化新闻撰写：基于数据模板，生成如运动比赛、股票行情、天气预报等自动化新闻。

（2）财经新闻编写：根据金融数据，自动生成相关的财经新闻、分析报道。

（3）影评撰写：根据影片数据和评论材料，自动生成影评文章。

（4）赛事新闻：根据体育赛事数据，自动生成球赛新闻、运动员数据分析等。

（5）新闻稿自动编辑：辅助编辑进行新闻写作和修订工作。

（6）新闻摘要生成：自动析出新闻文章的关键内容摘要。

为实现新闻写作的高效化、准确化和客观化，这个项目提出利用ERNIE 等预训练语言模型，通过大量新闻数据集的训练，实现高质量新闻稿自动生成的方法。ERNIE 是一种基于BERT 的语言表示模型，在长文本生成和多样性方面有较强的能力。项目使用大规模新闻语料库训练ERNIE 新闻写作模型，使其学习新闻文章的语法、词汇、结构和风格等知识。在此基础上实现高质量新闻稿的自动生成，以期达到与人工写作相当的效果。

这个项目的提出是基于新闻写作需求和现有技术发展的考量。方案有望实现新闻采写的自动化与智能化，构建高效、准确与客观的新闻报道体系。

2.相关工作

新闻自动写作是自然语言生成的重要应用之一。早期的工作主要基于模板和规则，生成效果比较差。随着深度学习和神经网络的发展，特别是预训练语言模型的提出，新闻自动写作取得了比较大的进展。对新闻自动写作而言，核心是训练一个能够生成连贯、语法正确、主题明确的长文本的神经网络模型。具体来说，常用的技术路线包括。

（1）数据准备：收集大规模的高质量新闻文本数据，包括新闻标题、内容、摘要等。并进行数据清洗、分词等预处理。

（2）模型选择：通常选择基于Transformer 或LSTM 等结构的预训练语言模型，如GPT、BERT 等，这类模型在长文本生成任务上效果较好。

（3）模型训练：使用新闻文本数据针对语言生成任务进行模型精调。训练目标是最大化生成新闻文本的链式概率。

（4）文本生成：给定新闻主题、关键词等条件，模型自动生成标题和正文。可以生成一篇完整的新闻，也可以只生成摘要等。

（5）生成文本后处理：对模型生成文本进行语句规范化、语法纠错等后处理，提高可读性。

（6）结果评估：从语法、逻辑、连贯性等方面评估生成文本的质量，并反馈改进模型。

关键的创新点是利用大规模预训练模型，让模型学习新闻语言的语法和风格特征。相比以往基于模板的方法，预训练模型生成的新闻文本连贯性更好，逼近人工写作效果。但仍需人工审核，以确保生成质量。

基于seq2seq 模型的方法可以生成新闻摘要和标题，但生成的文本连贯性和准确性比较差。GPT 在较长文本生成方面有优势，应用于新闻文章生成，但生成的文章主题单一，缺乏多样性。BERT 的出现使机器具有比较强的语义理解能力，在文本分类、摘要和问答等任务上均取得优异效果。基于BERT 的方法实现了新闻摘要和关系抽取，证明BERT 可用于新闻生成。但BERT 对长文本生成的能力较弱，生成的新闻文章较短。ERNIE 是在BERT 基础上的改进，在长文本生成与多样性方面表现更优。Sun 等证明ERNIE 可以生成连续且主题多样的长文本，为新闻文章生成提供有益启发。

这个项目在ERNIE 等预训练语言模型的启发下，提出通过新闻数据集训练ERNIE 模型，实现高质量新闻稿自动生成的方法。此方案生成的新闻稿连贯且准确，具有较强实用性，期望达到与人工写作相当的效果。

3.方法

为实现新闻写作的高效化、准确化与客观化，本项目提出利用ERNIE 等预训练语言模型，通过海量新闻数据集训练，实现高质量新闻稿自动生成的方案。

百度在预训练语言表示模型领域进行了大量研发和应用，主要的中文预训练模型包括：ERNIE（Enhanced Representation through kNowledge IntEgration）、ERNIE 2.0（在ERNIE 基础上提出持续学习框架，可以不断从数据中学习，增强模型能力）、ERNIE-Gram（针对语法任务，如语法解析、语义角色标注进行预训练，获得强大的语法建模能力）、ERNIE-Gen（支持端到端的文本生成，构建通用的生成预训练框架）、PCL-Med（医疗领域特定的预训练语言模型，提供精准的医疗文本理解）、PLATO-2（大规模预训练语言模型，具有超过200 亿参数，是当时最大的中文预训练模型）、 CPM（Chinese Pretrained Model）（百度自研的最新预训练模型，具有千亿规模的参数量和强大的语言理解能力）等。ERNIE 是百度推出的一款基于BERT 的中文预训练语言表示模型，代表了百度在知识增强预训练模型上的创新，是在BERT 基础上的改进，引入了知识图谱，增加实体语义的理解能力，增加了语言表示对多义词、同义词的理解，提高句法分析能力，采用逐段预测的训练方式，提高长文本生成能力，引入短文本匹配任务，增强了文本相似度的判断能力，设计了新的数据集，如多义词数据集、同义词数据集、新闻标题数据集等，进行细致的语义理解预训练，构建了领域知识图谱，如百科知识图谱、产业知识图谱等，加入先验知识，采用了句子重排、相似句子匹配等预训练任务，进一步强化语义理解，使用海量高质量的数据进行了预训练，提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有显著提升，更适用于智能写作等生成应用。相比BERT，ERNIE 在长文本生成和多样性方面表现更优，适用于新闻文章生成。[4-5]本项目使用ERNIE模型，其参数量较小，训练速度更快。[3]

项目使用百度新闻数据集，其包含数百万篇新闻文章及元数据。选取了近3 年的近百万条新闻，数据集按7 : 2 : 1 比例划分为训练集、验证集和测试集。训练集（Training Set）用于训练模型的参数和权重，占数据集的最大比例，一般60%～80%，反复使用以“训练”模型，使其逐步学会特征模式。验证集（Validation Set）用于调整超参数和评估训练过程中模型的性能，占数据集的较小比例，一般10%～20%，不用于训练参数，只用于指导如何改进模型。测试集（Test Set），用于评估最终训练好的模型在真实数据上的表现，占数据集的较小比例，一般10%～20%，只使用一次来全面评估模型效果，不用于也不可见训练。划分这三个数据集是为了使模型泛化性更好，避免过拟合训练数据。采用不同数据的评估使模型更稳定可靠。

在数据集上训练ERNIE 新闻写作模型的流程如下。

（1）对新闻数据集进行清洗、分词和过滤，获得高质量的数据集；去除重复新闻、用程序去除空行无效字符等噪声数据、纠正一些明显的拼写错误、用程序移除无实际语义的停用词（吧、吗、啊、噢，等）、删除信息量太少的新闻样本等，这样可以提高数据集的整体质量，移除噪声数据，获得干净、高质量的新闻语料库，更好地训练ERNIE 写作模型；

（2）按照ERNIE 模型的输入格式，对数据集中的文章标题、内容和摘要等进行编码，增加[SEP] 、[CLS] 等标记，ERNIE 模型限制最大输入长度为512 个词汇，超过的部分会被截断；

（3）设定ERNIE 模型结构和训练超参数，如学习率（Learning Rate）、训练批大小（Batch Size）、训练轮数（Epoch Number）、序列长度（Sequence Length）、优化器（Optimizer）、权重衰减（Weight Decay）、热启动比例（Warmup Proportion）、峰值学习率（Peak Learning Rate）、损失函数（Loss Function）、裁剪比例（Clipping Ratio）、随机失活比例等，这些超参数需要通过反复试验来确定合适的组合，才能让ERNIE 在新闻写作任务上获得最佳的训练效果；

（4）使用训练集对ERNIE 新闻写作模型进行预训练；

（5）使用验证集对模型进行评估，调整超参数，选择较优模型；

（6）最终模型在测试集上生成新闻稿，并进行人工评估。

模型生成新闻稿的流程为：输入新闻主要内容（主题、关键字等）;ERNIE 模型自动生成一篇完整的新闻文章，包括标题、内容和摘要。

本方案使用先进的ERNIE 预训练模型，通过高质量新闻数据的训练，使其学会新闻语言表达的各个方面，在此基础上实现新闻文章的自动生成。生成的新闻稿流畅连贯，准确度较高，更具有实用价值，有望达到与专业记者写作效果相当的质量。

4.试验

为验证本方案的效果，我们进行了新闻自动写作的实验。

4.1 数据集

使用百度新闻数据集，包含近3 年数百万篇新闻文章及元数据。[1-2]选择其中近百万篇作为实验数据集，包含新闻标题、内容和摘要。新闻类别包括政治、财经、社会、娱乐、科技等共30 个左右类别。按7：2：1 比例划分为训练集、验证集和测试集。

4.2 实验设置

采用ERNIE 模型，其参数量较小，训练速度更快。训练10 轮，训练60 小时。

4.3 评估指标

从准确性、主观性和多样性等几个方面评估模型生成的新闻稿：

事实准确性：新闻内容是否能够描述清楚事件的基本事实，时间、地点、人物等要素是否准确。

逻辑性：新闻表述是否连贯清晰，没有逻辑错误或语句前后矛盾的情况，查看文章段落之间的衔接是否顺畅自然，是否存在逻辑断裂的情况，分析文章段落的主题或中心句是否一致，是否会出现跳跃性主题转变的情况，检查文章内容的叙述顺序是否合理，事件或描述是否按时间顺序叙述，观察因果关系的叙述是否合乎常理，不会出现违反事理的因果关联，判断交代的细节或事例是否能有效支持中心论点，避免出现例子与论点不一致。

流畅性：语言表达是否通顺、风格一致，没有语法错误或语句不通顺的地方，逐句阅读文章，感受句子之间的衔接是否平顺自然，看词汇使用是否得体精准，避免出现语义不通或使用不当的词语，判断行文节奏是否合理，不会出现语句结构或长度突然失衡的情况，观察用词表达方式是否多样，不会重复使用相同词语或句式模板，语音朗读文章，感受朗读流畅性，判断是否存在容易打结的语段。

完整性：新闻结构是否完整，包含必要的标题、导语、正文、结尾等部分，是否遗漏了重要信息，正文内容是否涵盖了事件或观点需要阐述的主要方面，是否成功传达了中心思想或观点，不只是断片式的描述，文章各部分是否条理清晰，前后呼应，不会出现逻辑跳跃。

客观性：新闻观点是否中立客观，没有包含过于主观的评论或判断，避免存在明显的倾向性或情绪化表达，文章引用的依据是否可靠权威，文章对不同观点或立场是否给予公正的描述，而非只立足一方，文章中人物描写是否公正，避免出现倾向性评价，是否过多使用含情绪色彩的词语，文章中因果关系分析是否符合逻辑，避免出现以偏概全的情况，文章的观点是否有事实或数据支持，而不是主观臆断。

可读性：新闻的可读性和趣味性是否足够，是否过于单调或模板化。

总体流畅度：从整体上看，新闻质量是否达到可以发布的标准，逐段通读全文，感受篇章语言风格和语句流畅度的整体一致性、各个段落的衔接是否自然、文章的起承转合是否完整、开头和结尾是否吸引人并带来完满的阅读感受、避免整体用词单一重复性太高、全文语言风格是否会出现风格剧变的情况。

根据这些指标，对算法生成文章的优劣进行整体判断，并给出改进方向，指导模型进一步优化，利用评分机制，允许模型输出多候选文章，人工选择评分最高的来反馈给模型，调整损失函数，增强对特定指标的惩罚力度（如流畅性等）。

4.4 实验结果

本实验的最终结果表明：

（1）生成新闻稿准确性较好，匹配输入主题，事实基本准确；

（2）不存在明显的主观倾向，达到一定的客观中立性；

（3）输入不同条件，生成新闻稿主题和内容较为多样。

综上，本方案生成的新闻稿在准确性、客观性和多样性等方面均达到较高水平。相比人工新闻写作，本方案在减轻人工工作量、提高效率和准确性方面显示出较大优势。

5.结果

本项目利用ERNIE 等预训练语言模型，通过海量新闻数据集训练，实现高质量新闻稿自动生成的方案，达到较好的效果。该方法具有以下优点：

（1）显著提高新闻写作效率，大幅减轻记者工作量，说明具有较强的实用性；

（2）生成新闻稿准确度较高，难以被轻易检测出，达到专业水准，更适合应用于真实场景；

（3）支持一次输入生成多篇主题和内容各异的新闻稿，显示出较强的多样性。在一定程度上降低了个人主观的影响，使新闻报道更加客观和中立。

然而，该方法也存在一定不足：

（1）生成新闻稿的多样性还有提高空间，多个条件下生成的文章主题和内容重合度较高；

（2）生成的新闻稿缺乏个性化表达和真实感，难以达到人工写作的效果；

（3）模型生成的新闻稿需要人工审阅和修改后才可直接发布，这增加了后续工作量。

未来工作主要关注以下几点：

（1）使用更大规模的训练数据，采用更强大的预训练模型，如BERT-large 等，提高生成效果。BERTlarge 总参数量达到了3.4 亿参数，使用更多未标注的语料进行预训练，包括整个维基百科和书籍语料库，因此语言表达能力更加强大和通用、下游任务效果更好、处理长文本时表现更好。

（2）研究条件输入的方式和生成策略，增强生成新闻稿的多样性；

（3）优化数据预处理和模型训练流程，使生成的新闻稿融入个人化表达和真实感；

（4）人工审核与机器生成的协同，构建高效准确的新闻生产系统，实现人工智能的互补；

（5）加强连贯性的调整，不断提高生成的文章的连贯性。

结论

新闻报道是及时和准确传播信息的重要方式，对社会发展来说很重要。但是，以前的新闻写作方法效率不高，难以满足全天候大量高质量新闻的需要，而利用人工智能写稿可以一定程度上满足我们的要求，人工智能写稿可以提高写作效率，节省人力成本，可以在短时间内生成大量文章草稿，尤其适用于产出需求较高的应用场景。人工智能写稿还减少人为错误，提高写作质量，算法生成可以避免人工误操作，保证输出文本的标准性和一致性。自动写稿技术在效率、质量、创新等多个方面对人类具有重要意义和价值。当然，也需要人机密切协作，才能发挥最大作用。

该项目用ERNIE 这种预训练语言模型，通过训练大量高质量新闻数据集，实现了自动生成高质量新闻稿的方法。实验结果表明，这个方法生成的新闻稿在准确度、客观性和多样性方面达到比较不错的水平。

与人工新闻写作相比，这个方法在很大程度上提高了效率和准确度，弥补了人工写作的不足，实现了新闻采写的自动化和智能化。但是，生成的新闻稿个性化表达和真实感仍然不足，多样性还需要提高，还需要人工审阅，首先要检查人工智能生成的文本的逻辑性和连贯性，现有生成模型偶尔会产生不合逻辑、不连贯的语句或段落，需要人工修改和完善，人工智能生成的文章可能会包含不准确的信息或错误的事实（所谓一本正经的胡说八道），需要人工核实真实性，算法难以理解人文精神内涵，需要人工加入这方面内容，此外，机器学习依赖历史数据，对全新事件理解能力弱，需要人工创新，因此自动写作技术尚未完全成熟，仍需人机互补才能产出高质量文本，因此当前阶段人工参与不可或缺。未来随着技术进步，人工干预需求可能会下降。

该项目为新闻自动写作的研究和应用作出了有用的探索。通过不断优化数据和模型，新闻自动写作技术期望达到与人工新闻记者相媲美的效果，进一步改变新闻行业的生产模式，为构建信息时代高质量的新闻报道体系提供重要支持。

中国传媒科技2023年9期

中国传媒科技的其它文章: 新媒体时代的二级传播嬗变
——以电影《隐入尘烟》的传播为例; 场景革新、交互升级、信息迭代：元宇宙社交对移动社交的解构与重构; 现实·理论·实践：青年社交媒介依赖研究的创新维度
——评《青年群体的社交媒介依赖及其矫正机制》; 大模型新进展与发展关键; 互联网违法和不良信息举报平台的研究与实践; 媒介技术变迁视角下的教材概念演变研究