人工智能技术在新华社统一数据库中的应用

2023-11-01 08:38孟庆玉

中国传媒科技 2023年10期

孟庆玉

（新华社技术局，北京 100803）

1.背景

媒体融合是时代所向、大势所趋。从《关于推动传统媒体和新兴媒体融合发展的指导意见》，到印发《关于加快推进媒体深度融合发展的意见》，媒体融合发展成为国家战略。[1]2021 年新华社建社90 周年之际，习近平总书记给新华社的贺信中指出，新华社要“加快融合发展，加强对外传播，努力建成国际一流新型全媒体机构”。

随着数据井喷、算法进步以及算力突破，以ChatGPT 为代表的人工智能技术“一日千里，狂飙突进”，给传媒业带来巨大机遇和挑战。2021 年11 月，人民日报社传播内容认知国家重点实验室与人民中科共同发布了面向内容安全的跨模态视频搜索引擎“白泽”。2022 年7 月，“白泽”企业公共服务平台正式发布。“白泽”实现了文本搜图片、文本搜视频、图片搜视频、视频搜视频、图片搜文字、视频搜文字等多元搜索功能。2022 年4 月，谷歌在移动端推出Multisearch，允许用户同时输入图片和文本进行检索。例如拍摄了模特一身橙色长裙的照片，输入“绿色”文本，即可获得绿色长裙的商品信息。5 月，谷歌推出“Multi-search near Me”，结合谷歌地图进行检索。统一数据库是新华社大数据中心整合新华社新闻信息、报刊、文献资料、图片总汇、中国照片档案馆、新华网、电视节目视频、移动新媒体等渠道资源，应用多种前沿的人工智能技术融汇而成的数据服务系统。本文将对大数据分析、预训练大模型、多模态检索等人工智能技术在统一数据库中的应用进行阐述，并就未来发展趋势进行探索与展望。

2.业务需求

新华社大数据中心存储了15 个语种，近4.5 亿条珍贵文本稿件和资料，2000 万张照片、2.5 万小时音视频资料。传统的检索方式对图片、视频、音频资源的搜索是基于稿件的标题或正文等信息，图片、视频、音频自身的非结构化信息，没有得到有效利用。基于文本的传统检索在全媒体时代已逐渐陷入困境。手机拍了一张照片，新华社有相似的图片和视频吗？有相关的文字报道吗？如何精确检索到“古特雷斯”的照片和视频？新华社很多历史音频没有同期声文字，这些音频如何检索？

随着传媒格局和传播形态的深刻变革，随着新华社深入推进媒体融合、大力构建内外并重的工作格局，用户迫切需要对视音频自身的非结构信息结合文本信息实现联合检索，新闻内容生产和检索服务需求呈现出从资料查询到价值发现的趋势，形态上呈现出从单一模态到多模态的发展态势。经过深度的用户需求调研，统一数据库在优化传统文字检索服务基础上，提供语义搜索、以图搜图、人像检索、以图搜视频、音频搜索音频等多项多模态检索服务，丰富了编辑记者信息搜索的方式。

3.技术应用

3.1 大数据技术强化数据分析

统一数据库应用NLP 大数据分析技术对文本数据自动提取摘要、主题词等新闻要素，实现聚类、敏感词检测、情感分析等数据处理；利用语音转写技术，将音视频中的同期声转换为文本数据；应用人工智能技术对图片、图像进行OCR 文字的识别和人物、机构、场景、物体、颜色等新闻要素的标注。

3.1.1 报道专题库

统一数据库利用自动标注后的数据，按照新闻报道策划自动生成两会报道、元首外交、进博会和纪录小康等专题数据库产品，推动了新闻内容生产流程的自动化、智能化，实现了从单纯的稿件管理到内容产品服务的升级跨越。打破了以往以分类为主的稿件展示形式，让稿件真正“活起来”，达到“从业务角度整理数据，从用户角度展示数据”。

3.1.2 综合检索

综合搜索服务功能强大，应用广泛，采用开源搜索数据库ElasticSearch 作为基础组件，实现业务需求全覆盖。搜索服务支持多种类型的字段检索，包括大文本、多值、单值、时间等多种类型。统一数据库融合新闻文本、图像OCR、语音同期声以及人物、机构、场景等新闻要素字段提供搜索服务，提升了挖掘信息的能力。

综合检索服务支持中文、英文、日文、韩文等近二十种语言的检索功能。针对不同的语言，经开发团队进行特定分析，采用符合该语种特点的分词器生成索引数据，并在检索服务层面进行定制化开发。为提高中文检索的准确度，项目组利用新华社稿件作为训练数据集，采用lstm+crf 深度学习模型完成分词模型的训练工作，基于该分词模型封装的ElastiSearch 中文分析器在分词的准确度方面较开源的Jieba、IK 分词器有了明显提升，显著提升了中文检索的准确性。为提高检索结果的相关度，综合检索使用自研的相关度打分模型。该模型能够显著提高检索服务的准确率和召回率，并支持多种排序方式，如相关度、时间等，以确保用户“想找的”始终排在最前面。

3.2 多模态检索

传统的信息检索以文本检索为主，只能按照文本中的关键词文本进行匹配检索。随着大模型时代的到来，图片、视频、音频经过大模型处理后，将非结构化数据转化为大模型向量。由于相似的图片、视频、音频具有空间上相近的向量，结合大模型推理能力，就可以实现多模态、跨模态检索。统一数据库新推出的多模态检索可以结合文本、图像、音频、视频等多种媒体形式，为用户提供更准确、丰富的检索功能。

新华社大数据中心在多模态检索方面布局较早，采用大模型特征提取和Milvus 向量检索技术路线，利用特征提取技术，从图片、音频、视频中提取图片、人脸、音频、视频向量特征，存入Milvus 开源向量数据库，基于Milvus 进行向量检索；利用深度学习，基于新华社稿件训练得到分词模型，并运用到全文检索引擎分析器，进一步提升了全文检索的准确性和召回率。面向全媒体业务提供语义搜索、以图搜图、以图搜视频、人像检索、音频检索、颜色筛选等多模态、跨模态的智能检索功能。

图1 多模态检索技术架构示例图

3.2.1 语义搜索

语义搜索包括语义搜图和语义搜视频，是指用自然语言以文本描述检索到所需图片或者视频。媒体融合发展背景下，该功能是新闻编辑最为迫切的需求。传统的文字编辑使用此功能后可以迅速达到新媒体编辑的要求。

预训练大模型由于其极佳的性能和泛用性，已经成为人工智能领域通用的解决方案。统一数据库中使用的多模态预训练大模型技术是在国内通用领域基线模型ERNIE 基础上，针对新华社稿件预训练的研发成果。

传统的视觉-语言预训练技术基于单视角的对比学习，无法学习多种模态间和模态内的关联性，我们采用了ERNIE-ViL 基于多视角对比学习的预训练框架，基于新华社丰富的新闻媒体领域视觉/文本样本，使用超大规模样本无监督地进行跨模态对比学习训练，训练出能够理解不同模态间和模态内媒体样本关联性的大模型。

在预测阶段，我们将预训练大模型部署为特征提取模式，对输入的视频、文本样本，提取特征向量，再由调用方根据不同需求，送入向量数据库作为待检索样本，或者作为搜索请求去向量数据库检索。训练针对实时新闻数据的大模型，将多媒体样本提取特征映射到统一的空间中，搭配相似度检索技术完成无标签样本的通用语义稿件检索。

开源预训练大模型主要面向通用数据，往往对新闻样本，尤其涉政样本效果不佳，且对新闻概念难以及时理解分析。本项目面向新华社的权威媒体新闻业务，基于主流媒体新闻数据，侧重涉政稿件内容，并增加特色训练任务，如图文匹配、组图分类等，周期性地产出模型，确保模型对新闻数据的准确理解和分析，从而为新华社的权威媒体新闻业务提供更加准确、有效的多模态语义检索服务。

经与百度公司协同客观评测，本项目训练后的模型在全领域稿件数据下，与国际通用的CLIP 架构模型对比，召回准确率提升一倍以上；与开源最佳的清华大学R2D2 对比，召回准确率提升约10%。在主流媒体侧重的涉政类领域，与国际通用的CLIP 架构模型对比，召回准确率提升数倍；与开源最佳的清华大学R2D2 对比，召回准确率提升约70%。预训练大模型技术的多模态检索能力在行业中表现出最佳性能，显示出其在自然语言处理领域的卓越能力。

3.2.2 图片搜索

统一数据库的图片搜索包括以图搜图和以图搜视频。特别是以图搜图功能存在更多的使用场景，更是受到了记者编辑的极大欢迎。例如，上传一张未知建筑或者未知场景的图片可以快速在图片库中找到相似图片，通过图片库中已经存在数据可以识别用户上传的图片场景。

统一数据库图片搜索选用EfficientNetV2 模型对新华社2000 万张的成品图片进行了特征向量抽取，将特征结果存入向量数据库，提供秒级检索服务，处于行业领先水平。

以图搜图功能在技术选型上，通过对比Vgg16、ResNet50、EfficientNetV1、EfficientNetV2 等人工智能模型在新华社1800 万图片稿件测试下的效果，最终选择EfficientNetV2 模型。

3.2.3 人像搜索

人像搜索在应用上和以图搜图有相似之处，算法上各有侧重。统一数据库的人像搜索采用最先进的MTCNN 人脸检测算法。MTCNN 是一种多任务级联卷积神经网络，用以同时处理人脸检测和人脸关键点定位问题。人脸检测和人脸关键点检测两个任务之间往往存在着潜在的联系，然而以往的方法都未将两个任务有效的结合起来，MTCNN 充分利用两个任务之间潜在的联系，将人脸检测和人脸关键点检测同时进行，实现人脸检测和5 个特征点的标定。这个算法在应用上准确率很高，达到了非常完美的效果。

3.2.4 音频搜索

统一数据库音频处理采用DeepSpeaker 人工智能模型。同百度的DeepSpeech 模型和Google 的WaveNet相比，DeepSpeaker 具有更高的说话人识别准确率和更好的鲁棒性。同时还具有良好的可扩展性，能够不断学习和适应新的语音和说话人，挖掘音频波形中蕴含的说话人声纹信息。在以新华社成品音频稿件作为测试集的试验中，超过90%的检索结果于首位击中目标音频，展示出优越的检索能力。

为提高音频检索的准确度，本项目根据新华社音频稿件特点定制化设计音频分帧算法，在锚定音频片段时间位置的同时，实现单一人声的分离和足量声纹特征的保留，增强特征向量的表征能力和区分度。调优后的音频处理算法相较于通用音频检索算法，更加适用于以新闻为基本内容的音频的检索，检索精度优异，达到了先进水平。

4.探索与思考

通过统一数据库在大数据分析、大模型、多模态检索等方面的实践探索，可以看到先进适用技术的潜力和价值。智慧中台提供数智融合的大数据底座，大模型重塑生产传播全流程，多模态检索更快速准确获取信息，改善用户体验，创造更多价值。本项目由于应用了侧重不同场景的多种算法模型，前端应用需要花费资源对各种返回结果进行聚合才能更好的服务用户。未来应加大力度研发将不同模态信息映射到一个统一特征表示空间下的算法准确率，以便优化系统架构，减少中间环节。在开源技术基础上，设计并训练一个符合传媒业或者新华社特点和需求的生成式大模型，基于特定场景进行训练和使用，将有助于提升新华社内容生产质量和效率，产生意想不到的效果。

新的功能服务上线，用户需要花费时间来学习和适应。为减少学习成本，未来应依靠开源大模型自主研发对话式检索，通过自然语言，进行深度交互，支持连续多轮对话，并在对话过程中记忆先前的对话信息，实现上下文理解。这将极大地提升用户体验，帮助受众准确地表达他们的需求。

未来，多模态检索应用场景还将延展到移动端检索、媒资管理、内容安全、内容推荐、知识图谱等更多领域。依托人工智能技术，新华社大数据平台多模态检索能力将不断提升，持续为采编和营销赋能。同时需要警惕，AIGC 技术的过度应用将给我国主流全媒体传播体系在维护良好舆论环境和意识形态安全方面带来挑战。过度依赖AIGC 将改变互联网的内容构成，人类原创内容和知识发现会逐步减少。据国际新闻媒体协会预测，到2030 年将有超过一半的在线内容由人工智能生产，其中绝大多数不会来自主流媒体或权威机构。

我们要充分发挥内容资源优势，积极拓展宣传阵地，不仅要巩固自身作为传统新闻舆论重镇的地位，还将传统媒体的影响力拓展到网络空间，不断推出具有自身特色的新媒体平台和产品。