基于新闻信息分类标准的自动标引实践研究

2023-12-02 05:55颜玉奎石文龙
图书馆界 2023年5期
关键词:标引类目检索

颜玉奎 石文龙

[摘 要]为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。

[关键词]中文新闻信息分类与代码;自动分类;自动标引;Transformer模型

[中图分类号]G254.1[文献标志码]A[文章编号]1005-6041(2023)05-0027-06

1 引 言

《中文新闻信息分类与代码》(Classification and code of Chinese news information,简称CNCC)是我国新闻界首次研制的中文新闻信息技术两项国家标准之一,于2006年首次发布实施,2013进行第一次修订,2022年完成第二次修订,是我国新闻技术领域的一项重要的基础性标准,也是一部非常实用的分类法[1],已有多家新闻单位应用实施了该标准。基于CNCC的分类标引有人工标引和自动标引,本文在实践的基础上探索研究基于CNCC的自动分类标引。

2 CNCC的基本概况及应用中存在的问题

CNCC以主题立类为主,学科立类为辅,类目的设置兼顾科学性、实用性、稳定性和可扩展性,采用线分类和面分类相结合的分类方法[2],适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体,以及各种资讯机构对中文新闻信息进行分类、检索、标识等方面的处理与交换业务[3]。最新修订的CNCC(GB/T 20093—2022)类目表包括主类表和复分表。主类表是一级类表、简表和详表的统称,详表从粗到细最多分为5个层级,一级类目24个,二级类目385个(其中含交替类目13个),详表的全部类目6 927个。通用复分表包括总类复分表、人物复分表、新闻信息体裁表,也包括世界国家(地区)代码表、中国行政区划代码表、中国各民族名称代码表。

随着网络、手机等新媒体的迅猛发展,传统媒体和新兴媒体深度融合发展是大势所趋,对于用户画像的数据挖掘也愈演愈烈。以前,人们依赖媒体看新闻,现在则是用户自己选择想看的新闻。总体来说,中文新闻信息分类需要一个统一的分类标准,而具体媒体单位和用户的需求丰富多样,需要进行灵活实用的分类,标准的规范性与需求的多样性之间存在着矛盾。

在对新闻信息分类时,人工标引效率低下,需要采用自动标引的方法和技术以提高分类的效率。

3 基于规则的自动分类技术及其相关研究概述

文献标引是对文献的内容特征进行分析、描述,从而揭示文献的过程。蔡迎春等[4]全面系统地回顾和梳理了我国文献标引技术的发展脉络,指出我国的文献标引经历了从分类标引、主题标引到多元化标引的过程,逐步由人工标引、机器辅助标引过渡到自动标引,进一步向智能标引方向发展。自动标引是利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。自动分类是用计算机系统代替人工对文献对象进行分类,一般包含自动聚类与自动归类。自动聚类是根据数据的相似性将数据分类,自动归类是根据规则将数据分类。

3.1 基于CNCC的自动分类相关研究

基于CNCC的自动分类相关研究并不多,经检索知网,仅发现2篇相关的文章:1)2005年,CNCC作为我国第一部即将上报的新闻信息分类标准,为了真正体现该标准的现实价值,邓茜等[5]从图情领域知识组织角度提出了实现自动分类、自动标引的总体框架,认为包含多个词表、规则库在内的知识库是自动标引的基础模块,提出了知识库结构的设想(但只是基于CNCC自动分类标引的理论设想,没有实际的应用和测试)。2)2010年,张志平[6]从语言学领域语言分析的角度,探索了基于CNCC的自动分类方法:从分类体系的类目信息和类目说明中获得初始主题词词表,利用获得的初始主题词构建中文新闻信息分类与代码体系的特征向量,采用CCA自动分类(Class Centralized Auto-Classification,类中心)方法将文本按该体系进行自动分类。然而,其研究中所述的每个类目对应特定主题词的分类主题词表方案更多是理论上的意义,在实际工作中很难真正应用实施。

3.2 基于规则的主流自动分类方法

基于分类规则的主流自动分类方法有CCA自动分类和Transformer(转换器)自动分类。

CCA自动分类采用特征向量中心、贝叶斯方法、K-近邻方法、决策树方法、中心向量法等相结合,是一种基于特征选择的分类方法,其优点是可扩展性强、灵活性高、能够有效地避免过拟合等,缺点是需要大量的预处理工作和大量的训练数据来进行特征提取和分类,对新领域的探索能力较弱,可解释性不足,尤其是为了能进行数据的准确匹配,需要维护庞大的中心库数据。中心库数据包括各种主题词表、近义词表、专用名词表、词典等。主题词是经过规范化的词,我国有《汉语主题词表》以及《航空科技资料主题词表》《医学主题词表》等专业主题词表,新华社也曾经编制过《新闻主题词表》,此外《中国分类主题词表》则是中国第一部大型综合性分类主题一体化主题词表。词库、规则库的建设和维护成本巨大,而且往往滞后,在一定程度上制约了图情领域基于分类法的自动分类研究和应用。2009—2016年,关于自动分类,采用“分类法”做篇名词或者关键词,检索结果只有1篇文章,而该文无论在原理方面还是方法方面,都没有新的发现和发展[7]。

Transformer是一种基于自注意力机制的深度神经网络模型,广泛应用于自然语言处理领域的各种任务,如文本分类、机器翻譯和问答系统等。Transformer对自然语言进行分析获取特征并对内容分类。Transformer自动分类利用Transformer模型的特点,从原始文本中自动提取特征信息并将其转化为上下文向量,进而对文本进行分类。Transformer通过自然语言处理分析数据特征,仅从原始数据中就能提炼出对应的特征,只需要完善对应的特征、维护储存学习特征的模型,无需维护庞大的词库、规则库等中心库数据,降低了大量的数据维护成本。

Transformer自动分类在自然语言处理任务中取得了很好的效果,在很多应用场景中表现出了优异的性能,尤其是在大规模数据集上的表现尤为出色。它的突出优点在于能够自动学习到好的特征,并且可以通过简单的模型结构来扩展到更多的任务中,具有很高的可拓展性。

2016年前,文本的自动分类主要使用传统的机器学习模型进行训练;2016—2018年,自动分类主要使用深度学习循环神经网络(RNN)相关模型进行训练;2019年之后,主要使用“Transformer预训练模型+迁移学习”方式进行训练。随着Transformer预训练模型的不断发展和优化,2022年之后,“Transformer预训练模型+迁移学习”方式已经成为一种通用的文本分类工具。

综上所述,在基于规则的主流自动分类方法中,Transformer模型训练数据特征效率更高,成本更低,适应能力更强。本文在实践的基础上,探索研究基于Transformer模型和CNCC标准的自动标引,包括自动归类、聚类以及其他检索标志的智能抽取。

4 基于CNCC的自动分类标引实践与研究

广西日报社与业内领先的数据智能应用科技公司合作,建设数据中台,采用智能文本分析系统,基于“深度学习+迁移学习”方式和Transformer模型,基于CNCC的分类体系进行自动分类标引。

4.1 基于CNCC及实际标引的数据状况确定适用的自动分类表

自动归类是根据规则将数据分类,即按照一定的分类标准或分类参考,将被考察对象划归到不同类目的过程。因此,自动归类需要有一个合理适用的分类体系,这是非常重要的前置工作。

4.1.1 基于CNCC标准和实际使用的条目,确定自动分类的使用类目。自2006年CNCC颁布实施后,广西日报社率先应用实施了该标准,拟定了Excel格式的CNCC使用本,报社旗下全部历史数据中的原创数据均按CNCC使用本进行了分类,分类字段同时标引分类代码和类目名称,拥有了一大批分类数据语料。

广西日报社电子数据的CNCC使用本共有1 145个使用条目,类目级别较多,一些地方资料类目的级别多达7级,组配后的专题资料类目的代码更为复杂。如此复杂的分类表不适用于自动分类。

我们使用Transformer预处理已有的分类数据,对原始数据进行清洗和标准化,对分类字段的标引值也进行了清洗,把复分表代码、类目名称去掉,只以分类代码作为唯一的分类标示,将原始数据转化为更为直观的表型数据,提取已有的分类数据集的所有类别,保留重要类别,减掉数据量少的类目,合并相似类别,得到包含实际使用条目的分类表。

在原有CNCC使用本的基础上,结合数据分类实际情况,保留全部的一级类目,根据本单位重点报道和数据状况,选择比较有使用价值、数据量较多的条目,确定自动分类需要使用的类目,对于没有使用的类目,其内容归入上位类。

4.1.2 对使用类目的层级进行降维,确定自动分类表。由于CNCC的分类层次太多,类别关系复杂,上述自动分类的使用类目也存在同样的问题,容易互相干扰,影响自动分类的准确性,类目级别太多,给用户也带来学习的压力。而二级分类相对于多级分类来说,具有更简洁的结构,更易于理解的数据变量,方便用户理解和筛选,可以加强产品和用户的互动能力。因此,自动分类表使用两个分类层级,以提高模型的效率和减少误分类的可能性。

根据实际需求设计一个二级分类模型,将确定好的自动分类使用类目由多分类层级降维到二级分类,然后把二级分类的模型(指定最高分类层级为二级)和原先的多级分类数据(多分类层级)交给NLP模型进行学习,进行降维处理。

下面以“11.21;经济会议、经济博览会”为例,比较CNCC、CNCC使用本和基于CNCC的自动分类表三者的区别和联系(见表1)。

按照CNCC标准,“中国—东盟博览会”的相关信息应归到“11.21;经济会议、经济博览会”的下位类“11.21.03;经济博览会”。CNCC使用本,根据CNCC的扩展使用规则,扩展了本单位的特色专题类目“11.21.03.DF450100.B11;中国—东盟博览会”,其中DF450100是南宁的地区代码,B11的“B”表示本单位的扩展类目,在11.21.03。经济博览会类下,也可以扩展其他在各地举办的各种经济博览会,各类经济博览会类还可以进一步按照届次进行细分。基于CNCC的自动分类表,把“中国—东盟商务与投资峰会”和“中国—东盟博览会”两个相近的内容一起归到“11.21.03.DF450100.B11;中国—东盟博览会”,并对其代码进行降维:

{ncode:“001007009”,resourceId:null,

sourcecode:“11.21.03”,name:“经济会议、经济博览会”,aliasName:null,level:2,…}

{ncode:“001007010”,resourceId:null,

sourcecode:“11.21.03.DF450100.B11”,name:“中国—东盟博览会”,aliasName:null,…}

降维后将新编码与原始基底数据编码进行了关联,保证新旧分类数据的一致性和多态性。在分类降维后,使用者可以更快速、准确地找到所需的信息,优化搜索体验,提高页面加载速度,缩短用户的等待时间。

最终的自动分类表保留CNCC的24个一级类目,全部类目共98个,经过降维后,最大的类目级别只有二级。

4.1.3 基于CNCC可以灵活制定行业、专题和各类新媒体的自动分类表。基于CNCC可以根据数据对象的特性选择全部或部分類目,提升或降低部分类目的级别,甚至可以改变类目的顺序,制定简洁实用的自动分类表使用本,分类表使用本的分类条目ID只需对应关联CNCC的代码即可。例如,新华社技术实验室基于CNCC在新媒体环境中存在不适用的情况研制了《中文新媒体新闻信息分类法》,其中一级类目分为政治、社会生活、经济和文化4个部类,共包含14个一级类目、88个二级类目[8]。其实,在数据库的底层这些条目ID也可以和CNCC的分类代码关联对应起来。

基于CNCC制定的自动分类表更灵活、更高效,在保证底层使用统一的分类代码基础上,各平台可自由定制适用的分类体系,实现分类数据的高可用、松耦合,各平台之间的数据可以友好交互,减少沟通成本,消除各平台分类数据的自有壁垒,从而实现各媒体平台之间分类数据的融合。

4.2 模型的训练与优化

已有的分类数据为自动分类的深度学习提供了语料基础。采用Transformer模型对原始数据进行处理,包括分词、去除标点符号、转换大小写等操作,以消除数据中的噪声和提高模型的收敛速度,提取出文本数据的高层次特征(如词向量、词频等)输入模型。将大量的文本数据压缩成更简洁的结构,以减少数据量。使用Transformer模型对数据集进行训练,通过交叉验证来评估模型的表现。在训练过程中,不停尝试对模型进行调整,提高模型的准确率和泛化能力。将训练好的模型接入训练环境中,调试模型来获得预测结果。

对基底数据集多次训练后生成对应的大模型,依据训练好的模型进行评估准确率、召回率等指标,在进行数据校对后使用。

在拥有充足标注数据的场景下,深度学习可以发挥较大的威力,而当没有足够的标注数据语料时,就需要迁移学习,即将一个任务中训练出的模型参数迁移到另一个模型任务上,能有效加快模型收敛速度,降低过拟合问题。因此,采用基于“深度学习+迁移学习”的训练方式能使自动分类系统的适用性更强。

模型初步建立后,还需继续改善和优化,提升后续模型对数据的处理效率,如人工对自动标注的结果进行纠正或优化深度标引。这些经过纠正、优化的语料将作为训练素材用于下一次的机器学习,整个工作流程是一个闭环,机器自动标注的准确率会不断提高。

4.3 数据的汇入及标引

由于數据类型多、来源广,需要将各种数据整合在数据中台,以便进行统一管理和分析。例如,广西云数据中台的数据包含报社所有新旧媒资数据,包括报纸库、期刊库、网站库、App库、融媒体库、媒资库、新华社电稿库、小康数据库、党建平台库、图片库等,同时涵盖了广西14个设区市及各县(市、区)的党报、党端、广播、电视的数据。

数据的汇入需要考虑数据源的选择、数据格式的一致性、数据量的庞大程度等。不同的数据源,需要对其进行相应的处理和整合,确保数据的一致性和可读性。此外,如果数据量太大,在进行汇入时可能会出现一些性能上的问题。数据的汇入需要采用一些专门的技术手段,如数据库、API接口等。

数据汇入时,自动标注系统实时对这些数据进行自动分类,并标引其他检索特征。这个过程需要结合多种技术手段,如NLP(自然语言处理)和组织信息抽取等。其中,NLP可以用来处理文本数据中的语义和关系,而组织信息抽取则可以从非结构化数据中提取出有用的信息。通过这些技术的配合,可以更加精准地对数据进行标注和分类,从而提高数据的质量和准确性。

5 自动聚类及检索标志的智能提取

自动聚类,主要是根据文本的内在数据分布、语义特征,将海量文本数据自动聚合成多类,并为每一类数据给出描述性关键词,对文本进行核心关键词分析,聚合相似的文章。自动聚类功能的实现,在标注系统上主要体现为给每一篇文章自动标注核心关键词。

检索标志的智能提取,主要是通过智能识别文本中包含的命名实体信息和专业用语,在标注系统上主要体现为:对文章中的地区命名实体、人物命名实体、机构命名实体、时间、专业术语等检索标志的自动标引。

数据中台在汇入图片、音频、视频数据时,会自动调用预设置的AI(人工智能)中台智能解析能力,将汇入的多媒体内容进行语音识别、人脸识别、字幕识别等解析操作,同时将对应的语音、字幕识别成文字,并根据内容标注人物的名称,标注涉及的地点、事件以及相关机构。

对多个检索标志的智能提取,就是对新闻信息的多维度标引。CNCC在一定程度上具备了分面分类法的特征:主表的列类以内容主题为主,从“面”分类的角度看,主表是主题分面表,上述自动分类表主要是根据主表对内容主题的标引,便于把握各主题的纵向从属关系和横向相关关系,有利于新闻信息的族类检索;CNCC的几个复分表相当于新闻体裁分面表、国家地区分面表、中国行政区划分面表、人物分面表、中国民族分面表,对文章检索标志的智能提取,对新闻信息的体裁、地域、人物、民族等多维度的标引,相当于依据各个分面表的分面分类标引,通过组配可以形成复杂的概念,使检索结果更加精准,也可以让用户单独从不同的途径进行检索。尽管检索标志的智能提取不必依据预定的类表,但依据CNCC复分表标引的数据为检索标志的智能提取提供了训练数据语料。

6 基于分类标准自动标引的展望和思考

人工智能和机器学习技术是当今新闻技术发展的趋势,人工智能技术的发展将为媒体机构带来巨大的挑战和机遇。

6.1 自动标引具有广泛的应用前景

人工智能的自动标引技术可以快速、高效、实时地对信息资源进行处理,能为媒体机构提供非常好的新闻挖掘和分析能力,具有广泛的应用前景。在实际应用中,当各类新闻信息汇聚到数据中台时,就可以对该信息实时进行自动分类和相关特征的自动提取。这些经过标引的数据被赋予了更多的价值:可以根据需求制作成各类智能专题;各类智能专题可以关联各类新媒体采编发业务系统的相关栏目,助力各类新媒体栏目的信息发布;编辑部每天的采前会可以在大屏上实时分析已发布新闻的传播状况,研究确定各个新闻专题的后续报道计划。

随着ChatGPT等国内外自然语言大模型的不断涌现,内容生产成为AI应用的重点领域。2023年4月,首个全国性媒体AIGC研究机构成立[9],助力广西云融媒体平台建成融合AI中台、业务中台、数据中台的“智媒中台”,广西14个设区市主流媒体的加盟,整合了自治区各家媒体的资源优势,实现了数据共享与应用。AIGC(Artificial Intelligence Generative Content,人工智能生成内容)的核心思想是利用人工智能模型,根据给定的主题、关键词、格式、风格等条件,自动生成各种类型的文本、图像、音频、视频等内容。AIGC的强大功能需要有丰富完善的数据资源作为基础,自动分类、自动标引是其技术支撑之一。自动标引的未来研究方向包括深度学习和神经网络技术的优化、自适应智能标引、多模态标引等。

6.2 人工标引与自动标引的相辅相成

尽管自动分类、自动标引技术已经发展到智能标引阶段,但由于自动分类表比较简单,自动分类的输出结果也比较粗糙,在查全率和查准率方面有一定的局限性。

实际应用中,一般会采用两种自动标引与人工标引相结合的方式:一是人工标引与自动标引采用相同的字段,用同样的分类表,人工标引对自动分类标引的结果进行纠正;二是人工标引和自动标引并存,人工标引与自动标引的结果分别采用不同的字段,人工标引主要标引原创、

专题等重要数据,需要标引的数据占比较少。人工标引和自动标引的分类表也可以有所不同:人工标引的分类表是CNCC使用本,直接标引标准的代码和类目名称,分类条目及其层级较多;自动分类表比较简单,使用的分类条目数量较少,一般降维到二级,但底层对应的分类代码和人工标引的分类代码是相同的。第二种方式更易于操作,而且可以方便显示和检索数据库的重要数据。检索时,如需要精确检索,可以只选择人工标引的字段进行检索,而模糊检索则包含人工标引和自动标引的所有结果。

人工标引的分类数据是更有价值的模型训练语料,有助于改善模型、优化深度标引。建议业界重视原创数据的深度标引,基于标准进行分类,以便于共享和利用,而分类标引数据共享用于模型的训练,也有助于自动分类准确率的提高。

6.3 关于标准修订的思考

融媒体时代更需要新闻信息技术标准[10]。CNCC是新闻信息分类的标引工具,自动分类、自动标引的广泛应用,需要进一步完善CNCC,推广新闻信息分类标准应用實施。建议基于CNCC灵活制订自动分类表使用本,使用本条目底层对应CNCC的代码。在应用实施的过程中,积极反馈新闻信息的新主题、新需求和存在问题,按照《国家标准管理办法》及时进行修订。在CNCC修订中需要注意以下问题:1)跟踪新闻信息的发展状况,及时补充新出现的报道主题类目,并细化新增的类目。2)修订时要注意分类标准的延续性,如需修改类目名称和代码时,要非常谨慎,避免对标准的使用单位增添过多的麻烦。3)严格遵循代码唯一性的原则,新增类目和修改代码时,不使用曾经用过的废弃旧代码,因为对使用单位来说旧代码可能会有对应的数据。4)参考、兼顾新闻信息分类的相关国际标准,如国际上多家媒体单位采用的IPTC Media Topics新闻主题分类国际标准,它共有13种语言和语言变体版本,其中包含了中文版,特点是有利于从主题的角度标引新闻信息的内容,CNCC修订时可以参考借鉴。

7 结 语

为了提高海量新闻信息分类的效率,自动标引是新闻信息分类标引的发展趋势。基于规则的自动分类,Transformer模型训练数据特征效率更高,成本更低,适应能力更强。标引工具是进行文献标引的基础支撑,

[HJ1.77mm]

对于整体的中文新闻信息来说需要一个统一的新闻信息分类标准,而对于具体的媒体单位和用户来说需要更灵活实用的分类工具。建议依据CNCC制订适用的自动分类表,选择适当的智能文本分析系统,对新闻信息进行自动分类和自动标引,或者实现人工标引和自动标引相结合。基于标准制定的自动分类表更灵活、更高效,底层使用统一的分类代码,可以消除各平台分类数据的自有壁垒,促进各平台数据的友好交互,减少沟通成本,便于数据的融合和共享。

基于标准的自动分类标引具有广泛的应用前景。媒体深度融合需要新闻信息技术标准,业界应积极应用、维护和修订,使分类标准更具适用性。

[参考文献]

[1]张琪玉.我国情报检索语言在进步中:两部新分类法的特点[J].图书馆杂志,2008,27(7):24.

[2]蒋建华,张莉莉,李清华.新闻资料工作理论与实践[M].北京.中国广播电视出版社,2006:151157.

[3]全国中文新闻信息标准化技术委员会.中文新闻信息分类与代码.GB/T 20093-2022[S].北京.中国标准出版社,2022.

[4]蔡迎春,赵心如,朱玉梅,等.我国文献标引技术的回顾与展望[J].图书馆杂志,2022,41(3):1831.

[5]邓茜,林红.中文新闻信息自动分类标引的构想与实现[J].中国传媒科技,2005(9):2123.

[6]张志平.基于“中文新闻信息分类与代码”文本分类[J].太原理工大学学报,2010,41(4):402405,411.

[7]陈志新.分类法研究的十五个问题:我国2009至2016年分类法研究综述[J].情报科学,2018,36(6):149155.

[8]付蓉,张璐,冯岩松,等.研制新媒体信息分类 促进新闻业务发展[J].中国传媒科技,2016(4):5557.

[9]石睿鹏.首个全国性媒体AIGC研究机构在南宁成立[EB/OL].[2023-05-19].https:∥baijiahao.baidu.com/s?id=1763245180916892794&wfr=spider&for=pc.

[10]武国卫.融媒体时代更需要新闻信息技术标准[J].中国传媒科技,2018(2):78.

[收稿日期]2023-07-19

[作者简介]颜玉奎(1965—),女,本科,副研究馆员,广西日报传媒集团;石文龙(1988—),男,本科,工程师,广西日报传媒集团。

[说 明]本文系广西文旅厅2023年度文化和旅游研究课题“全媒体数据中台自动分类及其分类体系研究”(课题编号:112)的研究成果之一。

猜你喜欢
标引类目检索
本期练习题类目参考答案及提示
2019年第4-6期便捷检索目录
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
专利检索中“语义”的表现
本刊对来稿中关键词标引的要求
《中图法》第5版交替类目研究综述
黄三角、长三角、珠三角明、清及民国通志一级类目比较*
DDC22与CLC5化学类目映射分析
本刊对来稿中关键词标引的要求