赵捷 袁辉 邓祥武 宫政 司琳华 金江
摘 要:在国民经济行业分析过程中,法人和其他组织的统一社会信用代码数据起着至关重要的作用,其不仅是产业和统计分析工作的基础,数据质量的优劣更会直接影响到分析结果的准确性。本文以提升数据质量为出发点,首先对数据质量问题进行精准鉴别,其次构建混合型自动化行业分类模型,并提出了数据质量持续提升的常态化标准化流程机制。这种策略在提供持续、迭代的改进机制的同时,也为国民经济行业的数据分析提供了更为坚实和可靠的数据保障。
关键词:统一社会信用代码,国民经济,自动化行业分类模型,数据质量提升
DOI编码:10.3969/j.issn.1002-5944.2024.05.009
0 引 言
法人和其他组织统一社会信用代码数据是以统一社会信用代码为唯一标识,整理校核各登记管理部门回传的各类法人和其他组织信息后形成的基础数据集,涵盖机构标识、名称、成立日期、经济行业等数据字段。截至2023年10月,统一社会信用代码库中共有法人和其他组织约1.8亿,其中法人机构共6002万,包括营利法人5267万,非营利法人545万,特别法人190万;非法人组织818万,个体工商户约1.1亿。
法人和其他组织统一社会信用代码数据能有效避免业务库面临数据孤岛问题[1],在支撑政务管理[2]、信用监管[3]、数字经济[4]、身份认证[5]等社会管理和经济活动各领域发挥了实名管理、分析决策的重要作用,其中国民经济行业数据是重要的统计维度数据,其质量直接关系到产业分析等统计分析工作的准确性[6]。国民经济行业数据质量提升方法的研究,对提高行业分类准确度,支撑我国经济普查等涉产业分类分析工作具有重要意义。随着近几年技术的快速发展以及国民经济行业标准[7]的新旧更替,研究国民经济行业数据质量提升新理论新方法,促进统一社会信用代码数据质量更加完整[8],进而引导国民经济行业分类质量全面提升,支撑国家统计分析工作迫在眉睫。
1 国民经济行业数据质量提升方法概述
国民经济行业数据质量提升方法聚焦三个方面:第一准确识别数据质量问题并进行原因鉴别;第二优化自动化行业分类模型和算法;第三建立标准化工作机制与工作流程,将国民经济行业数据质量提升作为一个常态化工作,动态无缝融合到每日的数据接收与处理过程中持续改进。
准确识别数据质量问题、定位问题并进行问题分类是聚焦质量提升关注重点以及确定优质样本集、评估提升效果首要的一步,需要以专家经验视角建立和维护相关方法模型。自动化行业分类模型是经济行业数据质量提升的技术内核,随着人工智能技术的发展,相关模型方法需要进行优化升级。标准化的工作机制与工作流程是确保数据质量持续提升的核心关键,建立形成融合技术、方法与团队的工作程序体现了数据质量管理的综合能力。
2 数据质量问题识别与分析方法
数据质量问题识别与分析方法研究旨在发现影响数据质量的各类问题,并分析原因,进而找到解决方法。
2.1 問题分类
从20年工作经验中总结规律并查阅相关文献[9],建立经济行业数据质量问题识别与分析模型,用以辅助人工对大体量数据实现自动问题发现与分析工作,模型包括对五个大类问题的识别:
(1)数据完整性问题识别:主要是对字段项内容中的空值、乱值问题进行识别标记。
(2)数据标准不一致问题识别:主要是对经济行业版本不一致的数据进行识别标记。国民经济行业数据基本已经完成了2011向2017版本的过渡,但由于全国各地情况多样,少数地区、领域数据仍存在使用旧版情况。
(3)数据原始上报不准确问题识别:经济行业数据在注册端由机构办理注册人员填报,因此掺杂人为主观因素造成不准确情况。需要借助自动化行业分类模型实现对此类问题的识别标注。
(4)行业分类细分不足问题识别:国民经济行业分类分为四个层次,即门类、大类、中类、小类。其中小类代表经济活动可供观察和度量的最小类别,分到小类意义最大。对仅分到门类、大类、中类数据进行识别标记。
(5)跨行业情况问题识别:目前企业跨行业、跨产业、横向发展的情况日益突出,较大规模企业很少有聚焦在垂直细分一个行业的情况。需要借助自动化行业分类模型实现对此类问题的识别标注。
2.2 原因分析
近2亿组织机构国民经济行业数据经过数据质量问题识别与分析模型的计算甄别,形成无问题以及各类问题标记的聚类集合。针对每个集合再人工抽样分析原因确定具体的处理逻辑,主要包括三种情况:
(1)经原因分析,由标准不一致、机构名称规则识别缺陷导致,可通过规则处理对应到准确行业分类,进入规则处理过程,进行经济行业数据纠偏完善。
(2)经原因分析,由完整性、上报不准、细分不足、缺乏跨行业分类导致,可通过自动化行业分类模型细化或纠正行业分类,进入自动化行业分类模型处理过程,进行经济行业数据纠偏完善。
(3)经原因分析,由机构名称、经营范围等字段质量问题引起行业分类错误,进入人工应急补充处理过程,先进行整体数据质量提升,再重新进入国民经济行业数据质量提升工作流程。
数据质量问题识别与分析方法过程如图1所示,通过方法可以形成相对无问题的数据集合,作为优质样本集合用于训练分类模型。存在问题的数据将多次通过模型去进行反复的问题识别与分析,直到进入无问题数据集合。模型产生的标记可以宏观分析监控到数据问题解决程度与质量提升情况。
3 构建混合型自动化行业分类模型
人工智能深度学习科学的进步,打破传统基于自然语言处理技术与规则匹配的行业分类方法,通过神经网络的应用能更加快速地进行文本特征分析与学习[10],消除关键词相似度匹配造成的语义歧义,从而进一步提高分类的效率和精确度。本文融合规则匹配模型与神经网络的优势,构建混合型自动化行业分类模型,针对机构名称和经营范围文本各自的特点,综合使用不同分类算法,得到最佳的分类结果。
3.1 数据样本准备
剔除经济行业数据质量问题识别与分析模型标记的部分问题数据并通过人工选择确立包含几十万数据的样本库,数据应符合以下要求:
(1)涵盖全部经济行业分类。
(2)数据机构名称完整,符合构成结构:[行政区划][机构标识][机构行业][机构类型],不包含错别字、缩略语。
(3)数据经营范围完整,内容描述完整,不包括大量错别字或仅包括单字、单词。
(4)经济行业分类准确。
高质量数据样本决定了训练模型的效果,机构名称和经营范围字段内容是分类经济行业的基础文本。同时需要准备标准特征样本库,将国民经济行业标准文本转成标准特征样本。
3.2 基于机构名称的规则匹配训练方法
机构名称的构成中包含有机构行业属性,如果能准确地将其剥离,与标准特征样本匹配一致,即可确定得到基于机构名称规则识别的经济行业分类。例如:北京美极鲜食品有限公司,其中“北京”是行政区划关键字,“美极鲜”是机构标识,也是俗称的商号,“有限公司”是机构类型,“食品”则能直接反映该机构所在经济行业是食品行业。这里需要用到jieba、LTP等中文分词技术实现对机构名称的分词。由于机构名称是规则型文本,因此通过分词解析出特征词并匹配得到对应经济行业的精准度非常高,但由于这种方法不一定能具体到经济行业小类或者三产分类(比如是制造业还是零售业),因此需要与经营范围分类识别算法共同使用。
3.3 基于经营范围的卷积神经网络训练方法
经营范围的构成包括多个文本描述语句,语句之前的间隔符号。文本描述语句中经常包括多个特征词,指向多种经营活动,涉及多个行业甚至多个产业,因此通过经营范围分类一般都会有多个分类结果,常规以第一个描述语句产出的分类结果作为主营经济行业。
通过卷积神经网络实现通过经营范围识别经济行业类别,首先要将经营范围文本转化为卷积神经网络模型输入层接收的自然语言序列向量,形成神经网络可以理解的语言模式。文本中的句号、逗号、分号等可以作为文本的分隔符,形成单独处理的文本语句,通过分词技术对文本语句进行分词处理与特征抽取。构造词典映射表,将词语映射为词向量,再根据神经网络要求对词向量进行序列化、填充处理,最后形成向量数据并逐一输入网络模型。之后卷积神经网络的卷积层通过卷积操作捕捉输入向量中的局部特征,通过学习连接权重将学到的特征映射到多个不同的的经济行业类别,并计算出最相关的经济行业类别。在训练过程中,模型通过与正确样本的比较,利用损失函数来调整权重,以最小化分类错误。卷积神经网络成功分类的关键在于模型通过学习权重和偏置来发现经营范围文本中与经济行业相关的抽象特征,通过学习大量已知的、准确的样本数据,进而泛化到未知数据,对新输入的经营范围文本进行经济行业分类。
3.4 合并形成混合型自动化行业分类结果
将基于机构名称的规则匹配方法與基于经营范围的卷积神经网络训练方法得到的经济行业分类结果合并分析,可以发现,样本准确度高的情况下一致性较高,如果出现不一致,由于经营范围数据质量低于机构名称数据质量可能性较大,可以优先使用机构名称产生的分类。
4 数据质量持续提升标准化流程机制
国民经济行业数据质量提升工作是一项常态化工作。在日常工作中建立促使数据质量持续提升的标准化流程机制,才能确保国民经济行业数据质量实现长效优化。具体包括三个方面的工作流程机制:数据日常处理工作流程机制、数据质量监测工作流程机制以及数据模型优化工作流程机制,如图2所示。
4.1 数据日常处理工作流程机制
统一社会信用代码数据是由每日注册业务产生的数据,从数据回传到数据应用具有很高的时效性要求,因此经济行业数据质量提升工作是一项内嵌于代码数据工作流中的子任务,作为代码数据整体质量提升工作中的一个并行分支,在数据应用前通过经济行业质量提升子系统完成质量提升工作。
数据回传进入中心统一社会信用代码数据库,经济行业数据输入进入经济行业质量提升子系统,首先进入问题识别与分析模块,针对每一条机构数据对经济行业存在的问题进行标记,无问题标记数据进入后续数据加工处理环节,有问题数据进入质量修复模块,针对质量问题进行修复,然后重复进入问题识别与分析模块,查看问题修复情况,如果再次存在问题,抛出进入人工协同工作站,由数据人员对问题原因进行深层次分析与处理。
4.2 数据质量检测流程机制
数据质量检测流程机制用于人工监督数据整体质量情况,包括通过合理抽样数据实施质量检测、通过质量评价标准判断整体数据质量以及挖掘发现质量问题三个方面。
(1)数据质量抽样
数据质量抽样需要选择能够代表整体数据集的样本。这可能涉及到随机抽样、分层抽样或者特定规则下的样本选择。样本应该在各个维度上具有代表性,以确保抽样结果对整体数据的反映具有可靠性和有效性。抽样的规模很关键,要考虑到样本数量对于数据集的代表性以及评估人工成本的可操作性。
经济行业数据量级与机构量级相统一达到近2亿条,因此在质量检测工作中,需要选择合理抽样方法获取小样本的方式,集中评价发现质量问题。首先结合经济行业数据特点确定抽样方案,一般包括三种:
第一是按照经济行业分类层级进行分层抽样,按照经济行业门类20个,大类97个,中类473个和小类1380个,每类抽取一定样本,这样可以实现各类经济行业情况的全覆盖,但由于分类较多,考虑人工成本,只能减少每个分类的抽样数量,一般单个分类样本数量只能在个位数。第二按照地域进行特定规则抽样,全国各省、市、自治区(不包括港澳台),每个抽取一定样本,这样可以看到各地上报数据质量情况,对质量状况不好的地域集中发现问题、治理问题。第三个是按照机构类型进行特定规则抽样,可以强化对某个类型机构的经济行业数据关注与治理。
(2)质量评价标准
质量评价标准[11]是用于衡量数据质量的指标和标准,它们用于度量数据的各个方面,确保数据符合预期的质量标准。经济行业数据质量评价标准包括以下三种:
第一完整性(Completeness):衡量数据的完整程度,即经济行业数据是否缺失或者不可解读。第二准确性(Accuracy):衡量数据的准确性,即经济行业数据是否与机构名称、经营范围描述相符。第三有效性(Validity):衡量数据是否符合预定的规范和业务规则,即经济行业数据是否符合标准的定义和具有完整的分类编码。
评价可以针对全量数据产生宏观评价,也可以对小样本数据或单一数据进行评价。
(3)质量问题发现
质量问题发现是通过一系列的检测和分析步骤,识别和定位数据质量问题的过程。经济行业质量问题发现可以从宏观分析、抽样分析、用户反馈和异常报告三个方面发现问题:
宏观分析发现数据问题是指从经济行业数据整体分类数据统计情况,发现数据量趋势或分布存在异常,从而推导出经济行业数据质量出现问题,例如金属制造行业某个省占比达到10%,比上月占比高出20%,从这里可以推测出部分行业数据出现分类错误情况,可以着重分析问题原因进而纠正。抽样分析发现数据问题是指从数据质量抽样到的小样本数据,通过逐一核实分析,发现错误、缺失等情况等,聚类找到共性问题原因进行质量纠正。用户反馈和异常报告是指根据收集到的用户反馈和异常报告,了解用户在实际使用中遇到的问题数据,进而对问题数据进行逐条分析,发现潜在的数据质量问题。
4.3 数据模型优化工作流程机制
数据模型优化工作流程机制是指通过人工分析问题对模型涉及的语料、规则进行补充。该流程机制内嵌在人工协同工作站中,当在质量提升流程中遇到目前模型算法难以自动处理的难点,经济行业数据会进入人工分析处理流程,确定是判定规则缺失、词库特征词缺失还是标准语料库缺失从而人工添加相应的规则、词语或语料,促进模型的优化,提高日后判定的准确度。
5 结 语
法人和其他组织统一社会信用代码数据国民经济行业数据质量多年来不断完善和提高,通过开放共享的数据提供更好的服务模式[12]。本文论述了在质量提升工作中应用到的具体方法机制,包括技术方法:数据质量问题识别与分析方法、自动化行业分类模型,以及日常处理、质量检测和模型优化的工作流程机制。经济行业数据质量提升工作需要保持不断的总结和探索,精益求精,为国家宏观分析决策工作筑起坚实的基础底座。
参考文献
[1]周烨.法人及其他组织统一社会信用代码数据在大市场监管信息化工作中的应用研究[J].科技风,2019(26):265-266.
[2]刘吉洲,张永全,郑伟,等.区域性统一社会信用代码信息服务实践与研究——以山东省济宁市为例[J].中国标准化,2020(7):114-118.
[3]张根红,安鸿志,吴建军,等.统一社会信用代码在卫生监督执法领域信用监管中的应用探讨[J].中国卫生监督杂志,2021,28(3):266-270.
[4]周顺骥.基于福建省法人和其他组织统一社会信用代码的数字经济发展状况研究[J ].中国质量与标准导报,2022(6):75-79.
[5]黄润飞,陈贤明,黄燕玲,等.基于身份标识和区块链技术的粤港澳大湾区法人及其他组织跨境身份认证应用研究[J].标准科学,2023(8):53-57.
[6]周丛丛.以企业统计数据质量提升促政府经济调控高效问题探讨[J].中小企业管理与科技,2023(21):92-94.
[7]关于批准发布《国民经济行业分类》国家标准的公告2017年第17号[J].中国标准化,2018(1):150.
[8]沈健威,朱峰.以共享应用为导向的统一社会信用代码数据质量提升方法路径研究[J].标准科学,2020(8):111-114.
[9]杨四娟.专利数据统计中《国民经济行业分类》代码的应用研究——以医药制造业为例的重点及典型调查法举证分析[J].中国发明与专利,2021,18(10):12-20.
[10]陈钢.基于混合神经网络模型的企业行业分类[J].电子设计工程,2022,30(24):64-69.
[11]张宁,袁勤俭.数据质量评价述评[ J ] .情报理论与实践,2017,40(10):135-139.
[12]田建華,贺玉峰,陈宇,等.基于专题数据库的统一社会信用代码创新应用研究[J].标准科学,2020(5):53-59.
作者简介
赵捷,硕士,高级工程师,研究方向为大数据治理和信息技术标准化。
袁辉,硕士,高级工程师,研究方向为大数据分析和信息技术标准化。
邓祥武,本科,高级工程师,研究方向为信息技术标准化。
宫政,硕士,高级工程师,研究方向为数据分析与数据治理。
司琳华,硕士,高级工程师,研究方向为信息技术标准化。
金江,本科,高级工程师,研究方向为数据库技术和信息技术标准化。
(责任编辑:袁文静)