基于大数据的市场监管知识图谱研究

2020-08-24 00:52姜宇星王曰芬
江苏科技信息 2020年18期
关键词:市场监管市场主体结构化

姜宇星,王曰芬

(南京理工大学经济管理学院,江苏南京210094)

0 引言

十八届三中全会指出,经济体制改革是全面深化改革的重点,核心问题是处理好政府和市场的关系。随着简政放权、政府职能转变、商事制度改革、社会信用体系建设等执政理念的不断推进,我国进入了一个大变革、大发展、大调整的时代[1]。在这样的背景下,市场监管部门需要顺应时代变革的要求,创新市场监管工作,从服务方法和形式上寻求突破。

近年来,大数据技术在各行各业普及深化,与市场主体关联的数据总量不断增加,市场监管部门的决策行为不再仅凭经验,而是越来越多地依赖数据分析,数据分析将成为监管部门创新服务方式、参与宏观管理的重要基础与有力支撑[2]。如何深挖现有的数据价值,释放数据背后的应用潜力是当前需要重点考虑的问题。市场主体之间关系复杂,传统结构化的数据组织模式难以刻画和发掘其中复杂多变的关系。知识图谱作为一种新兴的数据转化与知识化表达技术,在表达高度关联数据中的复杂动态联系方面具有显著的优势,适用于反映市场主体的运行状态和关系网络。知识图谱技术为基于大数据的市场监管提供了一种新思路。

1 市场监管大数据及其来源

1.1 市场监管大数据及其作用

市场监管部门在履行注册登记、执法办案、商标广告、合同帮扶、日常监管、消保维权等职能的过程中,积累了大量与市场主体相关的数据。这些数据来自不同的职能部门,数据形式与存储格式多样,数据更新频率差异大。这些数据既反映了市场监管部门的履职过程,也客观描述了市场主体的运作情况,对开展行业结构分析、发现区域产业集聚、提供经营异常警示、研究企业生命周期等具有非常高的价值,对政府提升决策能力,实现对市场的精确监管有较强的参考意义[3]。因此对市场监管大数据进行深入的分析和挖掘将成为监管部门创新服务模式的一个突破口。

1.2 市场监管大数据的分类与来源

(1)按照参与市场监督管理的职能部门和角色来分,如表1所示。

(2)按照市场主体的信息特征来分,考虑市场主体从自身到所处外部环境等多方面的因素,如表2所示。

(3)按照数据来源的结构特征来分,可以分为以下几类。

结构化数据:这一类数据可以是监管方信息系统内部数据库中的私有数据,也可以是以数据表等规范化形式存储的公共数据。这一类数据普遍结构规范,存续期长,不易随时间的变化而改变。结构化数据的优点是置信度高、数据可靠;缺点是数据规模小、获取不易,时效性有时也不如其他类型的数据。

半结构化数据:这一类数据是指那些无法通过单一模板直接获得的数据。相比结构化数据,半结构化数据具有结构多变、模式不统一的特点,有效信息的提取和整理依赖人工和经验。这一类数据的优点是置信度较高、数据规模较大、个性化信息丰富;缺点是样式多变且含有噪声,难以通过模板方式进行大批量抽取。

表1 按照参与市场监督管理的职能部门和角色划分的数据来源

表2 按照市场主体的信息特征划分的数据来源

非结构化数据:这一类数据通常指代纯文本,特别是以自然语言形式储存的文本数据。互联网上大多数时效性较高的监管信息都以非结构化的文本形式表达。相比前两种数据形式,非结构化的数据来源多、总量大、时效性强,但是由于缺乏显式的结构,从中提取有效信息的难度很大,利用自然语言处理等相关技术,深入挖掘非结构化数据中的有效内容也是开展知识图谱应用的关键之一。

2 市场监管知识图谱的概念与特点

2.1 市场监管知识图谱的概念

知识图谱本质上是一种基于语义网络的知识体系[4]。与传统使用二维表形式存储数据的方式不同,这一知识体系采用了有向图结构,图中各个结点一般用来代表实体(如企业、个体工商户)或者指向某一概念,而图的边代表实体与概念之间的各种语义关系。把数据中蕴含的知识用图结构进行形式化表示,并和已有的结构化数据进行关联,就构成了知识图谱。一个简单的市场监管知识图谱组成如图1所示。

由于市场监管大数据中存在大量以非结构化形式存储的数据,为了让计算机能够有效利用这些数据,需要理解数据符号背后的含义,辨析语义单元之间的各种关系,用便于进一步推理和展示的方式存储起来,“图”就成为能标识这类数据之间结构的高效表达形式。因此,市场监管知识图谱应是一个综合性的概念,既要具有知识图谱的内涵与特征,符合知识图谱的分类,又要体现出对于市场主体服务对象需求的反应。

图1 市场监管知识图谱组成示意

具体来说,可以从以下3个角度界定市场监管知识图谱的概念和内涵。

首先,从知识图谱的内涵与特征来看,市场监管知识图谱是一种结构化的有向图,它以市场主体监管大数据为知识源,描述市场活动中的各类实体、实体关系、涉及实体的各类事件等。市场监管知识图谱可以刻画复杂的市场经济活动,较之传统知识表达技术,能够揭示市场经济活动中更为复杂的结构特性,具有易于内容理解、统一表达与可复杂推理的特征,为市场主体监管提供宏观描述、主体关系发现、行业监测、异常预警等决策支撑。

其次,从分类角度来看,市场监管知识图谱是一种多类型综合的知识图谱。从知识的主客观属性来看,它首先必须包含与市场主体相关的客观知识,然后考虑到市场主体服务对象的信息反馈,也需要加入各类主观知识对整个知识体系进行补充;从知识的载体与表达内容来看,它涉及各种数据结构的文本知识,并随着其应用的扩展,还会加入视觉知识和多模态知识;从知识应用领域来看,它属于行业性的知识图谱。

最后,从服务对象与需求的角度来看,基于市场主体监管大数据的市场监管知识图谱就是以服务政府决策部门管理、行业自律、市场主体经营和社会公众为目的,以特定市场主体监管与决策需求为依托,以表征市场主体监管活动的大数据为基础,采用知识图谱构建技术,监管市场主体的变化和挖掘信息所蕴含的市场活动中的各种关系,从而实现刻画出复杂的市场主体分布、变化和发展状态的功能。

2.2 市场监管知识图谱的特点与优势

市场监管知识图谱的主要作用是支撑市场监管职能的有效发挥,结合市场监管的工作与职能,市场监管知识图谱应具有如下特点。

2.2.1 在易理解基础上突出知识内容表达的全面性

由于市场主体准入和监管信息相关数据量庞大且涉及面广泛,在构建市场监管知识图谱的过程中,不仅需要关注数量的变化,还应注重结构的变动,需要通过对市场主体关系的多维度抽取,进而多角度全方位地体现市场主体的发展变化情况。而与其他知识内容表达方式不同的是,市场监管知识图谱不仅具有以易于认知理解的可视化方式展示各种市场活动数据与信息的特点,而且还具有以可扩展的图结构方式全面地建立各种市场活动数据与信息间关联的特点。因此,市场监管知识图谱更容易达到为政府决策部门管理、行业自律、市场主体经营和社会公众提供全方位、多角度和深层次的决策支持的目的。

2.2.2 在易统一基础上突出知识形式化组织的联动性

市场监管知识图谱主要以市场监管管理为目标而构建,在实际应用中涉及工业产品、计量、特种设备、检验检测机构、食品生产、广告发布登记等行政审批事项与质量监察等业务,关联到统计、财政、税务、发改委、审计等部门发布的市场数据和信息[5]。不仅要及时跟踪市场主体登记、注销、信用与风险等情况,进而发掘其中的变化原因与趋势,而且要反映较长一段时间内市场活动的发展态势、突发事件与应急管理的情况,同时要结合热点行业、敏感行业的发展情况与市场风险点,关注地方支柱产业特征和体现区域间发展差异。与其他信息或者知识组织方式不同的是,市场监管知识图谱不仅需要将不同来源不同类型的数据和信息进行形式化统一组织与集成,还需要实现大规模、跨领域、高覆盖的知识采集与存储,将多个行业部分联动起来。因此,市场监管知识图谱更容易实现对多源异构数据的集成与融合,以支撑各个行业部门的综合决策。

2.2.3 在易操作基础上突出知识推理实现的深入性

市场监管管理的主要业务围绕登记注册指导、行政审批、政策研究与推广、法规起草与落实、应急管理与宣传、信用与风险监督、产品质量安全监督、网络交易监督管理等展开,这些业务活动涉及的主体与关系复杂,而在业务活动进展过程中,不仅需要梳理各类主体、明确主体的属性与表现形式,而且需要厘清各个主体之间的关系,更需要通过复杂网络的路径分析挖掘出不同主体之间隐含的关联,为深入解释经济现象出现的原因,以及市场主体突发事件可能对社会经济带来的影响提供支持。与现有的简单知识关联推理相比,市场监管知识图谱不仅具有通过图结构快速发现各个主体事件的联系的特点,而且具有借助优化的路径遍历搜索等算法使复杂的主体关联得以深入地推导的特点。因此,市场监管知识图谱更容易反映市场变化的来龙去脉,而且为深入发现市场经济效果与促进国家宏观政策不断完善提供可循证的数据支撑。

2.2.4 在易达成基础上突出知识应用的针对性

随着知识图谱在各行各业的日益普及,如何结合实际应用的目的借助于知识图谱更加有效地利用知识,是市场监管知识图谱构建的根本宗旨。结合市场监管业务的需求,市场监管知识图谱一方面依托披露信息与挖掘知识为政策制定提供依据,另一方面在于发现不足和潜在的问题以便及时地调整政策导向,支持针对性解决方案的制定。而与现有的信息管理体系不同的是,市场监管知识图谱不仅具有能够便利地用于实践工作中的特点,而且具有通过简单的图结构将各种实践以可视化方式表达进而实现有针对性应用的特点。因此,市场监管知识图谱是支撑政府、行业、企业和个人实现知识应用的有效工具。

3 市场监管知识图谱的构成与构建流程

3.1 市场监管知识图谱构成

知识图谱以统一的表达形式对知识实例数据定义和具体知识数据进行描述,通常使用三元组形式对知识单元与体系进行资源描述和存储。在这一背景下,每个实例数据使用约定的“框架”进行描述,并在此约束下将数据进行结构化转换,并与已有的结构化数据进行关联,从而转变为可用的“知识”。这里的“框架”就是对知识的描述和定义,知识框架和实例数据共同构成一个完整的知识体系。

尽管目前大部分的知识图谱都以三元组的形式表示各种类型的知识,但是实际上知识图谱的知识表示绝不仅仅体现在以二元关系为基础的三元组上,还体现在实体、类别、属性、关系等多颗粒度、多层次语义单元的关联中。

从图1可以看出,市场监管知识图谱的构成元素主要包括以下3类。

(1)节点:节点用于表示实体、事件等对象。传统的关系型数据库中,通常用一条记录中的某一个或某几个字段来存储类似的内容,而在图数据库中则转变为节点。人物、地点、具体事件都可以作为此类节点。例如在刻画市场结构关系时,节点可以用来表示各市场主体、自然人,体现彼此间的构成形式;在刻画市场经济活动时,节点可以用来表示各项经营内容、参与对象;在刻画具体事件时,节点可以用来表示事件名称、事件要素等。

(2)边:边是指图中相邻节点之间的有向线段,用于表示节点彼此之间的关系。例如两个自然人之间的合伙人关系、家庭关系;企业和自然人之间股东关系、雇佣关系;实体之间彼此的投资、交易关系;事件与事件要素之间的各类组成关系等。

(3)属性:属性用于描述节点或者边的某一类特性。例如人物(节点)的姓名、股东关系(边)的起止时间等都是属性。

3.2 市场监管知识图谱构建流程

知识图谱的构建流程目前尚未形成统一的认识,但是各种理论的各环节内涵基本相同,均涵盖了知识体系构建、数据获取与预处理、知识实体识别与提取、知识实体关系解析与建立、事件与事件提取、知识融合与存储、知识计算与应用,可视化表达与图谱结果解读等内容[4,6-7]。在对已有研究综合的基础上,本文提出市场监管知识图谱的构建流程,如图2所示。

构建和应用市场监管知识图谱的主要环节如下。

知识体系构建,核心是构建一个描述市场监管业务领域的本体。在此本体中需要明确领域知识中用于描述现实实体的“事物”,例如“张三”“江苏XX 有限公司”“处罚通知书”;描述具有相似本体特征“概念”,例如“股东”“城市”“企业名称”“行政处罚类型”;描述事物或概念具有特征或特性的“属性”,例如“股份有限公司”“个体工商户”;描述实体之间关联方式的“关系”,例如“类-子类”关系、“类-实例”关系;此外还有描述概念、实体之间的“函数”,领域内的“公理”“实例”,以及基于该本体定义的推理规则。

知识获取是指机器如何获取知识以扩充知识库的涵盖范围。在知识图谱的常规任务中,知识获取的目标是从大量的数据中通过信息抽取的方式获取知识。市场监管数据包含现有各信息系统里的标准化结构数据,以及诸如行政处罚公示、司法股权冻结信息、12315投诉信息、经营异常名录信息等以报表、表格等形式存储的半结构化数据,还有大量诸如电商平台用户评价、网络媒体新闻与论坛等自然语言形式呈现的非结构化数据。从结构化和半结构化的数据源中获取知识相对简单,数据噪声小,通过编写脚本或人工编写模板等方式可较为便捷地得到结构化的三元组;在处理非结构化数据时,因为自然语言表述上的灵活性等特点,上述方法较难奏效,目前针对这类问题通常会用到自然语言处理的相关技术。

图2 基于大数据的市场监管知识图谱构建流程

知识融合是指融合各层面的知识,构建起不同数据源之间的关联。不论是通用知识图谱,还是领域知识图谱,往往都会面临处理多个数据源的问题。这些数据源因来源不同,其结构、语言等都可能存在较大的差异。市场监管知识图谱通过融合监管、公安、社保、媒体等不同来源的数据源,可以有效补充和更新原有的知识。但因来源不同导致的数据结构差异也会带来新的问题,如需要实体去重、语义消歧等。知识融合的核心是处理不同知识来源或实例之间的映射关系。从融合的知识图谱类型来看,有垂直方向的融合,如融合通用本体和领域本体这类不同层次的知识图谱,以达到完善知识图谱体系结构的目的;也有水平方向的融合,如融合同层次的知识图谱以对其规模进行扩充。

知识存储是指对已构建知识图谱的存储和管理方式。知识图谱的主要存储方式为RDF格式存储和使用图数据库。前者采用RDF三元组的形式存储数据,如Freebase知识图谱对每一条信息(Topic)使用结构化的三元组来保存。后者通用性更强,如目前典型的开源图数据库Neo4j 就包含了完善的图查询语言,支持大多数的图挖掘算法,但在数据库规模增大后计算时间会变长。

知识推理是指通过推理手段发现隐含的知识。由机器参与构建的知识图谱往往存在诸多信息缺失现象,如实体缺失、关系缺失等,在难以继续使用知识抽取或知识融合的方法补全缺失信息的情况下,采用推理手段,从已有的知识中找出缺失内容就成了解决问题的有效手段。目前知识推理的研究集中在缺失关系的补足,即挖掘实体之间隐含的语义关系,并普遍采用了基于逻辑规则或者基于表示学习的方法。在市场监管知识图谱中,知识推理除了补全缺失以外,还可以用来发现市场主体之间的各类隐含联系,可应用于构建市场主体关系网络和异常预警。

知识应用是指包括以智能搜索、自动问答、推荐系统、决策支持为基本形式的各类型应用服务。基于知识图谱的服务和应用是当前的一大研究热点。

综上所述,政府的市场监管职能关系着经济发展大局,市场监管中数据资源是管理市场运行与科学决策的基础和前提。只有借助先进的技术方法,深入挖掘与利用市场监管中的大数据资源,才能为社会经济活动提供充分的依据,从而提高各个领域的管理和运行效率。而如何将市场监管知识图谱加以应用和验证,将是后续研究与应用的课题。

猜你喜欢
市场监管市场主体结构化
玉米市场主体售粮积极性提高
李克强签署国务院令 公布《中华人民共和国市场主体登记管理条例》
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
人民币汇率破7 市场主体应对有序
三地实践:有效释放市场主体的活力
青海省人民政府关于贯彻落实“十三五”市场监管规划的实施意见
中药饮片市场监管乏力