林煜超 陈仰丽
2021年12月17日,习近平总书记在中央全面深化改革发展委员会第二十三次会议上提出“加快构建新发展格局”和“加快建立全方位、多层次、立体化监管体系,实现事前事中事后全链条全领域监管,堵塞监管漏洞,创新监管方法,提升监管的精准性和有效性”。“十四五”海关发展规划明确指出,要全面提升科技创新应用水平、深化海关大数据应用,探索应用区块链、大数据等加强联网监管,提升监管的精准性和威慑力。
当前,加快形成以国内大循环为主体、国内国际双循环相互促进的新发展格局,是中央根据我国现阶段实际作出的战略决策,是事关全局的系统性深层次变革。海关特殊监管区域作为联接国内国际两个市场的重要节点和对外贸易开放的试验田,随着“双循环”新发展格局快速发展,呈现出几个特点:参与主体更加灵活多样、货物流向更为复杂无序、物流链条不断细分延伸、主体关联日趋纵横交错。由于传统的数据挖掘手段仅聚焦于单票货物、单家企业的单线程分析防控手段,因而无法适应高速发展变化的特殊监管区域业务实际,难以满足全领域系统性研判分析、精准化防控处置风险防控需求,亟需引入新手段、新方法提升防控效能。知识图谱能把散乱、无序、单线程的信息,通过归纳总结,形成有关联关系的网状知识结构,从而辅助风险分析人员系统全面地掌握团伙脉络,梳理跟踪货物流转,及时定位异常并精准打击处置,正好契合海关特殊监管区域风险防控面临的新要求,对于推进风险防控整体水平和防控实战能力提高具有一定的现实意义。
海关特殊监管区域,是有别于关境内一般海关监管地区的特殊政策区域,主要包括保税区、出口加工区、保税港区、保税物流园区、综合保税区等,相比于一般贸易进出口监管,具有物流链条复杂、手账册类型繁多、进出口数据量大、区域内企业管理难的特点。知识图谱是2012年由谷歌公司提出的搜索新功能,目的是优化搜索结果,也可称为知识域可视化,用可视化技术描述一系列知识的发展与结构的关系。引入知识图谱及相关智能算法,可以有效解决数据散点分布、物流跟踪困难的问题,实现数据资源整合,强化海关监管,切实为风险防控赋能。
经过近年来的快速发展,我国海关初步建成大数据资源平台,不但涵盖了特殊监管区域货物进出过程中涉及的保税业务监管、企业管理、进出通关、卫动食商等管理职能以及稽核查后续监管等海关全领域监管数据,同时又包含各部委之间交换的监管数据。但是,目前的数据分析更多聚焦于一般贸易领域,涉及特殊监管区域的部分数据还没有经过清洗和挑选,海量的数据中哪些是涉及该领域风险防控的核心要素,对应核心要素之间如何构建关联,目前均处于探索阶段,因而数据仍处于散点状态,无法直接应用于风险防控之中,进而导致无法借鉴应用现有智能化风控的各种先进技术,实现风险的多元分析和关联分析。
对相关数据进行甄别和筛选,串联构建关键实体和数据关联,建立专业化的领域知识图谱,能够充分挖掘和发挥各种数据资源的价值和潜力,将沉淀积累的各种数据转化为知识,为风险分析提供强大的基础支撑。
2022年1月1日,海关总署颁布了《中华人民共和国海关综合保税区管理办法》,其中具体列明了区内企业可以开展的11大类业务。可以看出,综合保税区的功能已经从单一的保税、仓储逐步扩展到其他业务领域,这使得货物流转更加复杂。以货物从境外进入特殊监管区域为例,不考虑货物用途和使用目的等情况,按货物流转方向进行归结简化后就存在三个流向(详见图1),一是企业以加工成品出口或货物复运出境;二是企业以0110监管方式出区进口到国内市场;三是企业将保税货物转运到其他特殊监管区域、保税监管场所或保税加工企业进行保税间结转。
图1 特殊监管区域相关流程图
目前,传统的关系型数据库存储方式为二维结构,只能针对单个企业、单票货物、单个环节的单向数据,与特殊监管区域复杂的流向、复杂的物流链条不匹配,导致数据链条存在断层、货物跟踪分析难度较大,无法从整体上把握供应链存在的风险。
结合特殊监管区域风险防控的具体需求,合理规划知识图谱不同实体之间的属性,充分运用知识图谱编织关系网络的能力,串联构建特殊监管区域货物流转的完整链路图,为分析人员开展货物流向跟踪和整体性风险掌控提供切实可用的手段和工具。
海关内部业务数据专业性强,风险特征知识丰富,围绕监管业务关系密切。知识图谱为特殊区域风险防控赋能主要体现在以下两个方面:一是由传统的专家经验转化为风险知识沉淀。风险特征的要素是风险分析人员开展风险研判的基础,但目前各业务领域的风险特征或存于业务专家的脑海中,或应用于特定工作领域中,无法广泛应用于基层海关的风险防控中。利用知识图谱,梳理常见风险特征,建立切实有效的特征体系,将风险知识进行沉淀,应用于海关风险管理业务系统中。二是引入风险“关系”分析能力,拓展风险分析维度和方法。引入知识图谱各种新的智能化风控技术手段,逐步实现特殊区域风险防控的智慧化,比如不一致性验证,通过一些人为提前设计好的规则去找出潜在的矛盾点;或者高风险的判定,基于规则对实体深度关系有无触碰黑名单进行判别;再或者识别团体欺诈,通过实体之间关系、社群的划分,锁定强关联关系,识别团体。
总体思路是,结合特殊区域风险防控的具体经验,探索建立以物流和加工企业为核心实体、以货物流转为核心关系、面向特殊监管区域风险防控的领域知识图谱,充分将实货流转和保税仓储过程以及上述过程涉及的核心监管对象、风险把控节点进行展示,从而为货物流转跟踪、异常分析检测、智慧风险防控提供基础支撑。
常见的知识图谱示意图主要包含三类要素:实体、属性、关系。实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一张报关单、某一件商品等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。而属性是描述实体和关系的特征,用来区分实体或关系的相同或相异,如性别、国家、民族、籍贯等属性。关系则表示不同实体之间的联系,一般在知识图谱中以“边”来显示,不同关系的属性类型对应于不同类型的“边”。如果关系的属性是描述两个实体之间的关系,称为对象属性;如果关系的属性值是具体的数值,则称为数据属性。
知识图谱要有效地应用到海关特殊监管区域风险防控,就需要与现有数据资源进行整合嵌套,首先需要思考如何结合业务实际和应用目标,构建对应的三元组:
1.实体选择包括以下几个维度
实体的选取和考量,主要是结合特殊监管区域的业务实际,选取在特殊区域内占主导地位或能串联较多关联关系的对象:一是选取整个物流链条中经营活动的主导者,或是串联整个图谱各种关系的核心要素,也是风险防控的处置对象,例如特殊区域内的物流仓储和加工企业、国内实际货主企业等;二是选取相对可靠并且可以布控验证的数据,例如涉及实际货物进出特殊区域的载体、车牌号和集装箱号;三是选取能体现总体趋势或集中度的对象,比如代表货物实际进出境的口岸、代表货物的原产国别、贸易国别等;四是选取其他一些常见的风险特征,比如代表货物境外关联关系的境外收发货人、代表货物代理报关业务的报关行等。
2.不同属性对应的关系展示
对象属性的关系分类:以区内物流企业为维度的例子,如图2所示。
图2 对象属性的关系分类
数据属性的关系分类:以商品流向为维度的例子,如图3所示。
图3 数据属性的关系分类
3.不同属性对应的关系和权重
知识图谱的关系代表图上“边”的划分,而关系对应的属性,则代表“边”的值。如何判定图谱中各个实体之间关系的密切程度,核心点在于“边”之间的权重关系,所以需要初拟一个实体关系属性权重判定表,让知识图谱进行学习。结合日常风险防控经验开展测试和探索,初步构建的权重对应关系,因涉及数据安全要求,仅以下表1为示例。
表1 对应权重关系
构建好知识图谱之后,接下来就要用它来解决具体问题。对于特殊监管区域风险防控的具体需求而言,就是通过挖掘关系网络中的异常点。鉴于目前技术和业务的现状,建议采取基于规则为主的各种人工智能算法,应用到数据分析和甄别中,为风险防控提供新的思路和手段,后续再逐步拓展引入基于概率的智能算法。
近年来,特殊监管区域走私违法案件出现明显的团伙作案特征。以某供应链公司高档消费品伪瞒报走私案件为例,根据公开的法律文书档案,案件涉及的核心主体为被告单位某供应链公司,该主体同时联系国内多家货主企业,通过跨境电商,利用非法获取的个人信息,虚假邮寄报关,达到走私目的,逃避海关监管和税收。
团伙作案一般具有手法隐蔽性强、反风险监测意识强、主观违法意识明确的特点,在分析和防控处置中,需要充分挖掘团伙成员开展联动处置,从而防止打草惊蛇。知识图谱各类团伙检测算法相对成熟,可以帮助风险分析人员提前探测形成企业团伙关系,在发现其中某一企业存在违法违规行为风险时,即时开展整体分析和联动处置。结合上述知识图谱的构造特点,利用知识图谱近邻算法和社群算法相结合的方式,最为直接有效。
在对象属性上,上述图谱的构建主要侧重于实体的自然属性,可以采用近邻学习算法对不同企业团伙进行分类划分。近邻学习算法(nearest neighbor methods,k-NN)最早是1968年由COVER和HART提出的,目的是判断实体之间的相似度,实现团伙的识别。该算法能快速锁定多个实体之间共享的信息要素,比如多家企业共用一个联系电话和注册地址,从而揭示实体间的强关联关系。
在数据属性上,上述图谱的构建侧重于货物流转的关联关系,因而社群算法更为适用。社群算法(label propagation,LPA)表示与实体A有关联关系的其他实体属于哪个社群最多,实体A就属于哪个社群,实现社群的划分。比如某企业群的企业,均只与社群内企业频繁发生货物流转关系,呈现典型的闭环关联,则可以确定为团伙关系;一旦某个新企业突然参与到社群中,则可以认定为“马甲”企业。
在应用处置方面,对于团伙中的某票货物在口岸查发异常,则能够迅速锁定其他关联企业开展拦截防控处置,同时能及时发现“马甲”企业,避免出现漂移行为;某个企业在后续环节查发异常,则应该对社群中的各个企业联动开展风险排查和处置。
应用知识图谱开展异常物流流向和行为监测。特殊监管区域复杂的物流流向使得数据链条断层、货物跟踪分析难度较大,若仅针对单个环节进行分析,无法从整体上把握供应链存在的风险。采用划分聚类分析算法可以对全链条进行闭环检测,梳理识别同一商品的关联客户关系,挖掘出人工难以发现的潜在异常物流流向。基于划分的聚类分析算法(partition-based methods)原理是把相似的东西分到一组,充分运用知识图谱编织关系网络的能力,串联构建特殊区域货物流转的完整链路图。对物流流向进行闭环监测,防止利用特殊区域多个企业间货物循环流转和利用道具货物反复在两个企业间进出,从而达到平衡账册核销的目的,防范企业把保税货物销往国内牟利,短少串换料件的风险。
通过关注实际货物载体,例如车牌号、集装箱号或时间维度,例如企业报关或实际进出口岸的时间,监测是否出现同一车辆或集装箱在多地同时出现、是否存在格式化报关时间等维度,对企业进行异常行为监测。
利用知识图谱开展特殊区域货物核心路径的识别。根据管理学原理“帕累托法则”抓住关键少数的“二八原则”,在所有进出境的货物中,仅有20%是违法的,特殊区域风险防控的立足点在于精准判断出这20%的违法行为,既要“管得住”,又要“放得开”。应用贪心算法,能有效解决该问题。贪心算法(greedy algorithm)指的是在对某个具体问题求解时,把问题分解为若干个子问题,并在子问题中总是做出在当前看来是最好的选择。即货物在特殊区域中,针对不同流向的物流链条,在每一个环节下,只选择该环节数量最多的物流流向;通过识别整个物流过程中货物的核心路径,抓住其中的关键少数,排除多余数据的干扰,提高分析研判的效率。
通过对进出特殊区域的货物数据进行汇总分析,梳理企业间的上下游关系和数据间的关联关系,厘清统计口径的计算方法,判断数据的大小,给风险分析人员提供思路,排除其他物流流向的干扰,准确识别货物核心路径。
上述风险防控知识图谱的构建,有利于自动识别风险,供风险人员进行分析,但相关后续处置仍需人工进行,为达到全自动化风险监控,进行智能分拨及处置,可以构建海关特殊监管区域后续风险处置知识图谱,通过对通关、稽查、缉私相关历史情事的筛选分析,采集风险特征、整理风险验证手段和后续处置方式等内容,构造针对特殊监管区域风险防控后续处置的知识图谱。
针对企业建立常规体检表,实时动态对企业进行监控分析,并结合知识图谱在各个关键环节通过规则分析或设置阈值的形式嵌入“风险探针”,当触发探针时,结合风险处置知识图谱分类型处置:对于风险特征精准明确的预警,根据处置规则采取自动布控或拦截等处置手段;对于分析类的预警,自动预警提醒风险人员开展分析处置,并且自动在图谱中搜索推荐对应的特征变现、验证手段和历史查发情事等,为实时动态监测企业提供有力抓手。
本文构建的知识图谱,只利用了现有海量数据的小部分实体、关系和通过现有经验总结出来的规则、条件,还有大量尚未纳入图谱范围内。一是知识抽取,借助于自然语言处理等技术,在网络上抓取、清洗相关非结构化的关联数据,提取出结构化信息,为风险分析提供新的思路。二是基于概率的统计模型,对风险进行预测,不需要人为地去定义规则,而是随着数据的增加和知识图谱算法的学习,概率模型算法也将会逐步带来更大的价值。
目前,海关风险分析思路主要为先找到风险点,根据风险点寻找异常企业或货物,再针对具体企业或货物开展分析,传统做法较为落后,有一定的滞后性。而知识图谱构建的可视化态势分析,通过上帝视角,利用知识图谱打破现有业务系统隔阂,吸收融合多元数据,构建价值场景——贯穿海关所有业务板块,建设可供选择的不同维度的可视化态势分析。从首页的一张图态势总览,到各层级监管板块,甚至到各关区查验现场详情,都可以一览无遗。总揽全局,提前预判风险,精准打击,维护国门安全。
①帕累托法则,指在任何特定群体中,重要的因子通常只占少数,而不重要的因子则占多数,因此只要控制关键少数就能控制全局。