一种海关品牌型号库构建工具设计方法

2022-01-22 10:34滕灏,高亚东,刘存,毛柯
计算机时代 2022年1期
关键词:报关单机器学习

滕灏,高亚东,刘存,毛柯

摘  要: 目前海关常用的十位商品海关编码是一种比较粗放的编码方式,在报关单中商品海关编码很难和具体商品实现一一对应的关系,亟待构建一套标准的商品智能分类工具,为海关管理提供基准的商品分析依据。文章基于海关报关单申报商品名称规格型号,利用机器学习等先进技术手段,实现将海关商品的最小分析单元从HS编码细化至具体品牌型号,形成商品基础库,实现商品智能分类,为贸易监管、税收征管、稽查缉私等业务提供强大支撑。

关键词: 海关编码; 报关单; 机器学习; 商品基础库

中图分类号:TP311          文献标识码:A     文章编号:1006-8228(2022)01-42-04

A novel design method of building tool for customs brand model library

Teng Hao, Gao Yadong, Liu Cun, Mao Ke

(Division of Science, Hangzhou Customs, Hangzhou, Zhejiang 310006, China)

Abstract: At present, 10 bit commodity HS code is a rough coding method commonly used by Customs. Unfortunately it is difficult to achieve a one-to-one correspondence between the commodity HS code in the customs declaration and the specific commodity, which lead to urgently build a set of standard intelligent commodity classification system to provide the basis of commodity analysis for customs management. According to the customs declaration of commodity name, specification, model, using advanced technology such as machine learning, this paper refines the minimum analysis unit of customs commodity from HS code to specific brand and model, forming a basic commodity library, realizing intelligent classification of commodities, which provide strong support for supervising trade, tax collection and management, anti-smuggling and other businesses.

Key words: HS code; customs declaration; machine learning; basic commodity library

0 引言

近年來全球大数据[1]技术呈现快速发展趋势,大数据技术在数据分析[2]、流程优化[3]、风险防控[4]及监测预警[5]等方面展现出巨大威力,大数据已成为各国家政府的多种国家战略交叉域。各国海关在大数据应用方面纷纷加大投入,如新西兰海关实施大数据战略,联合内外部专家利用多机构的数据开发目标模型,更好地预测威胁,监测趋势并确定高风险目标;英国海关借助第三方数据厂商拓展数据来源及数据多样化类型,保证数据准确性,通过数据对碰及时发现监管风险。2018年,我国海关总署设立了全国海关大数据应用中心,搭建了互相联通、统一管理的大数据基础平台,在支持全国通关一体化[6]、打击走私[7]、应对中美贸易摩擦[8]、捍卫国门安全[9]等领域做了有益的尝试并取得一定成效。但在商品领域,缺少有效的分类基础数据及构建工具,如何构建精细的商品分类方式来为精准分析提供支撑,成为海关大数据分析领域的一个重要课题。

1 商品分类痛点

海关通关业务中,各企业、各代办机构的报关员出于便利、个人习惯或对商品的不同认识,填写报关单时,对商品的描述往往不规范,导致不同的商品描述代表了同一种商品;同时,海关常用的税号通用的是10位HS编码[10],这是一种比较粗放的编码方式,一种商品编码在报关单中很难精准定位到一种商品。因此亟待构建一个标准的商品要素属性库体系为业务工作提供基准的商品分析依据。

SKU来源于电商平台的最小库存单元理念,即库存进出计量的基本单元,现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的存货单元号。本文中的品牌型号库构建工具就是构建SKU级的商品分类编码,能精准定位到具体某类商品,实现商品的属性管理、属性值管理、SKU管理等功能。

2 系统建设目标

商品库构建工具对报关单中的商品信息进行分析,根据商品报关要素进行分类整理,最终形成基于SKU级别的商品库,为其他数据分析系统提供数据支持。

系统为海关商品数据分析、归类提供技术支持,具体有以下几个层次:

一是报关的数据采集与清洗,采集对象是报关产生的大量非结构、不确定、高冗余的商品记录数据,对其做初步的清洗和规整化,抽取报关单中商品相关的重点申报信息;二是商品要素提取,参照海关报关要素提取商品属性,针对属性提取该商品的属性值;三是商品SKU管理,通过对商品属性和属性值的梳理,逐步形成海关申报商品的SKU编码规则,实现比已有的HS编码更精细化的分类管理方式。

3 系统设计

3.1 总体架构

系统对报关单数据进行快速有效的归类整理,按照分析人员要求,将报关数据中的共性的商品特征信息按一定的分类标准归类入库,进行提取分析,形成SKU级商品要素属性库,供其他分析系统做进一步的数据分析。系统体系结构如图1所示。

3.2 功能设计

系统应用架构分为四个层次,基础层、服务层、应用层和展现层,系统应用架构如图2所示。

3.2.1 数据采集与处理

采集对象是报关产生大量非结构、不确定、高冗余的商品记录数据。这些数据存在大量不完整、不一致、有异常的情况,严重影响到商品库要素挖掘的执行效率,甚至可能导致挖掘结果的偏差。所以进行数据清洗就显得尤为重要。

通过ETL工具抽取数据源为Max Compute、Oracle或SQL Server的系统数据,支持数据的全量和增量采集,支持对数据同步过程进行监控,可通过浏览相关日志,了解数据同步过程的详细信息,并支持对数据同步执行过程进行干预和调整。

数据采集后,预先对其清洗,删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值。利用优化剪枝以及高性能算法对其进行属性提取、关系挖掘、比较融合等处理。

3.2.2 商品分类管理

由于商品数量庞大,商品种类成千上万,为方便管理,需要我们将商品分门别类,同一类别是管理范围内的商品集合总体,它既可以是某一类税号,又可以是拥有相同属性的某一商品类别。系统提供灵活的商品分类自定义功能,根据需要对分类进行更新、删除等,通过查询分类列表,可掌握该分类商品数据挖掘情况。系统按类别定向采集数据,针对同一类别下的商品实现对商品属性和属性值的统一管理。

3.2.3 商品属性管理

依据海关现有商品综合分类清单,梳理商品属性,商品属性由商品自有的特性抽象而来,是商品本身存在的不可缺少的性质。系统针对商品属性进行统一管理,具体功能包括:商品属性定义、商品属性维护。

属性定义是对同一商品分类下的商品自有特征进行提炼。针对一类商品,系统完成初步的清洗和规整化,抽取报关单中商品相关的重点申报信息,形成待分析商品清单。

属性维护便于用户查看该商品分类下的属性信息。用户根据需求,参照待分析商品清单,对属性进行增加、修改和删除。为方便属性定义和维护,将其分为全局属性和局部属性。

3.2.4 商品属性值管理

按照定义的属性,对报关单中商品相关信息进行全面分析,将属性值全部提取出来,形成该属性的值域。某一商品分类下的同一属性的属性值数量庞大,系统针对商品属性值进行统一管理。

属性值提取来自于报关单中商品相关信息,前面提到的待分析商品清单为属性值提取提供数据基础,用户查看待分析商品清单。同时支持对属性值的批量导入,直接纳入属性值清单。对于已纳入的属性值,系统采用基于语义的机器学习分词方法与细胞词库相结合的方式,结合过滤去重规则,更新待分析商品清单。

智能推荐基于主动学习和模式识别的方法,利用商品属性及图关系,结合语义特征对有效的商品属性值进行推荐。系统根据选中的属性值内容,自动在商品信息中匹配筛选,对同义词或相似度高的值进行提示。

属性值维护记录已提取的商品属性值,形成属性值清单,便于用户查看该商品属性下的属性值信息。为了方便提取,当某一属性值被选中时,系统将通过语义分析,给出其相关属性值推荐。用户可根据实际需求对属性值清单进行修改和删除。

属性值定位提供搜索框,支持属性值模糊搜索功能,除显示属性值作为搜素结果外,选中的记录将在待分析商品清单中定位,便于用户对属性值相关信息的查看和分析。

基础信息更新支持报关单商品基础信息的增量更新。新增数据将按照已定义的商品属性进行归类整理、分类。对于无法分类的数据,将其纳入待分析商品清单,便于用户通过机器学习及专家经验等方式进行商品属性值提取。

3.2.5 商品信息查询

对已完成商品属性值提取的商品集,建立以商品分类为根节点的商品展示树。提供关键字搜索功能,根据輸入的内容定位所在商品树位置,便于相关属性和属性值的查看;同时,系统自动提取该分类下的商品属性作为筛选条件,查询符合筛选条件的商品信息。

3.2.6 商品SKU管理

通过对商品属性和属性值的梳理,逐步形成海关申报商品的SKU编码规则,提供比已有的HS编码更精细化的分类管理方式——SKU管理。

SKU定义结合定义的属性和提取的属性值,系统自动对特定税号的商品进一步抽取、提炼、归类分析,并给每个类别赋予一串唯一编码。每一个SKU编码作为识别一类商品的唯一标识,实现对申报商品从HS层面细分到SKU层面的精细化管理。

SKU更新将获取最新数据并按一定规则动态地更新SKU。SKU不断地更新完善,形成符合最新业界商品现状的海关SKU级的智能商品库。

3.3 部署架构

系统采用高可用架构部署,通过虚拟化及链路负载均衡提高系统的可用性,具体架构图如图3所示。

4 应用展望

通过该系统的运用,可以将商品最小分析单元从HS编码细化到具体品牌型号,利用专家经验机器辅助构建的方式,夯实海关商品数据基础,为商品价格分布分析、消费指数分析、违法案件精准打击等应用提供支撑,通过大数据的运用提升海关的监管力度和服务水平。同时可以利用本系统的相关技术,服务于跨境电商的监管,如地址解析等,从而实现海关高效监管,促进企业发展。

参考文献(References):

[1] 程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908

[2] 朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19

[3] 王云鹏,李善兴,王占中,等.基于Petri网的汽车制造业生产物流流程优化[J].吉林大学学报(工学版),2008,38(S1):61-64

[4] 仲育,辛帅.金融行业应用云计算和大数据安全风险防范策略[J].现代金融,2017,4(410):49-51

[5] 吴炳方,张淼,曾红伟,等.大数据时代的农情监测与预警[J].遥感学报,2016(20):1027-1037

[6] 张健.数据化驱动的海关通关一体化改革[D].厦门大学,2018

[7] 陈志锋.AS海关网上缉私研究[D].电子科技大学硕士学位论文,2016

[8] 李强,覃春面,董耀武.中美贸易摩擦视角下的股,汇市风险溢出研究[J].武汉金融,2019,238(10):5-11

[9] 徐强.试论大数据标签化在进出口企业画像中的运用[J].中国口岸科学技术,2020,460(11):34-39

[10] 张紫玄,王昊,朱立平,等.中国海关HS编码风险的识别研究[J].数据分析与知识发现,2019

猜你喜欢
报关单机器学习
浅析关检融合统一申报制度
租赁贸易货物报关单填制分析
“全国海关通关一体化”背景下 新版报关单结构分析及新增项目填报
租赁贸易货物报关单填制分析
释疑解惑
加工贸易下货物进出口报关单填写常见错误解析
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究