程光明
[摘要]本文首次将数据挖掘技术引入进境集装箱风险评估中,沿着“理论研究——数据概念模型——风险评估模型——软件化”来探讨进境集装箱风险评估系统的建立。本文旨在通过对大量已有的检疫数据进行探索和分析,揭示入境集装箱风险的影响因素,并进一步将其模型化,以便计算机能够迅速对入境集装箱的风险进行预判,从而达到帮助检疫工作人员“有的放矢”的检查、布控。使口岸检疫业务部门对进境集装箱风险做到“心中有数”。
[关键词]数据挖掘 风险评估 集装箱
一、引言
随着我国对外贸易的快速发展,进境箱量显著增长。“十一五”期间,检出携带疫情及有毒有害物质箱数呈持续增长趋势。仅2010年度,共受理进境集装箱申报3699.06万箱,同比增长14.04%,检出携带疫情或有毒有害物质的43.66万箱,比去年同期提高了28.20%。进境检出疫情箱数占查验箱数的比例(即查验检出率)为3.26%,同比提高0.43个百分点。这反映出进境集装箱携带疫情及有毒有害物质情况十分普遍,进境集装箱检疫面临形势十分严峻。
目前,在进境集装箱检疫工作中主要采用以人工判断为主的经验式方法,效率比较低,工作量繁重,经验知识传承性差。但是在多年来的实践过程中,我们已经积累了大量的经验和数据。通过数据挖掘技术在已有的数据中发现未知的模式和知识可以为入境集装箱风险进行评估,并为检疫业务决策提供辅助支持。
二、数据挖掘技术
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘已广泛应用于生物医学、金融、零售业、电信业、海关监管等领域,并产生了巨大的效益。数据挖掘技术同样能够将大量的检疫数据提炼、转化为可以理解和应用的模式和知识来指导检疫业务。
数据分类(DataClassification)是数据挖掘技术的一个重要分支。从根本上说,数据分类就是通过对源数据的特点进行归纳和描述。要进行数据分类,必须使用特定的分类工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。数据分类是数据挖掘的基本功能、重要功能,目前在商业、工业、军事、生活、海关监管上应用最多,具有非常高的使用价值。
三、数据概念模型
根据从进境集装箱中检出疫情及有毒有害物质情况的不同,将检出问题分为7类,分别是:①人类传染病和动物传染病病原体;②植物危性病、虫、杂草以及其它有害生物;③啮齿动物、蚊、蝇、蟑螂等病媒生物;④土壤、动物尸体等禁止进境物;⑤动植物残留物;⑥生活垃圾及其他有毒有害物质;⑦其他问题——7类问题,对应每一类问题需要建立一个可用于数据挖掘的数据概念模型,其主要包括:
(1)7大类问题集装箱同诸如:①来源地;②箱主公司;③承运人;④货运方式等特征数据存在哪些未知的、潜在有用的模式和知识,明确对每类问题集装箱产生影响的特征数据,建立一套对应各类问题集装箱的风险数据字典;
(2)CIQ数据库中并不包含所有的特征数据,一些重要的特征数据需要通过与场站、货运公司的比对才能获得。同时,要对数据进行采集、清洗、转换等步骤,建立可以用于数据挖掘的数据概念模型。
四、风险评估模型
对进境集装箱进行风险评估主要用到数据挖掘中的重要分支——分类技术,建立和完善风险评估模型关系到风险评估系统研究的成败,主要研究内容如下:
(1)分类技术有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,结合检疫工作实际选择合适的算法进行数据挖掘,并在实践中对模型进行修正和完善;
(2)选择和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模块化分析工具对7类问题集装箱进行逐类数据挖掘、建模。
五、典型系统应用开发
基于上述的研究成果,设计实现一个基于数据挖掘技术的进境集装箱风险评估管理系统,重点关注下面系统,如图1所示:
(1)面向检疫查验人员设计并实现一个基于Web技术的软件系统,通过此软件,检疫管理人员可以将已有风险评估模型软件化,系统接收进境集装箱特征数据,自动对风险进行预评估。同时,将用于风险评估的数据独立于CIQ数据库存在,为以后进一步完善风险评估模型提供数据库支持。
(2)面向检疫查验人员设计并实现一个软件终端,考虑到检疫查验一线人员工作环境分散、移动的特点,重点面向主流嵌入式系统(Apple、Angel、Symban、Windows-Mobile等)和移动终端(如手机、PDA、iPOD等)展开研发。
图 基于数据挖掘技术的风险评估系统
六、结论
针对出入境检验检疫部门在对进境集装箱检疫查验中盲目性大、工作效率低等客观实际,研究一个基于数据挖掘技术的进境集装箱风险评估模型,并将其软件化、实用化,通过软件自动对进境集装箱进行风险等级评估,指导日常检疫查验工作,降低检验查验的盲目性,提升检疫查验人员的工作效率,提高把关成效。
参考文献:
[1]舒军生.数据挖掘技术在企业信用分类管理系统中的应用.安徽:安徽大学硕士论文.2010
[2]高燕. 基于数据挖掘技术的海关执法评估系统的研究与开发.武汉:武汉理工大学硕士论文.2002
[3]任尔伟,牟青杰,孙学文著.数据挖掘技术在海关查验和价格瞒翩辅助决策中的应用,上海海关高等专科学校学报,2002年第3期
[4]朱伟军.数据仓库在海关统计中的实践与应用,知识经济,2009年10期