李效峪 邱明月 潘汝佳 孙古月 李林繁
南京森林警察学院,江苏 南京 210023
全国各地海关缉私在情报研判模型建设过程中,围绕情报研判建模和实际应用前途,针对模型内容都作了一些探索实践,也取得了较为明显的初步实战应用成效。但经初步分析,目前情报研判建模仍以显性的“点对点”比对建模为主[1]。可归纳为以下四方面:
第一,缺少对象的匹配多元化,且模型容错率较低,综合深度挖掘分析潜在关联少;第二,个人或部门的分离研判占较大部分,缺少配合机制的健全和普及,进而导致分析研判结果缺乏实际操作性及实战指导前瞻性;第三,传统的情报研判模型基于协同的“技战流”实战研判少;第四,依赖研发人员的手动开发操作,这便对现有的技术人才的业务能力有较高的需求,倘若具有优秀建模能力的专业警力技术资源有限,在实战中会大大限制情报研判模型的操作潜力。
此外,现行数据分析提取模型还存在“数据共享难、信息关联性差、缺乏跨地域情报信息的协作”的信息孤岛问题,各地海关缉私部门信息化、智能化发展情况差别较大,在数据库的建设和使用领域开发程度较浅,基本停滞在亟待开发的阶段,运用和推广较难,开发潜力较大。因此缉私情报之间难以实现高质量、有关联的互通,较深层次的海关缉私非结构化专业数据的开发更是少之又少。面对数量庞大、结构化程度低的缉私信息数据,海关缉私部门要如何正确地进行储存和处理是情报能否实现价值的关键所在。海关缉私专业非结构化数据的利用率低,主要体现在其无序性、杂乱性、复杂性,而多数海关缉私部门在面临工作量大而复杂的海关缉私业务的现实情况时,对此类信息类型大都选择弃置,不愿耗费有限的优质警力进行深度的信息挖掘提取。
针对当下的走私犯罪案件,利用传统的信息抽取方法难以适应其智能化、高科技化和共享化的特点,若仅靠传统的坐等报案、调查访问等按部就班的工作模式已难以胜任日益发展的缉私工作和履行打击、服务、参谋三大重要职能[2]。随着信息社会的发展和网络的普及,情报信息工作在侦查办案中的重要性必将更加明显、突出,侦查工作对它的依赖程度亦将越来越大[3],由线索到人、由人到案的侦查工作思路和以情报信息工作为核心[4],依托高效能的信息处理模型主导案源及侦办缉私工作,已成为缉私工作发展的迫切要求。
知识图谱作为逻辑推理智能中认知领域的核心技术,本质上是一种揭示各种概念实体之间联系的语义学习网络,是一种结构性的语义学习知识库,用于将各种事物及其相互关系信息进行形式化的描述、集成并聚合大批的知识,从而更好地实现对知识的快速反馈和推理。知识图谱及相关技术能有针对性地解决上述问题,但就实际情况而言,公安知识图谱的构建方法基于但不等同于其他类型知识图谱的构建方法,它依托于实战性强、专业性强的公安信息,效能和使用也应倾斜于公安机关和海关的业务领域。本研究从处理公安机关和海关部门案件过程中收集的信息情报出发,进行公安领域知识图谱的本体建模,并研究出可实现基本信息共享,根据案件类型智能化生成知识图谱的文本系统。通过构建知识图谱这种方式,应用在缉私案件文本挖掘和抽取实战方面,从而达到从海量案件文本库中挖掘非结构数据、隐藏性数据等信息,进而组织关联形成有效的情报线索的研究目的。
海关缉私情报知识来源于对每一个案例的攻克、打磨与总结,无论是基于主观归纳还是机器学习方法,这都是一种从信息到情报知识的抽象过程。这些情报知识再经过储存、管理、共享组成知识库,最后按决策需求被检索和应用于个案推理。在情报知识的生命周期中,海关缉私信息抽取模型在公安情报工作中的研究与应用意义在于情报知识抽取自动化。将目前人工为主机器为辅的情报过程升级为机器为主人工为辅的情报过程,助力深化可解释、大规模、统一集约的海关缉私情报智能化体系。
信息抽取是一种数据从非结构化到结构化的组织过程。海关缉私数据中存在着大量的非结构化数据,如何将这些数据结构化以利用现在的结构化数据处理生态是海关缉私业务中一个重要需求。情报概念下的信息抽取需要将非结构化的数据抽取转化为“人、事、物、时间、地点、组织、关系”等情报要素的结构化数据,以形成情报研判的信息集合,这是传统关系型和非关系型数据库无法做到的。
海关缉私数据来源广泛、种类繁多,文本、图像、视频、音频、地理信息数据等纷繁复杂的数据都需要存储在信息系统中,这些数据数量巨大而且质量良莠不齐、数据结构大多不同。传统列式、行式关系型储存技术无法高效合理组织这种多模态数据,而以多模态非关系型图数据库为首作为NewSQL 存储方案,则能很好地对这些信息进行管理和存储,极大地加快检索查询的速度。
海关缉私部门中单方侦破在案件侦破中发挥的功能有极大的局限性,例如一个走私保护动物的案件可能涉及刑侦、网安、地方打私等多部门的信息。在情报主导的警务模式中,知识图谱能够很方便地通过后台接口共享各部门的数据、共享情报研判知识,融合各部门的知识情报,便于案件线索的深度挖掘,让各部门的协作发挥“1+1>2”的作用。
海关缉私工作在落地侦办前通常需要厘清几大基本问题,我们可以概括为“5w+1h 疑问”,分别是:在哪里发生、何时发生的、为何发生、走私何物、走私行为人如何走私及走私动机。海关缉私信息抽取受缉私案件性质所限,时空要素的不同对案件走向和情报经营方式存在较大影响。故海关缉私信息在提取各要素时,所需要参照的时间、空间要素所占比重更高。沿用普通的刑事案件信息抽取分析模型效果不佳,而时空的信息是串联起缉私个案甚至是系列案件的关键。缉私信息提取是在计算机环境下,将缉私知识及缉私专业信息要素表现为计算机可以接受的符号以及能够存储的结构形式。在数据世界中,缉私知识的主体对象——走私现象或事物,将抽象为缉私实体,而其具有的各种特征则抽象为时间、空间、属性、状态、过程、关系等关键信息要素。
总体上,根据知识的类型、特征及其逻辑关系,缉私知识可以划分为三个层次:概念层、实体层和关系层。其中,实体知识可以分为三个子层次,包括基本特征(时间、空间、属性、行为)、状态特征和过程特征;关系知识可以分为两个子层次:概念关系和特征关系。按照知识的层次划分,可以形成不同粒度的缉私知识语义单元[5]。通过分层、分维度对所有相关信息进行整合,以便于情报研判部门对案件的下一步进行研判。
本模型实验数据主要来源于专门机关、社会部门和互联网舆情等几大方向。数据样本涉及刑事案件上百宗,案值近百亿元,涉税金额超数十亿元,数据统计指标结果均排在全国前列。专门机关数据是本文本信息提取模型的核心实验数据。此次文本信息提取模型的未来展望就是为海关总署打击走私专项情报中心提供全方位的数据支撑和情报抓手,为情报主导警务提供更广阔的实践平台和更多元的拓展思路。
目前,非结构化的文本、语音、图像、视频和音频等各类型的数据抽取有待进一步深挖研究。为了贴合实战单位信息处理简易化需求,并将所得缉私案件文本内容物尽其用,模型以文本数据为主,针对缉私案事件文本中时间、地名、关系、属性、人物、事件等关键要素的自然语言描述特点,实现海关缉私文本信息抽取方法。
本模型拟进行缉私案事件的信息抽取,主要研究内容包括以下几个方面:一是选取不同类型、不同内容和不同形式的缉私案件文本信息,构建缉私案件样本库;二是将案件中的文本信息进行分词与词性标注;三是实现实体识别、特征信息抽取,如图1 所示。通过与海关系统、公安系统等缉私案事件相关结构化数据的信息融合,实现缉私案事件信息的多层次、多粒度语义集成。
1.文本信息预处理
将数据中的走私地点、走私时间、走私物品、走私人员、走私动机、主要走私方法按照一定标准进行提取并标注词性,提取标准根据海关缉私部门实战中常见案件特征并参考相关国家标准制定。
2.模型构建
本实验知识本体基于文本结构化后的数据依据“循环法”构建,具体步骤如下:
(1)本体需求分析并考查可复用本体。公安专业本体构建领域,针对海关查获对走私类案件文本数据进行本体建模。在进行了相关文献调研之后,在公安海关缉私方面并无相关构建的本体。但是公安领域本体能基于通用领域的本体知识库进行拓展。本研究基于百科知识树TermTree 进行拓展。
(2)建立领域核心概念。对文本结构化后的数据按照走私物品的不同进行汇总统计,记录每一个字段中词项的词频,筛选出词频中的高频词,得到该走私物品下案件的核心概念。基于这些核心概念来搭建本体模式层中的知识节点。
(3)建立概念分类层级并定义知识节点。将这些核心概念要素根据走私地点、走私时间、走私物品、走私人员、走私动机、主要走私方法进行分类,对象的属性层级参照OpenSchema 的语义描述构建。
(4)本体评价与进化。本体在应用中需要根据实际需求进行不断更新维护,针对新的案件信息重新回到第一步进行需求分析,重新运行本体构建的生命周期,本研究通过设立开源仓库,以开源协作的方式进行领域本体构建的生态循环。
这种可根据案件文本生成图谱的方法,首先通过知识标注来将缉私知识数据库中的知识信息映射到案件文本信息上,然后通过解析文本中的实体关系绘制文本语义所描述的图谱。这种方法能为缉私案件文本挖掘提供一种创新的文本结构化途径,有助于从庞大的案件文本库中挖掘隐藏的实体关联,形成情报线索。
传统的缉私情报分析结果展示主要是依靠文字描述、表格和简单的统计图,情报分析人员难以从中发现情报串并与研判的依据和规律。随着信息技术的进步和情报分析需求的不断增长,对于大型的缉私情报素材集合,迫切需要一种能够确定缉私情报素材之间的关系和蕴含的知识,并表示为相关人员可以方便理解的可视化形式的技术[6]。实现海关缉私数据自动化抽取,为各地不同海关缉私部门信息化发展不平衡导致的数据分析能力落差,提供了现实的解决方案,节省了大量警力资源的同时,深度挖掘数据的价值,并为各种大数据智能应用持续赋能,为后续缉私情报抽取、关联、研判的计算与应用提供基础,对于大型的缉私情报素材集合,实现一种能够描述情报的特征维度和各特征之间关系的情报要素表达模型将成为可能。