康强 刘光耀 邓姗妮
摘要:廉洁风险防控管理过程繁杂,管理链条和周期长,对数据建模体系性和一致性的要求很高,本文系统研究分析总结了廉洁风险防控领域的建模需求、数据建模方式及存储内容管理等相关技术实践,结合纪检工作本质和领域特点提出应用方案。本研究旨在数据建模技术与廉洁风险防控业务搭建桥梁,为利用多源数据全景化分析纪检关联要素提供方向性的指导。
关键词:廉洁风险防控;数据建模
一、引言
数据需求的定义与分析广泛地使用数据建模技术,同时是一个支持将整个信息系统重新设计的过程[1]。而廉洁风险防控也是当今所重视的领域,利用数据建模技术来构建数据结构框架,从而保证相关部门的有效运行。而这个数据结构框架主要应用在两个方面,一是抓重点业务领域、重点职能部门、重点业务环节,筛选廉洁风险、完善内控机制、筑牢廉洁防线,确保纪检部门信息管理系统的建设以及数据关联。二是廉洁风险教育与大数据分析的需求需要强有力的结构框架,数据建模技术可以充分地发挥作用。
廉洁风险防控管理过程繁杂,涉及的关键要素众多,不同的业务场景涉及的管理规定、执行过程各不相同,业务流程设计不同直接决定了信息系统结构和逻辑大相径庭,结合这几种情况,在数据交互和关联分析时,就会出现信息融合困难,关联程度低等问题,尤其是当前很多企业的管理规定并未完全线上化,这就导致存在很多线下文件并行,致使数据难以融合,无法统一管理。本文通过廉洁风险防控领域中数据建模过程的实践,分析廉洁风险防控中数据建模技术的应用,并对其进行经验总结。
二、数据建模技术介绍
(一)数据建模简介
数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。所以,在进行数据建模的过程中,专业性的数据建模工作离不开企业的利益及用户的信息系统。
从需求到实际数据库构建,一般包括三个步骤。。仅用于信息系统的数据建模是作为一个模型来应用,最基本的功能是来记录一组数据达到规范的目的。一个数据建模技术系统要想构建,首先思考是否符合企业最初的需求,其次才能转变为一个逻辑数据模型,恰好这个逻辑数据模型可以在数据库中构造。一个概念数据模型的实现可能需要多个逻辑数据模型。最后需要确定逻辑数据模型与物理数据模型之间的数据访问性能和存储方面的具体要求,不仅仅是数据元素,同时它们之间的结构和联系也不可忽视[2]。
数据建模常用在系统开发与系统维护的工作环境中,也称为系统开发生命周期(SDLC)。当然,数据建模也可以用在更广泛的领域,如业务和数据架构、主数据管理和数据治理计划,其直接的结果不是在数据库,而是对组织数据的理解。模型是现实中事物的一种表征或者想要创造事物的一种模式。一个模型可以包含一个或多个图表。模型图可以使人们通过标准化的符号快速了解其内容。地图、组织架构图和建筑蓝图都是日常模型的例子。
数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号以可视化的方式展现数据需求并将其传递给数据建模人员。也可以把模型理解成一种文档形式,用于记录数据需求和建模过程产生的数据定义。数据模型是用来将数据需求从业务传递到IT沟通的主要媒介。
数据建模需要遵循如下几点原则[3]:
①格式化。数据模型是对于数据结构和数据关系的简洁定义。需要能够评估当前或者理想情况下业务规则对数据的影响情况。格式化的定义赋予数据规范的结构,减少在访问和保存数据时发生异常的概率。通过展现数据中的结构和关系,数据模型使数据更容易被使用。
②范围定义。数据模型可以帮助解释数据上下文的边界,以及购买的应用程序包、项目、方案或实施的现有系统。
③知识保留记录。数据模型通过以书面的形式获取知识来保存系统或项目的数据信息。它要能给未来项目提供原始记录。数据模型要有助于更好地理解一个组织、一个业务方向、一个已存在的应用。同时,数据模型需要能被重复利用,能够帮助业务专业人员了解环境中的数据结构。
(二)数据建模的方法
常见的6种数据建模方法是:关系建模、维度建模、面向对象建模、基于事实建模、基于时间建模和非关系型建模[4]。每种建模方法都采用一些特定的表示法来进行表达。
①关系建模,能够精准表达业务数据,减少数据存储的冗余,其适用于设计操作型的系统。
②维度建模,专注于特定的业务流程和领域问题,在维度模型中,数据组织的方式是为了优化海量数据的查询和分析。
③面向对象建模,规定了实体类与其属性的关系,可以利用封装、继承、多态等先进特性对模型进行重复开发。
④基于事实建模,可以不使用属性从需求信息和查询实例开始,实例在外部环境中呈现,然后在概念层次上用受控自然语言所表达的事实来描述实例。
⑤基于时间建模,是当数据值必须按照时间顺序与特定时间值相关联时,必要的一种建模方法。
⑥非关系型建模,可以将业务主题在无需进行多关系结构分解的情况下,存储在文档结构中,也可以利用键值对将数据进行列式存储,从而提升查询效率。
三、数据建模技术在廉洁风险防控领域的应用
(一)数据建模需求
随着廉洁风险数据可获取性的提升以及数据分析应用技术的逐步发展,全面从严治党管理工作不再局限于对思想政治以及意识形态塑造的探索,而是面向更广泛的数字活动场景,相关纪检工作也逐步运用大数据分析、机器学习、深度学习等计算方法对高频违规风险点进行分析[5]。
然而,不同领域理论与技术方法的交叉实践配合相对复杂且繁琐,数据呈现出的动态和开放的特征也加剧了多源数据组织、聚合与建模的难度,进而阻碍了相关研究的步伐,为此,提出数据建模技术在廉洁风险防控领域的需求。
廉洁风险防控数据建模主要目的是要通过数据模型梳理数字化的纪检关键要素特征,针对廉洁风险源头部门或岗位,形成法律法規典型案例的数据资产。
从业务层面上来说,数据建模技术发挥着不可替代的作用,可以整合纪检管理计划以及法规理解能力,从技术层面来说,廉洁风险防控相关信息化系统与法律法规业务数据间可以有效的、多层次的读取,确保数据之间平稳的层次交互、多维跨越。旨在技术和业务之间建立一个有效的桥梁,为利用新型数字技术全景化为数据进行精准剖析,为纪检工作提供方向性的指导。
廉洁风险防控领域应用的数据建模技术需要从业务逻辑和数据逻辑两个方面来考虑,业务逻辑是指法律法规及相关案例的数据是否能够与经营生产业务产生必要的联系,业务逻辑通过关系建模方法,将法律法规数据和业务领域关联,并建立起必要的数据关联关系。数据逻辑层面要从数据的完整性、集中度,以及与廉洁关键影响因素等角度来考虑,并进行模型设计,可以使用基于事实建模方法,将廉洁防控业务中影响因子抽象成事实模型,并进行后续的采样分析。
(二)数据特征建模
廉洁风险数据模型会表现出复杂的结构特征以及动态数据特性,高频、高风险的活动能够使各类业务数据在不同的业务场景下流动,在此过程中,由于活动的多样性和构成要素多粒度的复杂特性,要围绕着廉洁风险研究的关键场景,高频风险点进行多元关系模型的构建,通过数据之间的特征关联,来呈现并解析实际纪检工作中的运行模式与规律[6]。
在完成廉洁风险防控数据特征建模设计时,首先要根据数据资源进行体系划分,同时抽取与廉洁风险防控全生命周期管理相关的对象,并将对象分类和提炼,最终构建便于应用的数据模型。
为了能够将廉洁风险管理数据与模型有机结合,需要进行基于多数据源深化的数据特征建模,对廉洁风险防控表示模型进行“实体-属性-关系-数据”的数据关联。
数据特征建模的过程可以厘清廉洁风险各对象之间的关系,它可以面向更广泛的业务活动场景,揭示业务领域的违规特征和内部运行机制,数据特征建模具体的工作步骤如下所示:
①切分数据对象,包括廉洁风险管理中涉及的组织、部门、岗位、角色等业务实体和经营、生产、管理相关的业务活动。
②构建数据关系,包括部门层级、法律条款前后时序、数据重叠等不同数据之间的关联内容。
③明确数据属性,记录数据库中对象和关系的属性描述,如业务领域中的业务流程和业务描述,违规特征中的违规场景、违规频率和关联法律等。
④进行数据约束,对数据在如制度、规程、有效状态等业务层面的规则和限制进行安全约束和说明。
(三)数据模型存储
数据实体化旨在通过存储不同来源的多维度数据实现对于廉洁风险的业务实体进行数字化表征,进而形成完整的结构化数据单元,服务于后续业务执行以及数据分析工作。其过程包括多源数据汇聚、数据结构化清洗、实体数据融合等核心任务[7]。
多源数据汇聚是指在完成廉洁风险防控数据特征建模后,需要将不同渠道、不同维度的数据进行分片存储,在存储的过程中要保证数据在整个生命周期中的可用性和数据读取的性能。当前廉洁风险相关的数据较为分散,数据形式、数据结构、数据编码均未统一,其中人员、岗位等信息为结构化数据,法律法规和纪检案例均有大部分非结构化数据和纸质文档。
针对此类数据质量不稳定、数据结构不统一的情况,就需要将数据进行结构化的清洗。数据清洗的具体工作是预先将异构系统中不同渠道、不同维度的数据放入ETL自动流水线中加载原始数据,再将数据置于中间数据库的维度表中对其进行清洗转换,清洗后的数据会存储至目标数据库,根据数据库的约束结合文本匹配技术,实现数据去重,减少不必要的冗余。结构化的数据能够从纪检的基本属性、人员的行为属性和法规的管理属性为出发点,采用不同维度来解析和透视廉洁风险数据特征,最终形成服务于纪检管理的数据主题。
实体数据融合是要将经过清洗后的结构化数据集进行提取,形成实体数据单元。尽管多源数据汇聚阶段对相关数据进行了初步的组织,但是在数据模型存储完毕后,仍需要根据不同类型的数据特征制定相应数据的提取规则,实现从主题数据到廉洁风险属性的映射[8]。在这个过程中为了保证实体数据单元的唯一性,需要对内容相同的实体进行合并,实现实体层面的融合,对于相同名字的法规和条款,或是相同场景的廉洁影响因素,可以直接通过属性合并来实现实体融合。对于不同数据文本中名称存在差异的实体,需要先从实体属性数据间的相似性入手,消除实体描述的歧义后再根据名称进行实体融合。
(四)数据内容管理
数据建模并成功存储至数据库后的工作重点在于保持数据的安全及完整性,并使这些数据模型能够被搜索。基于廉洁风险管控的工作特点,以及其相关数据的特性,我们选用了Lucene为应用提供检索功能。Lucene可以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎,它采用了基于反向索引的设计原理,在底层采用了数据分段的读取模式,分段是只读的,使它在读写时可以避免了锁的出现,大大提升了读写性能。
面向具体的应用场景,在廉洁风险防控数据建模的基础上,采用如聚类集成、复合关系数据矩阵融合等方法,可以对纪检管理活动中的数据与场景进行融合,从而有效地揭示“部门-岗位-职责-人员”与“高风险场景-高频违规点-法律法规”的关系,实现从多角度对廉洁风险防控工作的对象、过程、结构、组织及其作用和效应进行有机关联。基于数据和风险因素的结合,让信息和知识的扩散不再受到媒介的限制,让更多受众能够有机会获取并利用相关数据。
交互体验方面,基于数据内容结合岗位及纪检业务特点,我们使用隐马尔可夫模型来优化语义识别,该模型可以解决数据内容及词条评估、解码及机器学习的问题,它将分词算法置于可观测状态并能够逐步优化用户体验,从而扫除基层员工法规查阅困难,理解有难度的障碍,从根本上提高受众对法规、条款的理解能力。
四、结束语
数据建模在数字化系统建设中起着很重要的作用,它決定了整个数据架构的稳定性和易用性,这对廉洁风险防控领域未来的数字化建设影响深远。廉洁风险防控工作是一个管理范围广、执行路径长的复杂工程,数据作为信息化建设的成果体现,需要体系的结构设计、严谨的抽象模型方法,才能保障应用的规范性和扩展性,有效的应用数据建模技术,能够提升纪检工作的管理效率,提高廉洁风险防控领域应用的交互体验。
作者单位:康强 刘光耀 邓姗妮 中石油西南油气田分公司勘探开发研究院
参 考 文 献
[1]陈娟.基于Java的搜索引擎的研究与设计[J].电子技术与软件工程,2021(21):8-9.
[2]冯宇.基于模糊层次分析法的Lucene网页排序算法研究[J].计算机与现代化, 2011(01):124-126.
[3]张树国,林懿.监督贴近管理的科学意义[J].中国广播,2010(06):21-22.
[4]林卉,王一先,朱毅华.基于Lucene和Nutch的教学资源搜索引擎的研究与发现[J].中国教育信息化:高教职教,2010(11):82-85.