基于综合加权法的主数据识别技术研究*

2013-02-05 05:38:02李少波唐向红

组合机床与自动化加工技术 2013年3期

关键词：数据管理实体权重

刘涛，李少波，唐向红

(贵州大学a.管理学院;b.教育部现代制造技术重点实验室，贵阳 550003)

基于综合加权法的主数据识别技术研究*

刘涛a，b，李少波b，唐向红b

(贵州大学a.管理学院;b.教育部现代制造技术重点实验室，贵阳 550003)

为了提高主数据识别技术的高效性与精确性，论文通过对主数据识别方案及其关键技术的研究与比较分析，基于企业需求，设计出了一种规范化的企业主数据识别流程，并提出了一种基于综合加权法的主数据识别评分模版。基于综合加权法的主数据识别技术可快速准确地确定企业主数据，有效提高大型企业主数据管理效率，具有一定的理论和实际意义。

主数据;主数据识别;综合加权法;评分模板

0 引言

目前，在大型企业数据资源管理中，由于缺乏统一的数据标准，以及现有的数据标准与实际应用需求不符造成数据资源的利用现状与企业的实际需求差距较大，解决这一问题的关键因素就是实现主数据的标准化。

主数据(Master Data)是统一定义对象所需的核心数据。主数据管理将数据从应用和流程中独立出来，并且将其呈现为一系列可重用的服务，为企业提供共享的、完整的、准确的主数据。由于流程管理、系统建设的差异，不同的企业所关注的主数据会有所不同;同一企业也会由于不同的业务发展和系统建设时期，关注不同的主数据。因此，精确的主数据识别技术是实现主数据管理的核心。

文献［1］介绍了主数据识别的流程将其划分为三个阶段:①识别和集中化语义元数据;②统一数据对象语义;③识别与资格化主数据。LeiWang等人通过研究从业务流程中识别主数据的步骤和方法学，提出了一个新的可以从企业业务进程中捕获主数据的设计方法论，同时，他们还提出了一种构建元数据的方法论［2］。张德进等人在文献［3］中指出将主数据识别过程分为构建数据逻辑模型，识别实体、关系、属性、参考数据以及主数据等几个环节。

目前，尽管有部分文献对主数据识别进行了研究，但是没有形成一套完整的主数据识别技术体系。本文通过综合分析主数据识别的步骤和方案，设计综合加权法以精确确定主数据识别指标权值，并将其应用于主数据识别，实验结果表明，基于综合加权法的主数据识别技术可快速准确的确定企业业务主数据，有效提高大型企业主数据管理效率。

1 主数据识别的流程

实施主数据管理，首先要解决如何从复杂且众多的业务实体中准确识别出企业主数据。主数据识别是一项复杂的工程，必须基于方法论设计一套完整的主数据识别方法，建立主数据识别的操作流程，才能有效完成主数据的识别工作。本文将主数据识别流程分为四个部分，如图1所示。

图1 主数据识别流程

(1)梳理数据实体类别。从业务角度出发，在不同粒度和层次上系统地分析整个企业的业务流程，得出在业务流程过程中涉及到的业务实体，并以此作为主数据识别的对象;

(2)划分数据主题域。通过参考IBM提出的IFW模型并充分结合企业实际情况，整理并划分主数据的主题域;

(3)构建数据概念模型。概念模型主要作用是描述事与物的概念化结构。本文采用自底向上的概念模型设计模式，根据需求分析的结果对现实世界的数据进行抽象，设计各个局部视图，并集成局部实视图形成整体视图，设计全局概念模型;

(4)制定识别评分模版。评分模板的制定分为三个步骤:①确定主数据的识别指标;②利用综合加权法确定识别指标的权重;③制定主数据识别评分模版。

在主数据识别的四个步骤中，最为关键的是其评分模板的设计，通过对评分模板的设计，可以制定主数据的识别指标，通过对评分模板的设计，可以实现识别指标权重的最优化选择，从而进一步，可以确定被识别数据是否为主数据。

2 主数据识别评分模版制定

2.1 主数据识别指标

主数据评分指标项的选取通过对主数据识别标准的分析而获得。综合业界研究成果，同时考虑大型企业集团网省两级架构的特点，在确定主数据的评分指标中，需要重点考虑以下因素。

(1)独立性:主数据的独立性是指主数据可以独立存在，不依赖于其他对象。

(2)共享性:主数据通常作为不同业务部门之间的共享数据。

(3)需要:主数据带有明显的功利特征，是为具体业务场景、企业战略服务的。

(4)企业范围:主数据不涉及与外部系统的数据交换，即与外部系统的数据集成不在主数据研究范围内。

(5)业务价值:主数据描述了企业最核心的业务，是企业最有价值的资产。

(6)多特征属性:主数据作为业务操作的主要对象，一般存在多个属性，用于区分不同操作对象，不同于普通的编码表。

(7)基础性:主业务实体是基础的业务单元，它支持所有主要的业务行为或交易基础，一般最小不可拆分。

(8)复杂性:主数据一般涉及多个业务系统，因此具有较高的复杂性。

(9)周期性:通常主数据会在长时间内被使用，生命周期较长，因此数据元素的生命周期可以用来作为判定它是否是主数据的标准之一。

(10)流动性:虽然主数据的变化应该少于交易数据，但是完全不变化的数据元素不应该判定为主数据。

根据主数据以上特性，结合大型企业的实际情况和专家组意见，最终确定了主数据识别的以下九大评分指标，见表1。

表1 主数据识别指标

2.2 基于综合加权法的识别指标权重确定

主数据识别过程中的关键步骤是确定识别指标的权重。主观赋权法和客观赋权法是目前常用的两类权重确定方法［5］。主观赋权法依据决策者的意向确定各指标间的权重系数，决策或评价结果具有很大的主观随意性，常用的有德尔菲法，层次分析法等。而客观赋权法确定各指间的权重系数，决策或评价结果虽然具有较强的数学理论依据，但无法反应决策者的意向，常见的有主成分分析法、因子分析法等［6-7］。为克服单一赋权法的缺陷［8］，本文提出一种将主成分分析法与德尔菲法进行集成的综合加权法。采用综合加权法对识别指标赋予权重。其核心思想如下:

首先，参考行业相关信息、IBM的IFW模型，并借鉴已建立起主数据管理体系的公司的经验及相应统计信息，找出针对本企业的五个极具可能为主数据的实体，分别计算出主数据识别九大指标的数据资料。

(1)将给出九大指标的数据资料的原始数据进行标准化处理;

(2)采用德尔菲法对这九个指标在主数据识别中的权重进行打分，九项指标的权重为:

对每一指标变量分别乘以权重系数，得到修正以后的数据矩阵X'。

对X'中的指标数据进行主成分分析，得出最终的指标权重。

(1)求指标数据的相关矩阵

(2)用雅克比方法求相关系数矩阵R的特征值(λ1，λ2，…，λp)和相应的特征向量 li=(li1，li2，…，lip)，i=1，2，…，p

(3)选择重要的主成分，并写出主成分表达式。

主成分分析可以得到p个主成分，但由于各个主成分的方差是递减的，包含的信息量也是递减的，所以实际分析时，一般不是选取p个主成分，而是根据各个主成分累计贡献率的大小选取前m个主成分，这里贡献率就是指某个主成分的方差占全部方差的比重，即某个特征值占全部特征值合计的比重，计算公式如下:

贡献率越大，说明该主成分所包含的原始变量的信息越强。在主成分个数选取中，要求累计贡献率达到85%以上，保证综合变量能包括原始变量的绝大多数信息。

(4)根据主成分累计贡献率85%，选择m个主成分A=(k1，k2，…，km)。各特征值相应的特征向量为:(l1，l2，…，lm)然后计算得出各指标的权重:

2.3 构建主数据识别评分模版

依据综合加权法得到的主数据识别权重构建主数据识别评分模板，通过评分模板工具得出被识别数据疑似为主数据的分数。

取数据概念模型的业务实体Β，将分析出的九大识别指标作为评分指标项X，以及由综合加权法得出的识别指标权重W，构成评分模板的行和列及各列值的权重，同时分析各业务实体与各识别指标的关联度填入评分模板。

对于任意业务实体 βj，j∈{1，2，3，…n}，假设它与第 i个评分指标的关联度为 λi，i∈{1，2，3，…9}，若符合第i个评分指标，则λi=1，否则λi=0。最终构建主数据识别评分模板工具。求出业务实体βj，j∈{1，2，3，…n}的最终评分结果。

通过评分模板分别求出各业务实体的分值，并依据企业需要及专家意见，设定主数据识别得分阈值，得分不小于阈值的业务实体，就是企业亟需管理的主数据。

3 仿真结果及分析

应用综合加权法，对某大型电力企业进行了数据实体类别梳理、数据主题域划分、数据概念模型构建、识别评分模版制定，计算得出主数据识别试题得分，并对仿真结果进行分析。

(1)参考IFW模型并充分结合企业的实际情况，整理并划分出主数据的六大主题域，包括:参与方、资源、位置、分类、协议、经营方针。分析得出参与方主题域中的数据实体及其指标，如表2所示。

(2)基于综合加权法得出主数据识别的九大指标的权重。

首先，参考同行业相关信息、IBM的IFW模型，并借鉴已经建立起主数据管理体系的公司的经验及相应的统计信息，最终确定找出针对本企业的五个极具可能为主数据的实体分别为:供应商，客户，地址，资产，物资。

①统计得出这个主数据实体的主数据识别九大指标的数据，并进行标准化。

②根据企业的需求，专家给定的九个指标在主数据识别中的权重分别为:(0.10，020，0.10，0.10，0.15，0.05，0.15，0.05，0.10)。利用综合加权法计算得出九个指标最终的权重如表3所示。

表2 实体主数据识别九大指标数据

表3 主数据识别指标权重

(3)根据企业情况需求和专家的意见，设定主数据识别得分阈值为0.75。

依据综合加权法得到的主数据识别权重构建主数据识别评分模板，通过评分模板工具得出被识别数据疑似为主数据的分数，如表4所示。

表4 主数据识别实体得分

经分析得出，实体组织机构、员工、客户、供应商及电力企业的得分不低于已定的主数据识别得分阈值0.75，所以可以判定，在本企业中，组织机构、员工、客户、供应商及电力企业为需要集中进行管理的主数据，见图2。

图2 主数据识别实体得分

4 结束语

本文对主数据管理中的主数据识别技术进行了研究，通过对主数据识别方案及其关键技术的研究与比较分析，基于企业需求，设计了一种规范化的企业主数据识别流程，包括数据实体类别梳理、数据主题域划分、数据概念模型构建、识别评分模版制定四个步骤。

为克服单一赋权法的缺陷，本文提出了将主成分分析法与德尔菲法进行集成的综合加权法，并基于综合集成加权法设计主数据识别评分模版。

实验结果表明基于综合加权法的主数据识别技术是一套可以扩展的主数据识别方法，可快速准确地确定企业主数据，有效提高大型企业主数据管理效率。

［1］David Loshin.Master Data Management［M］.New York，Morgan Kaufmann，2009.

［2］LeiWang，Xinguo Ming，Jing You.The Steps and Methodology of Identifying Master Data from Business Processes［J］.World Congress on Software Engineering，2009，97:329－333.

［3］张德进.企业主数据分析与表达技术研究［J］.机械设计与研究，2008，24(2):67 －71.

［4］王学建，康小强，李越新.基于层次分析法的主数据识别方法研究［J］.电信技术，2011(7):46－50.

［5］陶菊春，吴建民.综合加权评分法的综合权重确定新探［J］.系统工程理论与实践，2001，8(8):43 －48.

［6］迟国泰，曹婷婷，张昆.基于相关主成分分析的人的全面发展评价指标体系构建［J］.系统工程理论与实践，2012，32(1):111 －119.

［7］王俊英，李德华.群决策专家权重自适应算法研究［J］.计算机应用研究，2011，28(2):532 －540.

［8］于洋，李一军.基于多策略评价的绩效指标权重确定方法研究［J］.系统工程理论与实践，2003，8(8):8－15.

(编辑李秀敏)

Research on the Master Data Identification Technology Based on the Synthetic W eighted Method

LIU Taoa，b，LIShao-bob，TANG Xiang-hongb
(a.School of Management;b.Key Laboratory of Advanced Manufacturing Technology of Ministry of Education，Guizhou University，Guiyang 550003，China)

In order to improve the efficiency and accuracy ofmaster data identification technology，this paper standardized the process of enterprisemaster data identification，and proposed themaster data Identify scoring pattern base on the synthetic weighted.Analyses of themaster data identification program and implementation stepswere needed through the process，which was based on the enterprise’s requirements.This technology，which has theoretical and practical significance，can identify the enterprise master data quickly and accurately，improve the efficiency of large-scale enterprisemaster datamanagement(MDM).

master data;identify master data;synthetic weighted;scoring pattern

TH166

1001－2265(2013)03－0056－04

2012－08－14

国家科技支撑计划(2012BAF12B14);贵州省科技厅项目(黔科合计Z字［2012］4009)

刘涛(1987—)，女，山东德州人，贵州大学管理学院硕士研究生，主要研究方向为数据管理技术;通讯作者:李少波(1973—)，男，湖南岳阳人，贵州大学教育部现代制造技术重点实验室博士，教授，博士生导师，主要研究方向为物联网技术、计算设计、制造业信息化，(E－mail)1106605909@qq.com;唐向红(1979—)，男，湖南永州人，贵州大学教育部现代制造技术重点实验室博士，副教授，硕士生导师，主要研究方向为实时数据库系统、数据挖掘、数据管理技术。