孙俐丽 赵柳榕
摘 要:[目的/意义]大数据时代下,明确电子商务数据质量关键影响因素,无论对于电子商务企业准确把握数据质量改进方向还是学界聚焦商务数据质量根源性问题都有着重要意义。[方法/过程]通过扎根理论分析法对半结构化访谈获得的质性材料进行逐级抽象归纳,得出影响电子商务数据质量的影响因素,再通过复杂系统因素重要性判定的DEMATEL模型,对因素间关系进行计算。[结果/结论]经测算,发现电子商务数据质量的“起源型”影响因素包括数据质量的监管机制、质量意识、标准与规范、明确数据利用目的等因素,“结果型”因素包括数据开发应用管理、数据处理过程约束、质量意识等因素,而关键影响因素则主要集中在监管机制、质量标准、利用需求、质量意识等方面。
关键词:电子商务;数据质量;影响因素;DEMATEL模型;扎根理论
DOI:10.3969/j.issn.1008-0821.2019.07.014
〔中图分类号〕F713.36 〔文献标识码〕A 〔文章编号〕1008-0821(2019)07-0115-07
Abstract:[Purpose/Significance]In the era of big data,it is very important to clarify the key factors affecting the quality of e-commerce data for both the e-commerce enterprises to understand management tendency and the scholars to focus on the underlying problems of the quality of business data.[Method/Process]By using the method of grounded theoretical analysis,this paper abstractly summarized the qualitative materials obtained from semi-structured interviews,and finally drew a conclusion that there are 11 factors affecting the quality of e-commerce data.The DEMATEL model of complex system was used to build an e-commerce data quality influencing factors matrix.[Result/Conclusion]By calculation,it is found that the“original factors”of e-commerce data quality included such factors as data quality supervision mechanism,quality awareness,standards and norms,clarity about the purpose of data utilization and so on.The“result factors”included data development and application management,data processing constraints,quality awareness and other factors,while the key factors were mainly concentrated in the supervision mechanism and quality standards,utilization needs,quality awareness and so on.
Key words:e-commerce;data quality;influencing factor;DEMATEL model;grounded theory
隨着大数据技术的产生和应用,基于大数据的产品和服务创新正有力地改变传统组织的竞争格局,数据价值已被提升到前所未有的高度[1],成为新型资产形态。然而大数据环境下,庞大的数据量和复杂的数据结构,加剧了低质量数据产生的风险,给数据质量管理带来挑战,例如,数据标准缺失、元数据管理混乱、数据中心沼泽化等已成为当下电子商务领域数据质量管理的突出问题(DAMS,2017)。微观层面上,糟糕的数据质量正制约着组织数据资源的有效利用,大多数组织并未充分实现数据资产的潜在价值[2]。宏观层面上,数据资源的质量问题也是影响大数据产业健康发展、阻碍国家大数据战略顺利实施的重要因素,因此,数据质量的监管研究是当下理论和实践的迫切需要。
电子商务数据作为国家大数据战略的重要组成要素,具有巨大的应用价值和经济价值,电子商务数据质量的有效监管对其他领域数据质量管理具有引领和示范作用。本研究以电子商务数据为研究对象,采用定性与定量相结合的研究方法,探讨电子商务数据质量的关键影响因素,以期为推进电子商务数据质量的有效监管提供启发。
1 文献回顾
早期对于数据质量影响因素的研究更多聚焦在信息系统以及数据处理环节,探讨系统本身对数据质量的影响。例如:Otto B的研究发现客户关系系统、企业资源管理系统等企业信息系统是数据质量问题产生的重要来源[3];Cao L等则发现一些难以避免的数据质量问题的产生与ERP制造系统的高耦合作用及复杂性有关[4]。随着对数据质量问题认知的不断深入,学者们认识到数据质量不仅仅是系统本身的技术原因,还受到信息输入环节人的数据质量意识、管理机制等多种因素影响:卢本新将数据仓库的数据质量问题的影响因素归结为:管理因素、系统因素、数据迁移因素、信息输入因素、接口因素等方面[6]。Lee Y W等认为数据质量问题的影响因素除数据编码等技术因素外,还包括数据需求变更、输入过程因素、主观判断因素、计算资源因素等非技术因素[7]。
更多学者将关注点扩大到数据生命周期全过程,涉及数据表示、输入、采集、处理、转化、集成、应用以及用户数据需求等若干环节。刘伟认为数据生命周期过程中的数据需求、数据模型、数据采集、数据转移、应用程序及管理因素等是影响数据质量的主要因素[8]。曹建军等认为在其生命周期过程中的各个环节都可能引入错误,产生数据异常,数据质量问题可能来源于:数据录入(更新)错误、测量错误、简化错误、数据集成错误[9]。穆向阳等以图书馆数据服务的数据生命周期模型为基础,结合图书馆数据服务的新特征构建基于生命周期的数据质量影响因素模型[10]。莫祖英分析了大数据处理流程中数据收集、数据预处理、数据存储、数据处理与分析、数据可视化及应用等环节对大数据质量的影响[11]。
综合以上研究可见,现有研究较多的是采用调查法对某一领域特定系统中的数据质量及其影响因素进行调查分析,确定该领域数据质量的关键影响因素,但对于哪些因素相对于其他因素更为重要的问题则大多研究没有做出充分的解释。此外,现有研究少有直接对电子商务数据质量影响因素展开研究的文献。
2 研究思路與研究方法
2.1 DEMATEL模型
本研究主要通过应用复杂系统因素重要性判定的DEMATEL模型,来分析电子商务数据质量关键影响因素。具体来说就是通过构建直接影响矩阵和综合关系矩阵,计算各维度因素的中心度和原因度,从而分析影响电子商务数据质量的关键因素。DEMATEL是一种系统要素分析方法,通过分析系统各要素之间的逻辑关系,构建直接影响矩阵并对其进行相关计算,以此确定各要素对其他要素的影响度与被影响度,进而计算出中心度与原因度[12],进一步揭示系统的结构关系。该方法在诸多复杂系统的因素重要性权重分析研究中有着相对成熟的应用[13-16]。
2.2 扎根理论分析
运用DEMATEL模型的基础在于构建出相对完整、全面的影响因素集合。为此,本研究采用扎根理论方法,析出电子商务数据质量影响因素。扎根理论分析是一种较为严谨的质性研究方法,其研究方法为:首先通过在自然环境下使用开放式访谈、观察等方法对相关主题的资料进行广泛收集;然后运用一套严谨的资料分析技术对收集的原始资料进行系统分析,抽象出若干概念,并对相关概念进行归纳,得出相应范畴;然后通过反复比较,进一步归纳提炼各个概念和范畴;最后,通过建立起各个概念、范畴之间的联系,形成理论框架[18]。本研究运用扎根理论对电子商务数据质量影响因素进行分析,具体过程如下:
2.2.1 确定数据来源及样本选择
综合考虑数据代表性以及可获得性,本研究将数据来源初步选定为:大型B2B电子商务公司F、全品类综合在线批发兼零售公司S、保险电子商务公司X、旅游电子商务公司X。以上目标企业经营商品品类不同,公司规模及所处发展阶段也各不相同,有的出于初创期、有的处于快速发展的成长阶段,有的处于稳定的成熟阶段,这些目标数据来源大致体现了电子商务数据质量的现状,通过这些目标数据来源所得的质性数据有一定代表性。
最终访谈对象包括数据使用者、数据处理者(包括数据审核、开发、加工者等)、数据监管者等角色。需要说明的是,访谈对象的角色有时并不是单一的,例如有些访谈对象既是使用者,又是数据监管者。在访谈对象信息统计时按主要角色职责归到某一类角色中。按照扎根理论的要求,访谈对象人数预计20~30人左右。实际有效访谈人数为28人。
2.2.2 设计访谈提纲
根据扎根理论的指导原则,设计较为开放性问题,本研究基于现有相关研究成果的分析,拟定访谈提纲,题项主要包括:工作中您接触到哪些数据?您主要关注数据的哪些质量特征?您认为这些数据质量符合要求吗?您觉得形成质量问题的可能原因是什么?还有其他可能吗?在实际访谈中,还需要根据访谈对象的具体情况,对以上题项进行适当调整。
2.2.3 基于扎根理论的编码
本研究严格按照扎根理论分析步骤,首先,进行开放式编码,即通过将所获得的原始数据进行概念化和范畴化。对原始数据进行分析,共获得原始语句287条,并对所描述现状赋予标签,然后将类似的标签聚集到一起,归纳出相应的概念。通过开放式编码共获得64个概念。然后对编码形成的概念进行反复推敲,并进行抽象提炼,形成24个范畴,并在此基础上依据其内在逻辑,进一步归纳为“把握用户需求”、“明确利用目的”、“建立标准和规范”等共11个主范畴。依据主范畴与核心范畴的关系类型,将11个主范畴,即电子商务数据质量主要影响因素,进行编号,如表1所示。限于篇幅,编码过程从略。
2.2.4 饱和度检验
本研究对理论饱和度的验证方法为:采用预留的5份访谈内容进行概念比对,结果没有新概念或理论内涵出现,即最后的5份访谈内容基本被此前的64个概念所覆盖。根据此种情况笔者认为当前访谈结果及在此基础上形成的理论已经饱和。
3 关键影响因素分析
3.1 DEMATEL模型构建与计算
在梳理出11个电子商务数据质量影响因素(即前文所述的主范畴)后,本研究基于DEMATEL模型对电子商务数据质量关键影响因素进行测度。首先组织焦点小组对各影响因素之间的关系进行评价,焦点小组由12名成员组成,其职业均与电子商务数据的管理、开发、利用相关,有较为丰富的实践或研究经验,他们分别来自电子商务企业的数据分析师、架构师、产品经理、项目经理,以及高校电子商务方向的研究人员。焦点小组所讨论内容为各个因素对其他所有因素的影响程度,根据各要素之间影响关系的有无及其强弱,采用0、1、2、3分别表示因素Si对因素Sj的影响程度为“无影响”“弱”、“中”、“强”。
1)对评分结果进行分析并取出现频率最高的数作为对应因素的直接关联程度,得到电子商务数据质量影响因素的直接影响矩阵(见表2)
2)在构造直接影响矩阵后,将其转化为规范化影响矩阵,由于篇幅有限,规范化影响矩阵从略。为了分析各因素间的间接影响关系,根据上文操作步骤得到综合影响矩阵,如表3所示。
3)影响因素分析。本研究按照DEMATEL模型的计算公式,计算出了各因素的影响度和被影响度、中心度、原因度(见表4)。并绘制原因—结果分布图(见图1)。
3.2 结果分析
3.2.1 影响度与被影响度分析
一个因素的影响度是指在诸多因素中该因素会对其他因素造成影响的程度总和。根据电子商务数据质量各因素的影响度与被影响度计算结果(见表4),可以发现影响度比较高的因素包括:建立数据监管机制(2.13)、明确数据利用目的(2.07)、数据质量意识(1.91)、建立标准与规范(1.86)。可以发现,原因因素主要集中在标准规范、监管制度、目标、人员意识与素质等方面,这些因素对电子商务数据质量起到根源性影响作用,是“起源型”因素。因为当前大数据环境下,对于大规模数据集的质量管理尚处于探索期,需要明确的目标导向、厘清数据质量利用目的,同时也需要相应的标准与规范、监管制度的引导和约束,需要数据质量参与者的质量意识提高。
一个因素的被影响度是指在诸多影响因素中,该因素受其他因素影响程度的总和。从被影响度计算结果(见表4)来看,被影响度比较高的因素主要包括:数据开发应用管理(2.46)、数据质量意识(2.18)、数据处理过程约束(2.02)。这些因素受到其他因素影响程度相对较高,属于“结果型”因素。被影响度高的因素主要集中在流程管理维度、技术维度、质量意识维度。与“起源型”因素不同,“结果型”因素更加直接作用于电子商务数据质量管理实践,是电子商务数据质量管理实施更直接的推手。
3.2.2 关键影响因素识别
基于DEMATEL权重网络的理论模型,一个因素的中心度是指在因素复杂网络中的重要程度,一个因素的原因度是指该因素对整个因素网络的形成原因的贡献程度。本研究集合中心度和原因度对电子商务数据质量关键影响因素进行识别。从各因素的中心度和原因度的分布来看(如图1),部分因素既具有较高的中心度,也具有较高的原因度,如S11(建立数据监管机制)、S3(建立标准与规范)、S1(把握用户数据需求),说明这些因素既在复杂网络中有较强的中心性,又对其他因素具有较强的解释性。还有的因素虽然原因度不高,但中心度较高,如S7(数据质量意识),说明该因素虽然对其他因素的影响不大,但是在整个因素网络系统具有重要地位,是许多因素的作用点,也属于关键影响因素。
4 结论与建议
4.1 研究结论
本研究以电子商务数据质量影响因素为研究问题,通过对半结构化访谈所获得的质性材料进行扎根理论分析,获得了4个维度共11个数据质量影响因素,使用DEMATEL复杂系统模型对以上因素进行分析,最终得到以下结论:
1)影响力较大因素除了比较常见的数据质量监管机制、质量意识、标准与规范等因素外,明确数据利用目的也是影响数据质量的重要因素。结合调研材料,本研究发现对数据质量利用目的的明确程度,比如企业是否具有自上而下的顶层数据资源规划,是影响数据资源能否有效支撑企业经营业务的重要因素,这与电子商务领域数据的经济价值属性密切相关,只有与企业营业目标相吻合的數据才是高质量的数据资源。这也是本研究与现有其他领域数据质量因素研究相比较的一个重要发现。
2)电子商务数据质量的“结果型”因素是数据开发应用管理、数据处理过程约束、数据质量意识等,这些因素对数据质量产生直接影响。相较于其他领域数据质量更侧重数据输入端影响因素不同,电子商务数据质量的直接影响因素更多集中在数据处理转化和开发应用环节。电子商务平台输入端的人机交互设计已相对比较完善,有较为完善的数据质量约束机制,数据质量问题更多来源于多来源数据的整合及数据开发环节。这也是电子商务领域的数据管理特点。
3)建立数据质量监管机制、建立标准与规范、把握数据利用需求、数据质量意识等有关制度、标准、需求、意识等方面的因素是电子商务数据质量的掣肘性因素。虽然调研中的企业已不同程度的建立了相应的数据质量管理制度和规范,但相关标准、制度尚不完善,数据资源缺乏全局性规划,数据质量有待与企业战略目标相协同。所以本研究认为建立监管机制、完善数据标准与规范、明确数据利用需求、提升数据质量意识等仍是提升电子商务数据质量的关键发力点。
4.2 对策建议
1)建立完善的数据质量监管机制仍是电子商务企业提升数据质量的当务之急。调研发现,虽然数据质量问题已被广泛关注,但不少企业并未建立覆盖数据生命周期全流程的监管机制,数据质量工作分散在相关业务部门,未能建立规范化、全流程的监管机制。只有少数企业明确将数据质量问题考核纳入KPI考核体系,数据质量问题并未得到充分重视。因此,建议电子商务企业应建立完善的、覆盖数据生命周期全流程的数据质量监管机制,对数据本身和数据工作流程进行监督。例如,建立包括实时监控机制、人工信息审核机制、逐级审查机制在内的审核机制;同时,还应建立数据质量问责机制、数据质量问题处理机制等一系列管理机制。通过严格的监管机制,加强数据质量过程控制,直接有效地提升电子商务数据质量。
2)加强数据资源顶层设计,明确企业数据利用目的与需求。使数据质量管理目标与企业发展目标相匹配,制定数据资产总体规划和数据质量策略,统领数据质量工作,避免数据质量与商业目标及业务需求之间出现断层。例如企业可以成立数据资产管理委员会,由其总体负责数据资源的顶层设计,制定数据质量目标。在此基础上,由数据质量小组统筹进一步厘清数据利用需求,使数据质量标准和规范与数据需求相对应,与数据利用场景相结合,例如,对于客户数据,侧重于要求数据本身全面、完整、有效,能够为用户“全面画像”,深入刻画用户特征等方面的质量属性;对于运营数据,侧重于要求数据的准确性、可信度、时效性等质量属性,而对于业务预测,则要求数据能够满足“场景化”决策的需要,即需要提供有关时间、空间、语义和语境等要素构成的特定用户数据。
3)明确数据质量标准与数据工作规范,通过统一的标准和规范实现数据质量管理的最佳效益。电子商务企业尤其是一些初创期的企业,应重视标准与规范的前端控制作用,建立完善的、全局性的数据标准和数据工作规范。关于数据标准,企业应就共用业务术语的定义、命名与描述方法达成共识,形成统一规定,包括数据对象的命名、格式/结构、表示规则、存储、交换、共享规则等内容。同时,通过规范约束数据生命周期过程中参与主体的行为,避免出现标准和执行“两张皮”的脱节现象。数据工作规范体系应全面涵盖数据生命周期的各个阶段,具体应包括:数据开发阶段对内部数据源、外部数据、人工录入数据等进行采集的规范,ETL阶段对数据进行抽取、转化、清洗、加载等操作的ETL规范,数据挖掘阶段的数据建模规范,以及数据应用阶段的数据应用规范等。
4)建立完善的数据质量保障体系。数据质量管理是一项复杂的系统工程,数据质量工作的顺利开展必然需要完善有效的保障体系。结合调研情况与前文DEMATEL分析结果,建议电子商务企业重点从组织架构、数据监管工具、技术等方面着手构建数据质量保障体系。例如:①建立跨部门的数据质量管理委员会负责数据质量管理相关工作。调研发现有的企业IT部门既是“运动员”,又是“裁判员”,缺乏公司层面独立的管理部门,组建跨部门的数据质量管理机构十分必要。②建立数据质量监管平台作为辅助工具,协助数据质量控制工作顺利开展。在数据质量规则的基础上,利用元数据技术对数据质量进行监控、评估,并提供数据质量报告、异常情况预警等,以全局和直观的方式展现数据质量问题,提升数据质量监管效率。
5)提高员工数据素养和数据质量意识。电子商务企业可以通过一系列专题培训来提升员工的数据素养和数据质量意识,例如:①数据知识专题培训。例如,企业数据质量标准和指标解读,对日常工作中涉及的数据质量标准和指标的含义、业务规则等进行详细介绍;统计学知识,如极值、正态分布、相关性等基本统计学知识,以提升数据用户解读数据报表的能力;数据挖掘知识、结果指标的解读等知识。②数据工具使用专题培训。对常用的数据分析工具、商业智能类工具的功能及应用方法进行培训,如Google Analytics等。③数据质量意识培养。专题培训结合企业内部各种宣传渠道,将企业数据文化渗透到员工日常工作中。让员工理解数据质量的重要性,在日常工作中能重视并主动遵守相关数据工作规范、数据质量制度。但数据质量意识的提升不是一蹴而就的,需要通过培训体系、奖惩机制等多种途径逐步培养。
4.3 研究不足
受条件所限,本研究在获取直接影响关系矩阵时,只能在有限的范围内通过焦点小组法获得因素间的影响权重。随着电子商务企业数据质量监管机制以及规范制度的日益完善、数据质量意识的提高,关键影响因素也会发生变化。在未来的研究中,笔者将尝试通过更大范围的调研来搜集和分析电子商务影响因素及这些因素之间的关系,以期能够更加准确地把握电子商务数据质量管理的发展脉络,为我国商业大数据产业的健康持续发展贡献绵薄之力。
参考文献
[1]张宁,袁勤俭.数据质量评价述评[J].情报杂志,2017,40(10):135-139.
[2] Wahyudi A,Kuk G,Janssen M.A Process Pattern Model for Tackling and Improving Big Data Quality[J].Information Systems Frontiers,2018,20(3):457-469.
[3] Otto B.EconPapers:Data Governance[J].Business & Information Systems Engineering,2011,(4):241-244.
[4] Cao L,Zhu H.Normal Accidents:Data Quality Problems in ERP-enabled Manufacturing[J].Journal of Data & Information Quality,2013,4(3):1-26.
[5]胡逢彬,沈炜.数据ETL过程中的数据质量控制[J].信息技术,2006,(4):19-21.
[6]卢本新.数据仓库数据质量管理的研究[D].大连:大连理工大学,2013:18.
[7]Lee Y W,Pipino L L,Funk J D,et al.数据质量征途[M].黄伟,王嘉寅,冯耕中,译.北京:高等教育出版社,2015.
[8]刘伟.基于元数据的数据质量控制与评估模型研究[D].大庆:东北石油大学,2011.
[9]曹建军,刁兴春,汪挺,等.数据质量控制研究中若干基本问题[J].微计算机信息,2010,26(9):12-14.
[10]穆向阳,朱学芳,常艳丽.图书馆数据服务中数据质量影响因素模型的构建[J].图书馆论坛,2013,33(5):86-90.
[11]莫祖英.大数据处理流程中的数据质量影响分析[J].现代情报,2017,37(3):69-72.
[12]Hosseini S M S,Safaei N,Asgharpour M J.Reprioritization of Failures in a System Failure Mode and Effects Analysis By Decision Making Trial and Evaluation Laboratory Technique[J].Reliability Engineering & System Safety,2006,91(8):872-881.
[13]甘俊偉,贺政纲,彭茂,等.基于DEMATEL方法的我国报废汽车回收利用产业发展影响因素分析[J].科技管理研究,2016,36(1):103-107.
[14]张艳丰,李贺,彭丽徽,等.高校图书馆微信公众平台的媒介引力场模型及其影响因素——基于DEMATEL系统因素分析的大众传播视角[J].图书情报工作,2017,61(9):5-13.
[15]杜凤娇,段万春,李阳.基于DEMATEL方法的众创空间外引内联模式的影响因素分析[J].科技管理研究,2018,38(10):220-226.
[16]杨建梁,刘越男.基于DEMATEL模型的我国政府信息资源跨部门共享的关键影响因素研究[J].图书情报工作,2018,62(19):64-76.
[17]甘俊伟,贺政纲,彭茂,等.基于DEMATEL方法的我国报废汽车回收利用产业发展影响因素分析[J].科技管理研究,2016,36(1):103-107.
[18]韩正彪,周鹏.扎根理论质性研究方法在情报学研究中的应用[J].情报理论与实践,2011,34(5):19-23.
(责任编辑:孙国雷)