基于K-medoids-NCA-SMOTE-BSVM融合模型的网络交易平台高质量数据资源识别研究

2023-02-01 01:29李思远房津玉
运筹与管理 2023年11期
关键词:高质量分类样本

倪 渊, 李思远, 徐 磊, 张 健, 房津玉

(1.北京信息科技大学 经济管理学院,北京 100192; 2.绿色发展大数据决策北京市重点实验室,北京 100192)

0 引言

数据资源作为数字经济时代的产物,蕴含巨大商业价值和社会价值,是一种新型生产要素[1]。然而,伴随数据规模指数型增长,数据质量问题引发了广泛关注[2,3]。大量低质量数据充斥于各类数据资源交易平台,它们价格低、规模大、且不乏热点领域数据;但实际上有效信息载量低,权属模糊、开发易用性和适用性并不高。低质量数据资源无法帮助企业实现科学决策,还可能带来灾难性后果[4]。而且,长期利用低价值数据吸引用户也难以增加平台价值,会导致“劣币驱逐良币”的反效果。因此,在国家积极倡导平台经济高质量发展的大背景下,如何让高质量数据从交易平台的海量资源中脱颖而出,提升数据要素市场配置效率,成为各界关注的焦点。

回顾已有文献,平台环境下高质量数据识别问题源于数据质量的相关研究,包括数据质量的概念、数据质量影响因素以及数据质量评价三方面内容。第一,关于数据质量定义,最早可追溯到上世纪70年代计算机领域的研究。WANG等将“数据使用的适用性”作为衡量数据质量的标准[5]。REDMAN认为高质量数据是能够满足数据使用者经营决策需求的数据[6]。AEBI和PERROCHON从信息系统视角定义高质量数据特征,即一致性、完整性、原子性和正确性[7]。曹建军和刁兴春则将数据质量定义为数据内在特性对需求的满足程度[8]。第二,关于数据质量的影响因素探索,涉及三个研究视角。一是生产周期的视角,该视角认为数据质量受到数据生产整体过程的影响。比如,WANG和STOREY将数据视为一种特殊商品,参考商品生产过程提出了数据质量分析框架[9];江洪和王春晓调研了15家数据中心,提出了共性的科学数据质量评价体系[10]。二是特征视角,该观点认为高数据质量特征与用户需求满足具有一致性。比如,林平等构建了数据开放度、可利用性、可持续性和数据数量的四维评估体系[11];张晓娟和唐长乐提出了包括一致性、存在性与开放性在内的数据质量判别指标[12]。三是平台服务视角,该视角认为平台服务是决定数据质量的关键。比如,PEER等对比了多个平台,发现平台数据质量包括注意力、理解力、诚实性和可靠性[13]。第三,关于数据质量评估方法,包括经验驱动和数据驱动两大类。经验驱动方法借助专家经验、领域知识、用户反馈对数据质量进行评价。比如,CARO等通过用户反馈统计对门户网站数据质量进行评价[14];孙嘉睿和安小米通过层次分析法评价政府开放平台数据质量[15]。数据驱动方法采用综合评价思想,构建量化模型识别高质量数据。比如,HEINRICH和KLIER提出了基于概率的数据质量PBCM模型[16];林娟娟等采用 KNN分类机器学习算法对城市空气质量数据集评价[17]。

综上所述,已有研究为平台交易情境下高质量数据识别提供了基础,但是仍存在两方面不足:一是,现有识别方法的人工参与成分较多,自动化程度不足,仅适用于小规模、同质化数据资源质量评价,难以应对平台交易情境下大规模数据资源的质量识别需求。二是,现有识别方法忽略了不同质量数据资源分布不均衡的问题,容易引发分类结果偏误,难以满足平台交易情境下异质化样本分类的鲁棒性要求。对此,本文提出K-medoids-NCA-SMOTE-BSVM高质量数据资源识别模型,该模型具有两方面优点:第一,基于高质量数据的多维特征,结合K-medoids算法与轮廓系数,确定最优分类标签数量,减少数据样本的孤立点及离群点对分类标签的影响,实现大规模数据资源质量分类标签的自动生成;第二,通过近邻成分分析(NCA)与少数类过采样技术(SMOTE)优化贝叶斯支持向量机模型(BSVM),减少冗余特征与样本不平衡性对分类结果的干扰,提升异质化数据资源质量分类识别的准确性。本研究构建的模型不仅有助于数据交易平台依据数据质量差异开展定价机制优化,提升数据资源配置效率,最大限度赋能平台服务价值;同时,对于完善多层次、多元化数据高质量供给体系的也有积极意义。

1 高质量数据的特征识别

1.1 高质量数据的界定与形成过程

高质量数据是能够较好满足需求者诉求的一种区别性数据商品,具有高信息性、高适用性、高经济性的特点。平台经济下数据流转是一个多主体参与的开放市场,政府、企业、高校及个人等社会主体是数据资源需求者,也是提供者。作为需求者,不同主体针对业务场景从外部购买并获取数据资源,支撑业务延续与创新;作为提供者,主体通过数字化编码和物理存储,将活动记录转化为数据,汇集成庞大的、待开发的原始数据资源池。数据服务平台链接供需双方,负责数据资源的市场化配置,包括数据交易平台与数据综合服务平台。数据交易平台面向社会主体,登记数据需求,发送订单给数据综合服务供应商。接受订单的数据服务商从提供者处获得授权,进行原始数据的采集、整合、分析,加工后的数据商品经过交易平台筛选,被划分成不同质量等级。高质量数据交付于需求者,而低质量数据返还给数据服务商,进行二次加工。

在整个数据流通循环链中,高质量数据是最大程度满足主体需求的数据商品,其形成需要两次前置加工:一是“行为记录-原始数据”的加工,二是“原始数据-数据商品”的加工。第一次加工由社会主体单独完成,决定着原始数据资源的固有品质,比如原始数据记录是否完整、格式是否符合标准等,它是高质量数据形成的基础;第二次加工由数据综合服务平台完成,决定着数据资源的商品化表征,比如多源数据格式统一、字段对齐、数据商品描述等,它旨在提升数据资源对场景应用的可感知性、可理解性,是高质量数据形成的核心。两个环节相辅相成,共同影响平台交易情境下数据质量。

1.2 高质量数据资源识别指标体系

将固有品质和商品表征作为高质量数据识别的特征维度,结合数据交易平台调研,按照系统性、可量化性、可更新性以及高场景适用性原则,得到9个识别指标,整个指标体系如表1所示。

表1 高质量数据资源指标体系

2 高质量数据资源识别模型构建

2.1 模型构建流程

以高质量数据识别指标体系为基础,提出一种融合K-medoids聚类-近邻成分分析-过采样技术-贝叶斯优化支持向量机(K-medoids-NCA-SMOTE-BSVM)的高质量数据识别模型。模型构建基本思路是将高质量数据识别作为一个模式识别问题对待,采用有监督机器学习方法加以实现,模型主要包括四个部分,整体流程如图1所示。

图1 K-medoids-NCA-SMOTE-BSVM模型流程图

2.2 基于K-medoids聚类生成类型标签

针对高质量数据特点,本文综合数据资源的浏览量、收藏量和下载量作为判别依据,确定数据质量分类标签。平台交易背景下,数据商品参差不齐,样本中存在较多极端值和离群点,对此选择K-medoids法对数据资源进行聚类。K-mediods是K-means的一种改进方法,改善了K-means方法对噪声点过于敏感的问题,受离群点的影响较小,可以产生紧凑明显的分类结果[18]。

初始条件设置会导致K-mediods聚类结果差异,本文借助轮廓系数来判断最优K值。轮廓系数取值为-1到1之间,分值越高说明分类效果越好。选取轮廓系数最大的值对应的K作为最终的集群数目。

本文分别求出K为2,3,4,5,6,7,8,9的轮廓系数,取轮廓系数最大值对应的K值,将数据资源依据不同质量分为K类。

2.3 基于近邻成分分析(NCA)特征降维

鉴于所选指标中或存在与高质量数据资源特征关系较小的因素,因此采用NCA方法进行特征选择,NCA通过搜索线性变换矩阵,得到的低秩矩阵,将高维训练数据嵌入低维空间[19],具体步骤如下:

(1)求出数据集中两个样本间的马氏距离。设dw(xj,xz)为样本j和样本z马氏距离,s为指标个数,wi为第i个指标的权重,那么:

(1)

(2)计算样本相似的概率。设pjz(w)为样本j和样本z相似的概率,则:

(2)

(3)计算样本分类正确的概率。设pj(w)为样本j被分类正确的概率,那么:

(3)

(4)构建目标函数。算法的目标为最大化分类正确概率,设F(w)为可调节参数,则:

(4)

2.4 基于SMOTE的不平衡分类处理

鉴于聚类划分后不同类别样本数量差别较大,会影响模型的识别准确率,因此,使用SMOTE过采样技术平衡数据分布。它是基于随机过采样算法的一种改进方案,通过在局部区域采用K-邻近生成新数据,获得平衡数据集,解决了随机过采样的过拟合的问题,且对噪音的抵抗力更强。算法基本过程如下:

第一,对于少数类中每一个样本X,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。

第二,对于每一个样本X,从其k近邻中随机选择若干个样本,假设选择的近邻为Xn。

第三,对于每一个随机选出的近邻Xn,分别与原样本按照公式(5)构建新的样本。

Xnew=X+rand(0,1)×|X-Xn|

(5)

2.5 基于BSVM的识别模型训练

将特征降维后的数据资源识别指标作为输入,将聚类后的数据资源贴上类别标签,并平衡数据集后作为模型的输出。按照上述规则,构建基于贝叶斯优化支持向量机的高质量数据资源识别模型,该模型使用贝叶斯优化支持向量机参数,使得模型分类准确率有较大提升。

3 实证研究

3.1 数据采集及预处理

本文选取“京东万象”数据交易平台开展实证研究,选择该平台上成交的API数据资源作为研究对象。使用Python爬取数据,经过数据清洗,最终获取有效数据945条,样本数据数据集信息如表2所示。

表2 样本数据特征及处理

3.2 实证结果

3.2.1 数据资源的分类标签结果

根据K-mediods聚类算法进行数据资源分类并计算轮廓系数值,分类数K=3时,轮廓系数值最大,此时数据资源可以分为三个集群。其次,通过对聚类结果中三个聚类中心的分析,确定了数据资源质量的三个层次,分别将其定义为高质量数据资源、低质量数据资源以及中质量数据资源,并将其后续输入模型的标签定义为1,2,3,如表3所示。

表3 K-mediods聚类结果

3.2.2 特征指标有效性筛选

根据NCA算法特征降维,数据资源特征指标的最优权重和排序如表4所示。根据结果将数据可溯性剔除,保留剩余的8个指标。

表4 特征最优权重和排序结果

3.2.3 BSVM模型训练及结果对比

通过SMOTE过采样技术,本文将C1—高质量数据资源集和C2—低质量数据资源集分别扩展到462条,汇总形成的平衡数据集共有1386条,以此为基础进行BSVM的训练。初始参数设置如下:惩罚参数C和径向基核函数宽度参数g设置为1,观测点个数设置为10,目标函数为识别错误率函数,参数优化最大迭代次数设置为30,将数据集中的90%作为训练样本,其余作为测试样本。

为了验证模型的效果,本研究将所构建的BSVM模型与SVM模型、鲸鱼算法优化支持向量机(WOA-SVM)、粒子群算法优化支持向量机(PSO-SVM)以及多层感知机(MLP)和卷积神经网络(CNN)进行比较。此外,以未扩展的非平衡数据集为基础,作为对照组。本文选用准确率评价指标进行分类模型效果评价。

准确率指标算法如下:

(6)

其中m代表测试样本总数,a代表测试样本分类正确的总数。

本文基于两组数据集对六种模型的分类效果进行对比分析,实验结果如表5所示。通过横向对比可知,SMOTE过采样技术对优化后的SVM模型有明显改善作用,平衡处理显著提高了分类准确率;对于单一预测模型,未达到明显性能提升。通过纵向对比可知,无论是基于非平衡数据集还是平衡数据集,BSVM模型总能有更好的表现,预测准确率均高于其他五种模型。特别地,对于平衡数据集,测试数据在SVM,WOA-SVM,PSO-SVM,BSVM,MLP和CNN模型中的准确率分别为49.72%,66.19%,59.71%,82.01%,47.10%和44.93%,BSVM识别效果最好,说明本文提出的识别模型分类效果最优,能够更准确地对不同数据资源进行分类。此外,比较训练时长可见,经过算法优化后的模型训练时长会增加。与其他优化算法相比,BSVM训练时长最短,说明BSVM在参数调优时具有较高的算法效能。

表5 不同模型分类效果对比

在贝叶斯优化参数过程中,最小化识别错误率函数作为贝叶斯优化的目标函数,参数优化和目标函数模型训练结果如图2所示。参数优化共30次,随着迭代次数增加,观测点越来越多。当运行次数小于10时,估计的函数最小目标值存在较大波动,运行次数超过20后,最小目标函数值虽有轻微波动,但整体趋于稳定,表明此时惩罚参数C和核函数参数g对SVM模型来说已有较好的效果。最终观测到的最优惩罚参数C=99.502,最优核函数参数g=35.191,此时观测到的目标函数值为0.24611,估计的目标函数值为0.24669。

图2 贝叶斯优化过程

4 结论

信息时代背景下,高质量数据资源己成为关系企业生存发展的重要因素,对企业数字化转型、新机遇挖掘具有革新性影响。如何在海量资源中识别出高质量数据资源,是促进平台交易情境下数据经济新动能的关键问题。本文针对现有方法对平台情境下大规模、非均衡数据资源质量识别适应性弱的缺陷,构建了一套相对完整、客观的高质量数据识别指标体系,提出了多方法集成的数据资源质量分类识别模型,具体结论如下:

第一,明确了高质量数据资源的内涵,将其定义为处于交易阶段的数据资源能够与购买者需求契合,且进行货币变现后满足购买者期望的数据商品,可以借助网络平台下数据资源交易的浏览量、收藏量和下载量加以衡量。

第二,基于平台环境下数据资源流转与高质量数据形成过程,构建了“固有品质-商品表征”二维高质量数据资源识别指标体系,并借助“京东万象”交易平台数据充分验证了指标体系有效性,对数据资源质量评估理论进行了创新性尝试和重要补充。

第三,基于非平衡数据集和平衡数据集对比实验表明,针对优化后的SVM模型,SMOTE平衡处理能够明显提升标签生成准确度,改善数据资源质量识别效果;平衡数据集下的多模型对比可以看出,BSVM方法表现更优,具有更高的算法效能。综合结果表明,K-medoids-NCA-SMOTE-BSVM高质量数据资源识别模型可以高效率生成海量数据资源的质量标签,提高对异质化数据资源的识别准度,对推动数据资源的活跃交易具有较强的指导意义。

猜你喜欢
高质量分类样本
坚持以高质量发展统揽全局
分类算一算
用样本估计总体复习点拨
高质量项目 高质量发展
牢牢把握高质量发展这个根本要求
“三部曲”促数学复习课高质量互动
分类讨论求坐标
推动医改的“直销样本”
数据分析中的分类讨论
教你一招:数的分类