任秀春
(渤海大学 管理学院,辽宁 锦州 121013)
基于RDF三元组的电子商务竞争者数据挖掘
任秀春
(渤海大学 管理学院,辽宁 锦州 121013)
越来越多的消费者通过互联网从事商务活动,电子商务的数据规模逐渐扩大。互联网上的商家希望了解竞争对手及其信息,以调整经营策略。提出一种利用RDF三元组的语义特征和结构特征来检测具有竞争关系的商家,利用淘宝网的商店数据,使用MapReduce作为处理可扩展性的工具。实验证明了基于RDF的电子商务竞争者数据挖掘的有效性。
电子商务;RDF;数据挖掘;MapReduce
在日常生活中,越来越多的人使用互联网从事商务活动。由于电子商务数据的飞速扩张,网络销售商迫切希望可以找到网络上竞争者,获取竞争对手的经营数据,分析商品的交叉信息,以便对经营策略做出调整,从而获取较大的市场份额。
电子商务的数据有4个主题[1]:商品、销售商(卖家)、消费者(买家)、交易记录。在电子商务领域,传统的数据挖掘方法通常采用逻辑上的方法找出潜在和有用的模式[2],例如采用ILP模式[3],聚类分析方法[4-5],协同过滤算法[6-7]等。对电子商务竞争者进行数据挖掘,有几种模式产生预先确定的竞争关系,通过逻辑运算将其结合,参照这个结果,可以很容易对新目标检测到竞争关系[8]。文中采用RDF三元组表示网店里的所有商品特征和属性。RDF是W3C规范的一部分,最初是作为元数据的数据模型设计的[9]。RDF是用于表示网络信息的通用语言,RDF三元组可以表示网络结构、属性、关系等[10-11]。此外,本文使用MapReduce在分布式计算中处理此类数据。MapReduce是由谷歌提出和实施的分布式存储的文件系统,作为一个开源项目,MapReduce是一个分布式计算框架[12]。通过采用MapReduce,我们可以做大量的计算用来减少时间成本。
1.1 数据预处理
电子商务中的基本数据包括商品、卖家、买家的交易记录,我们为每一件商品分配一个URI,通过对页面的分析,可以将商品通过一个RDF三元组来进行描述。
基于RDF三元组生成的商品信息如下:
1)product商品,每件商品都会给消费者展示一些商品信息,如商品的名称,价格,所属类别,产地等基本属性。生成的三元组如“product1 named XXX”,另外,有些商品会与其他商品放在一起查看,所以也会 产 生 三 元 组 如 “product1 viewed together product2”。
2)shop商店,各个商店的主要属性是相同的,其描述如下,商店的所有者、商店的位置、买家对商店评价产生的商店信誉评估,由此建立如下三元组:“shop1 owner XXX”。此外,商店与商品之间存在明确的销售关系:“shop sell product”。
3)record交易记录,交易记录描述了卖家与买家的活动,每条记录都包括买家、产品、成交价格、交易日期等,每个项目及其值作为三元组的谓词和对象,作为记录URI的主题表达式:“record data X-X-X”。
4)subClassOf商品所属类别。网站对所有销售的商品进行了分类,这种分类具有较好的层次性,层次信息存在于各个类别,由此提取的属性三元组如:rdfs:subClassOf
针对以上的 RDF三元组信息,可以使用SPARQL进行检索,用来获取RDF模型的特征[13-14]。获取商品及商店的SPARQL语句查询示例如下:
1.2 商品相似度
商品是电子商务交易中最重要的实体,经过以上步骤对数据进行预处理后,对商品相似性作如下定义:
其中:propertySet(product1),表示product1的所有属性的集合。Size(A),表示集合A的大小。
采用SPSS 20.0进行统计学处理,计量资料采用(均数±标准差)描述,组间差异比较采取t检验,等级资料采取Wilcoxon Mann-Whitney U检验,计数资料采用率或百分比表示,组间差异比较采取χ2检验,以P<0.05表示差异具有统计学意义。
目前已有研究使用向量距离来定义相似度的方法[15],通过不同的谓词创建不同的向量空间,每种属性建立一个向量。由于网络上抓取的数据向量空间非常少,相似度的计算时间复杂度很高。因此,不采用向量空间的方法来定义商品相似度。
1.3 商店相似度
作为可以提供竞争商品的商店,与其他商店具有很高的相似性。每件商品均与商店存在联系,至少存在一个三元关系代表商店销售的产品,有定义2和定义3。
定义2:
其中productSet(shop)表示在这个商店中销售的商品集合,sim(product,shop)表示商品与商店相似度。
定义3:
sin(shop1,shop2)=Σx∈productSet(shop1)sim(x,shop2)
定义2和定义3表明,商品的相似度与商店的相似度存在较大的关联性,商店之间的相似性是通过一个商品在一家商店与另一家商店的相似性来计算的。
算法 SimMapReduce
然后利用SPARQL查询对商品的交易记录来进行检测,以便获取竞争商品的信息,
3.1 RDF数据集
实验数据采用爬虫程序获取产品的网页,每个网页代表一件商品的全部信息,选取了2015年3月—2016年3月之间的交易数据,有51 307个商店的1 780 509件商品被收录。
在这些数据中,对于每一个商品,属性的数量最少4个,最多17个,平均9.4个。每个商店在售商品最少1个,最多8 457个,平均121.7个。
3.2 商品相似度
我们随机选择100件商品作为需要相似比较的主题,topN表示商品具有最高相似度的计算结果。采用top1,top5,top10进行实验,并计算每一组实验的准确度。计算的平均相似度的结果如图1所示。
图1 商品相似度
为了便于分析商品相似度的关系,限定了商品至少有6个属性。对商品数据库进行修改并再次实验,两个实验的对比结果见图1,平均相似度提高了0.05。
3.3 商店相似度
随机选择了100家商店作为目标,其余的都视为竞争对手不参与相似度计算,分别计算相似度为top1,top5,top10的返回结果。平均相似度如图2所示。
图2 商店相似度
从实验结果可以发现,拥有极少量商品的商店总是返回错误的竞争者信息,这是由于拥有极少量商品的商店提供的资料很少,使得其结果是存在误报。一个商店只销售很少商品是噪音数据,因此,筛选出销售超过3个商品的商店1 512家,经过调整后,显示如图2的对比图。从图2中可以看出,准确度没有明显改善,原因在于,只销售极少量产品的商店很难进行正确的分类。
3.4 推荐竞争者信息
数据集中有51 307个商店,给定100个目标商店找出相似度最高的前N个竞争者,分别计算准确率为top1,top5,top10的返回结果。构建一个51 307× 51 307的矩阵,每个元素代表商店i与j的相似度值,通过这个矩阵,可以获取任意两个商店的相似度。通过对各类数据进行统计,可以看出,商店主要集中在如下几类:服装,化妆品,数码产品。各类商店的数量最多为13 764家,最少47家,平均754家。计算结果如图3所示。
图3 竞争者信息
对计算结果进行分析可以发现,销售服装类商品的商店返回的竞争者信息准确度较高,因为服装类商店具有明确和详细描述的同类商品,具有显而易见的特征。而其他类商店出售的商品没有清晰的描述,它们被归类到不相关的类和错误分类的前N个商店。
文中利用RDF三元组的语义特征和结构特征来检测具有竞争关系的商家,提取淘宝网的商店数据,利用Sparql进行交易记录的信息查询,使用Map Reduce作为处理可扩展性的工具,计算商品与商店的相似性,从而进行电子商务竞争者信息推荐。实验证明了基于RDF的电子商务竞争者数据挖掘方法的有效性。
[1]张野,于湛麟,赵宏霞.基于RDF的电子商务信息抽取技术研究[J].渤海大学学报:自然科学版,2014(3):261-264,269.
[2]王旭.数据挖掘技术在电子商务销售中的应用[J].科技情报开发与经济,2015(24):87-89.
[3]Muggleton S,Raedt L D.Inductive logic programming:Theory and methods[J].Journal of Logic Programming,1994,s19-20(94):629-679.
[4]崔义童,冯志勇,王鑫,等.基于图聚类算法的大规模RDF数据查询方法研究[J].小型微型计算机系统,2015(12):2625-2628.
[5]樊同科.云环境下基于MapReduce的用户聚类研究与实现[J].电子设计工程,2016(10):35-37,41.
[6]荣辉桂,火生旭,胡春华,等.基于用户相似度的协同过滤推荐算法[J].通信学报,2014(2):16-24.
[7]罗辛,欧阳元新,熊璋,等.通过相似度支持度优化基于K近邻的协同过滤算法[J].计算机学报,2010(8):1437-1445.
[8]袁柳,张龙波.一种基于聚类模式的RDF数据聚类方法[J].计算机科学,2015(10):266-270,296.
[9]熊振辉,于娟.OWL应用接口的比较分析[J].情报探索,2015(2):72-76.
[10]Han J,Kamber M.Data Mining:Concepts and techniques [J].Data Mining Concepts Models Methods&Algorithms Second Edition,2000,5(4):1-18.
[11]杜方,陈跃国,杜小勇.RDF数据查询处理技术综述[J].软件学报,2013(6):1222-1242.
[12]冷泳林,鲁富宇.基于MapReduce的SimRank算法在图聚类中的应用[J].电子设计工程,2015(6):9-11,15.
[13]郭少友,魏朋争,洪娜,等.四种SPARQL查询构建器及其比较研究[J].情报科学,2015(3):80-84.
[14]王海荣,马宗民.基于相对量词的RDF模糊查询方法[J].东北大学学报:自然科学版,2014(3):342-346.
[15]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012(2):8-13.
[16]顾荣,王芳芳,袁春风,等.YARM:基于MapReduce的高效可扩展的语义推理引擎[J].计算机学报,2015(1):74-85.
E-Commerce competitor mining based on RDF triples
REN Xiu-chun
(College of Management,Bohai University,Jinzhou 121013,China)
The scale of e-commerce data on Internet has expanded day by day since consumers do business through websites more and more.Businesses on the Internet and its competitors want to know the information to adjust business strategy.Proposed to detect a competing business use of Taobao.com to deal with scalability using semantic and structural features RDF triples,MapReduce was used as a tool to deal with the scalability.The experiment show that the effectiveness of e-commerce competitors based on RDF data mining.
e-commerce;RDF triples;data mining;MapReduce
TN911
A
1674-6236(2017)10-0018-04
2016-08-11稿件编号:201608079
国家自然科学基金(71502017)
任秀春(1963—),女,辽宁葫芦岛人,硕士,副教授。研究方向:电子商务技术。