基于数据挖掘的商品推荐方法专利申请现状研究

2019-06-12 06:13:50李小敏
科技视界 2019年9期
关键词:专利申请数据挖掘专利

李小敏

(国家知识产权局专利局专利审查协作四川中心,四川 成都 610213)

本文主要对基于数据挖掘技术的商品推荐技术做一个梳理, 比较三类商品推荐技术的特点, 对各种方法的技术发展路线进行整理。 在专利数据库对几种商品推荐方法在国内外的专利申请数量和时间分布进行一定的分析, 研究技术发展动向, 分析该领域的重点数据挖掘算法, 以及各个算法在具体专利申请技术方案中的运用。

1 技术发展路线

基于数据挖掘的商品推荐技术发展依托于数据挖掘技术的发展, 早期的数据挖掘技术在应用到商品推荐的电子商务领域之后, 取得了丰硕的商业成果。 在近年来,又结合云计算、大数据等新的技术,展开了新的探索。 基于上述技术原理的学习和专利文献以及非专利文献的检索, 对数据挖掘技术在商品推荐领域的发展进行分析和梳理,作出以下发展路线的归纳:

图1 基于数据挖掘的商品推荐方法技术演进路线

2 领域专利分析

为了进一步分析基于数据挖掘方法的商品推荐技术领域的专利申请情况, 在本节中基于关键词和分类号等检索方法在专利库DWPI 对中外专利申请情况进行检索,得到以下统计结果。 图2 给出了自1998 年以来中国和全球每年的该领域专利申请数量

图2 领域历年专利申请量

从上图可以看出, 关于商品推荐的技术特别是早期的算法理论起步较早, 但由于电商的发展和起步,基于数据挖掘的商品推荐在2000 年以前处于起步阶段,而国内由于起步较晚,06 年以前仍处于起步阶段;进入2005 年以后, 由于电子商务技术的飞速发展,带动了商品推荐领域技术的不断进步, 该领域的专利申请量不断提升, 在2013 年前后达到顶峰, 在08 年以后, 国内的电商得到了快速的发展, 由于具有后发优势,整个行业发展迅速,专利的申请量也急剧增长。

图3 全球各个国家申请量所占比例

图3 展示了作为技术原创国申请专利数量占全球专利数量的份额比例, 从上图分布可以看出, 作为最早的技术起源地, 美国的专利申请数量达到了一半以上; 由于近年来电子商务技术在国内的蓬勃发展,中国内地的专利申请数量紧随其后, 占据了较大份额;此外, 日本、 韩国等国家在该领域的专利申请量也较高。

图4 领域重要申请人申请专利数量

图4 给出了领域重要申请人的申请数量,其中IBM作为最早研究关联规则等数据挖掘方法的商业巨头,在领域的申请数量较大, 此外, 亚马逊也是对基于数据挖掘的商品推荐应用较广且较早的商业公司, 其申请量也较高,也正印证了其发布的数据显示“2010 年前后, 由于数据挖掘技术的作用, 使得亚马逊公司的收益提升了30%”。 在国内的申请人中,阿里巴巴和京东由于其商业平台的巨大成功, 在数据挖掘领域也投入了较大的精力,其申请量在国内居于首位。

3 重要专利申请分析

3.1 基于协同过滤的推荐方法

协同过滤的方法与传统的基于内容过滤直接分析内容进行推荐不同, 协同过滤分析用户兴趣, 在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价, 形成系统对该指定用户对此信息的喜好程度预测。

索 尼 公 司 于 2005 年 提 出 的 PCT 专 利 申 请WO2006037139 针对一般协同过滤方法的冷开始问题和推荐主要集中在部分内容的问题, 提出了一种基于协同过滤的推荐方法。 其中, 首先对待处理的对象进行一个聚类预处理, 使用分层聚类的方法, 对每个层次设置一个每个集群层和集群层中每个集群的特征的关键词;以及聚类DB,用于保持乐曲的聚类结果。 尽管对于聚类可以使用任何方法, 但是为每个集群层选择最佳聚类方法和距离测量。 接下来定义欧几里德距离等距离测量,然后进行聚类。

3.2 基于关联规则的推荐方法

基于关联规则的数据挖掘方法最早由IBM 的团队研究应用, 关联规则最重要的就是发现共现关系 (挖掘 频 繁 项 目 集), 经 典 算 法 有 Apriori 算 法、FP -GROWTH 算法。

IBM 公司于1997 年提出的国际申请PCT/GB98/02928 是一种早期的基于在线的关联规则挖掘的方法。 和通常的关联规则挖掘算法一样, 该方法也是分为两个阶段:预处理阶段,以生成频繁项目集;在线规则生成阶段, 根据预处理阶段获取的规则数据, 生成树形规则结构。 该方法同样根据对大量数据设定多个定量和分类项目,用于提供定量相关规则。

3.3 基于内容的推荐方法

基 于 内 容 的 推 荐 算 法 Content -based Recommendations (CB),根据物品或内容的元数据,发现物品或内容的相关性, 然后基于用户以前的喜好记录推荐给用户相似的物品。

阿里巴巴2010 年的专利(CN102479366A)公开了一种商品推荐方法, 该方法通过获取用户的行为数据,即用户的点击、 搜索等行为记录来分析用户可能关心的商品的种类和标签。 在此基础之上, 对商品进行分析确定类别,以确定要向用户推荐的商品。

4 总结

三种方法都有不同的特点: 关联规则挖掘方法易于发现较为隐秘的间接关系, 但对于不常见的低频数据不能有效的进行推荐; 基于内容的推荐方法开始的时候对其他用户的数据具有较小的依赖性, 但需要其本身结构具有较好的结构性; 基于协同过滤的方法能够处理较为复杂的内容, 但在用户的评价较为稀疏时,表现较差,依赖于用户对商品的评价。 由于各有优缺点, 因此, 在许多商品推荐的具体应用场景中并不只是使用单一的一种方法, 同时, 几种方法之间也并没有绝对的界限, 许多基于以上三种基本推荐方法的改进方法也都结合了多种商品推荐方法来进行数据挖掘和商品推荐的。

猜你喜欢
专利申请数据挖掘专利
专利
水运工程(2022年7期)2022-07-29 08:37:38
探讨人工智能与数据挖掘发展趋势
发明与专利
传感器世界(2019年4期)2019-06-26 09:58:44
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
专利申请审批流程图
河南科技(2016年8期)2016-09-03 08:08:22
专利申请三步曲
发明与创新(2016年5期)2016-08-21 13:42:50
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
专利
国外专利申请如何尽快被授权
发明与创新(2013年1期)2013-03-11 15:53:28