个性化搜索引擎中关键词推荐专利技术综述

2017-03-16 09:49李欢
科技创新与应用 2017年5期

摘 要:随着互联网数据量的不断增加,个性化搜索引擎也得到了快速发展。其中关键词推荐技术用于找出与初始关键词相关的其他关键词,帮助用户快速准确地搜索目标,被广泛用于搜索引擎系统中。文章基于专利文献对关键词推荐技术专利的年度申请量、申请区域分布和重要申请人分布分别进行了统计分析。同时,对关键词推荐技术进行了分类,并以若干典型的相关专利为主线,对关键词推荐技术的发展历程进行了回顾。对其他相关人员了解该项技术的脉络以及今后的专利审查具有一定的指导意义。

关键词:搜索引擎;关键词推荐;个性化;专利分析

引言

随着互联网的普及,搜索引擎已经成为人们获取信息的主要手段之一。搜索引擎采用的主要交互方式为用户自主输入关键词,检索系统根据输入的关键词提供检索结果。然而,由于用户输入的关键词通常较短,且可能存在歧义、意图模糊等情况,使其不能精确地表达其搜索意图。为了帮助用户更好地构造关键词,通常搜索引擎会使用个性化关键词推荐技术。其通过分析文档结构、用户浏览行为及用户对文档的评价等信息,建立用户的兴趣模型,推荐出用户实际所需的关键词,提高搜索准确性,改善用户智能、便捷的搜索体验。

1 个性化关键词推荐技术概述

早在上世纪90年代,学者就开展了一些关键词推荐相关研究,如今已成为搜索引擎的必备技术之一。个性化关键词推荐根据所依赖的数据源不同大体可分为三类:基于文档词典、基于搜索日志和其他相关技术,如图1所示。

(1)基于文档词典的关键词推荐技术是以当前关键词返回的文档内容为对象,对文档进行概括来提取关键词,并将关键词按类别进行聚类,最后将关键词反馈给用户。该技术不考虑用户的历史记录,根据文档内容之间的相似度来提取用户兴趣,并基于各种词库(如分类词库、同义词库、关联词库、外语词库、纠错词库和分词词库等)来推荐关键词。

(2)基于用户搜索日志的关键词推荐技术是从用户角度出发,以用户搜索日志中的历史记录作为对象,采用聚类技术计算关键词之间的相似度,并返回相关度较高的关键词。该技术通常会从搜索日志中分析用户操作行为,提取用户标识和群体特征。

(3)对于个性化关键词推荐中的其他相关技术,其主要包含了能够使用户更加便捷地使用搜索引擎所采用的一些其它技术。例如,与用户之间进行语音交互、结合用户当前位置信息等手段来提供关键词。

2 个性化关键词推荐相关专利申请分析

本文在CNABS和DWPI数据库中,通过“搜索”、“关键词”、“推荐”及其中英文扩展词汇作为主要关键词,并排除IPC分类号为G06Q的噪声文献,检索得到的2016年5月以前公布的300余篇专利文献作为样本,对全球的专利申请量的趋势、申请区域分布以及重要申请人分布进行分析,从中得到技术发展趋势,以及各阶段专利申请人所属的国家分布和主要申请人分布。其中,以每个同族中最早优先权日期视为该申请的申请日,一系列同族申请视为一件申请。

2.1 国际专利申请量趋势分析

图2给出了个性化关键词推荐技术的全球专利申请趋势,大致可以分为四个时期,各时期划分以申请量增长率的变化为标准。

2.1.1 萌芽阶段(2003年之前)

搜索引擎起源于1990年,经历近10年的发展后,开始向个性化趋势迈进。1998-2003年是个性化搜索引擎中的关键词推荐技术从无到有的萌芽阶段,该阶段申请量极少。具有代表性的申请人是国际商业机器(IBM)公司以及皇家飞利浦(KONINK PHILIPS)电子股份有限公司。

2.1.2 平稳增长阶段(2004年-2007年)

从2004年开始,关于个性化关键词推荐技术的专利每年的申请量明显比2003年之前的申请量多,申请量和申请人的发展总体趋势趋于平稳增长。在此阶段,申请量前三位的国别分布如图3所示。美国申请的专利量占67%,其中,前四位的申请人分别是微软公司、谷歌公司、雅虎公司、IBM公司。另外,韩国和中国分别占25%和5%,这也从侧面说明这个时期内,中国和韩国在搜索引擎所涉及的IT技术领域发展迅猛。

2.1.3 快速增长阶段(2008年-2011年)

在2008年-2011年之间,除了2009年出现了下滑趋势(经济环境背景的影响)以外,该技术的申请量和申请人数量呈现跨越式增长。这是由于在此期间IT产业的迅猛发展,使得企业对于个性化关键词推荐技术的关注度急剧提升,因此出现了申请量的快速增长。在此阶段,申请量占前四位的国别分布如图4所示。可以看出,中国在这一时期内的申请保持着较快的发展,并且申请量超过起步较早的韩国和日本,这与中国在2008年之后各种IT类型企业迅猛发展息息相关。而美国的申请量趋于稳定,技术发展成熟度也较高,保持着绝对的领先地位。

2.1.4 成熟阶段(2012年-至今)

个性化关键词推荐技术的专利申请量从2012年至今呈现出稳步增长的趋势。在此阶段,申请量占前五位的国别分布如图5所示。在这一阶段,中国国内的大型公司充分意识到了知识产权的重要性,申请量超过了美国成为第一。特别是国内如百度、奇虎、腾讯等公司申请的专利在数量和质量上都有明显提升。

2.2 本领域重要申请人分析

本节对本领域重要申请人方面做进一步分析,主要考虑申请人历年的申请总量,按照申请总量进行排名。前16名申请人分布如图6所示。其中GOOG:谷歌(美国);MICT:微软(美国);BAID:百度(中国);YAHO:雅虎(美国);IBMC:国际商业机器公司(美国);QIHU:奇虎(中国);ABAB:阿里巴巴(中国);NHNN:NHN株式会社(韩国);TNCT:腾讯(中国);ETRI:韩国电子通信研究院(韩国);EBAY:电子湾(美国);FUIT:富士通株式会社(日本);INCR:INCRUIT公司(韓国);KING:金山软件(中国);NITE:日本电信电话株式会社(日本);SOGO:搜狗(中国)。

从图6可以看出,在本领域,诸如谷歌、微软、雅虎、IBM等的国际化大公司一直是较为活跃的申请人,这些申请人在申请数量以及质量方面都占据领头羊地位;诸如百度、奇虎、阿里巴巴、腾讯等的国内知名大公司也占据着较重要的席位。

3 个性化关键词推荐相关专利技术发展分析

个性化关键词推荐技术可分为基于文档词典、基于搜索日志和其他相关技术。图7给出了从1998年到2015年,三类技术相关的专利申请量分布。从图7可知,基于文档词典和基于搜索日志的个性化关键词推荐技术为主要技术。

本章将对基于文档词典和基于搜索日志这两类技术的发展路线方面进行分析,给出了每个年度具有代表性的专利技术。

以申请时间为主线,基于文档词典的个性化关键词推荐技术示例性专利如图8所示。

以申请时间为主线,基于搜索日志的个性化关键词推荐技术示例性专利如图9所示。

4 结束语

本文结合国内外专利申请的状况,对个性化搜索引擎中关键词推荐专利技术进行了较为全面的分析和研究,并对其发展历程进行了回顾。从以上分析可知,我国关键词推荐技术虽然起步较晚,但近十几年发展很快,也涌现出一批具有竞争力的大企业。另外,目前基于文档词典和搜索日志的关键词推荐技术已经发展成熟,且应用广泛。今后的关键词推荐技术应该会向混合推荐方向发展,充分发挥每种推荐方法的优势,提高推荐的效率。

参考文献

[1]张博,周瑞瑞,鱼冰.协同过滤推荐算法专利综述[J].河南科技,2015(10):3-5.

[2]王莹,罗坤,姜磊,等.基于内容的图像检索技术的专利技术综述[J].电视技术,2013,37(2):62-65.

[3]李亚楠,王斌,李锦涛.搜索引擎查询推荐技术综述[J].中文信息学报,2010,24(6):75-84.

[4]王芬,王辞,熊晶.基于协同过滤的个性化推荐专利技术研究[J].科技展望,2016,26(29):266-267.

作者简介:李欢(1989-),女,汉族,湖南娄底人,硕士研究生,国家知识产权局专利局专利审查协作江苏中心,研究实习员,研究方向:信息检索、图像处理方面专利审查工作。