吴燕 钟永美 韩飞
摘 要 本文分析了基于数据挖掘的推荐引擎系统研究现状,以及这种大数据库中的数据挖掘的推荐引擎带来的效果并分析其拥有的优势与劣势,并得出结论。
关键词 数据挖掘 推荐引擎系统 数据分析
一、基于数据挖掘的推荐引擎系统的现状
(一)推荐引擎系统的现状
我们处于一个信息密集的时代,如果只是依靠简单的计算与处理,需要花费大量的人力和时间,无法从海量信息中选择对自己有用的信息。所以为了能够在海量信息中提供符合用户需要、感兴趣的信息便产生了推荐引擎系统。相对于普通搜索引擎系统,推荐引擎系统更加贴近用户需求。
这项技术贴近人们生活的应该是购物平台和一些讯息推送平台,如淘宝、天猫、京东等,它们的购物首页推送的物品往往是用戶刚刚搜索过的或者是搜索数量最多的,这些推送无疑会吸引用户的注意力,从而增加销售量。这些平台的高明之处是通过传输数据使其他平台也会出现为用户量身定做的产品信息,使用户随时随地都可以看见与产品的有关信息。
而一些讯息推送平台如今日头条,向用户推送的新闻往往也是用户比较感兴趣的。这是后台通过显性信息和隐性信息综合推算以此增加与用户贴合性较高的推送量的结果。显性信息是通过用户填写个人信息,对于文章的收藏、订阅、留言等,以及手机问卷调查和用户体验形式收集数据;隐形信息是用户搜索的内容、搜索的次数、点击率、浏览时间的长短等。
(二)数据挖掘的现状
数据库与信息技术从20世纪60年代开始,从原始的文件走向复杂化,到80年代产生了数据挖掘的概念。经过几十年的发展,这项技术不断完善和升级,数据挖掘是面向对象方法、数据库技术、人工智能、高性能计算、信息检索等多个技术领域相交的一门学科。
数据挖掘技术广泛运用于各个领域,尤其是运用于发达国家金融行业预测银行客户的需求以及一些大型网站如亚马逊、沃尔玛等。我国的数据挖掘技术并不像西方那么发达,正处于起步阶段,普及这门技术任重而道远。
二、对运用数据挖掘的推荐引擎系统特性的研究
(一)此类推荐引擎系统共同具有的特性
基于前文的分析,可得出此类推荐引擎系统共同具有的特性如下:
数据收集与分析产生的差异性是数据挖掘技术的特点,不同的用户之间存在的个体差异导致个人信息的差异化,包括但不限于兴趣爱好、年龄、收入阶层、职业等。这些差异决定了用户对信息的感兴趣程度不同,因此差异性是其首要特征。
个性化是此类推荐引擎系统具有的鲜明的特性,也是运用数据挖掘技术进行信息推荐的必然结果。此类推荐引擎系统的运行原理主要是通过收集用户的主动表达和个人信息,基于此推荐信息,将用户的反馈作为参考,为用户推荐个性化的信息。在当前时代背景下,这类推荐引擎系统的优势在于能够帮助用户便捷地获取自己需要的和感兴趣的信息。
(二)此类推荐引擎系统面临的挑战
虽然基于数据挖掘的推荐引擎系统的运用日渐广泛,但作为大数据时代诞生的一项技术,其必然还存在一些问题。经过分析,发现此类推荐引擎系统目前面临如下挑战:
推荐信息的精准度还存在不足,这是比较突出的一个问题。由于数据挖掘需要大量的用户数据作为基础,就很容易形成在用户刚开始使用时,由于信息不够完善,反馈不够多,推荐的信息精确度较低的问题,这可能使用户对系统的推荐功能失去信心。另外,用户的兴趣具有广泛性,在收集用户信息时集中于一两点,可能忽略了其他兴趣点,后续如果没有补充完善,就可能造成信息整体准确度比较低。
如何在精确度和广泛性之间取得平衡是一个必须思考的问题。同一时间段,用户的喜好是相对固定的,但如果一味推送固定的内容,则容易让人产生审美疲劳,这会使用户失去兴趣。而推荐新的信息,则意味着需要承担推荐的精确度下降的风险。如何在二者之间取得平衡,也是此类推荐引擎系统目前面临的挑战。
还有一个客观存在的问题是如何防止恶意信息对正常数据的影响,即如何保持数据的纯洁性。当前营销手段多种多样,出于利益的驱动,难免存在恶意破坏数据的行为,如给某一部电影或商品刷差评或恶意举报等。如何抵御这些异常数据也是下一步需要优化的问题。
三、结语
随着信息时代的到来,基于数据挖掘的推荐引擎系统应运而生。通过分析基于数据挖掘的推荐引擎系统的现状,我们可知,此类推荐引擎系统具有差异性和个性化两个特点。同时,其面临着一系列的挑战。要确保推荐信息的准确度和数据的纯洁性,需要相关的研发团队及编程人员收集更加精细化的数据,并深入分析数据。如何在精确度和广泛性之间找到平衡点,仍需继续探索。总之,在当前环境下,基于数据挖掘的推荐引擎系统正面临前所未有的机遇和挑战。希望本文的分析能为其发展提供一些参考价值。
(作者单位为广东东软学院)
[作者简介:吴燕(1996—),女,广东东软学院商务管理系财务管理专业本科生。钟永美(1996—),女,广东东软学院商务管理系财务管理专业本科生。韩飞(1969—),男,博士,广东东软学院副研究员,研究方向:金融学。基金项目:本文系广东省教育厅(粤教高函[2017]56号)2017年省级大学生创新创业训练计划立项项目“自动阅读机”(项目编号:2017-12574-006)资助。]
参考文献
[1] 范明.数据挖掘概念与技术[M].机械工业出版社,2006.
[2] 卢亮.搜索引擎原理、时间与应用[M].电子工业出版社,2007.
[3] 廖贵明.个性化推荐引擎系统研究[D].电子科技大学,2013.