基于中小型B2C网站的简单Web挖掘的需求分析研究

2009-09-18 09:50刘秀芹
新媒体研究 2009年11期
关键词:分类器关键字类别

刘秀芹

[摘要]用户访问过的文档和使用过的关键字包含用户感兴趣的信息,对这些文档进行提取、汇总可以分析预测用户真正的需求。提出一套适合中小型B2C网站的简单模型,设计数据存储结构和挖掘方法。

[关键词]Web挖掘关键字市场需求

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0510054-01

电子商务网站作为一种新兴的商务交易模式,以其成本低廉、快捷、不受时空限制等优点而受到企业的青睐。但从国内目前的发展情况看,由于资金等多方面的原因,许多中小型B2c站点还停留在简单的形象展示和单一的商品销售上,并没有过多地考虑网站点击流、用户需求变化、商业智能等方面的内容。如何有效地分析用户需求,从而调整网站布局和结构,以帮助用户从站点的大量信息中快速发现他们感兴趣的内容?以及如何帮助企业从网站的访客行为中去发现了解客户需求的变化,从而有的放矢地提供客户所需要的服务和商品,这是目前中小型B2C网站需要面临的一个重要课题,也是本文的主要研究目标。

一、数据来源

用户访问过的文档和使用过的关键字包含用户感兴趣的信息,对这些文档进行提取、汇总可以分析预测用户真正的需求。获取用户需求相关数据的方法有很多种,其中隐式反馈的方法比较适合电子商务网站,因为它能够自适应用户兴趣的变化,而且不要求用户输入任何信息,而是通过分析用户访问过的文档和用户的访问痕迹,抽取出用户感兴趣的领域、以及需求的转移。其中隐式反馈的来源有两部分:一是用户的访问路径,二是用户使用过程中留下的关键字。已经有很多文献就用户访问路径进行了多方面的数据挖掘研究,所以,本文只研究用户使用过程中留下的关键字,从这里面找出隐含的市场需求的状况,进行数据挖掘的需求分析研究。用户使用过程中留下的关键字是用户消费现场第一手资料,没有经过人为的二次加工。用它来进行分析比较贴近实际情况,误差会较小;而且相对而言,技术简单,比较适合中小型B2C网站。

二、存储结构设计

其中重点工作是设计数据的存储结构,包括以下核心结构表:

(一)分类器。为了更好地定位用户的需求类别,缩小范围,提高精度,特定义分类器。可以利用原有的分类信息,构造分类器。分类器就是指产品的分类信息。而分类信息中有一级分类和二级分类,以及三级分类。在数据库部分,分类器相应的存储在一个数据表中。每次的搜索信息都要判断所属的类别,所以在该表中设计了特征词表字段。分类器是动态的,是随着市场和产品不断变化的,类别和特征词表也是变化的。

(二)关键信息表。用户使用的关键字是最关键的信息,也是我们必须要存储的。所有的关键字都罗列在一起,就会增加数据分析的难度,甚至失去了它的价值,所以用户在搜索的时候所提供的类别也是必须要存储的信息。另外为了进一步进行深入的数据挖掘,要对用户的身份或类型进行存储或标识。用户在不同时期需求会有相应的变化,所以还需存储时间标记。

(三)事实表。在搜索时用户没有提供明确的类别信息,我们需要确定用户需求的类别。这一部分我们可以借助于网站推荐系统的相关理论和方法。在网站推荐系统中有一个事实表。事实表记录着用户每次访问网站的行为记录,即哪位用户在什么时候访问了哪个页面,在该页面上停留了多长时间。

(四)用户信息表。为了基于不同客户群体进行挖掘,可引入原有的用户信息表。

三、挖掘方法设计

(一)类别判断。这里的类别判断指的是关键字所属类别的判断。已知用户的需求类别,不用进行特殊处理;用户需求类别未知,有两种情况存在:1,没有用户所需要的信息,说明没有该关键字下的相关信息,这时我们将相近的关键字推荐给用户,由用户判断,是不是使用其他的关键字替代;2,跟踪用户在相关搜索结果上的下一步操作,根据用户在搜索结果中的浏览项目上的停留时间,结合一定的算法,进而判断结果中的哪一项是用户的需求类别。

(二)类内统计。一条信息反映某个用户的一个需求,大量信息反映市场的整体需求。而我们所做的工作也就是将这些杂乱无章的数据进行整理、过滤和统计,以及进一步的分析,使其变成一定的有用信息。这些信息才是分析者和决策者所需要的,才能够成为支持他们对市场或形式充分了解的依据。这里我们主要使用统计分析的方法,来多角度的分析和反映问题,为分析和决策提供数据支持。

(三)子类内分析。在分类器中,有子类和父类之分,在分类器表中用所在层字段和父类ID来标识。除了类内统计以外,我们还可以更进一步在子类上做分析,更进一步了解用户的需求,更精确的定位分析用户的需求状况,以及细分市场的需求状况。

(四)孤立点分析。如果用户选择模糊分类:“其他”,或者“全部”,往往这样的搜索信息反映的是用户的新的需求。也要对这种信息进行统计处理,把一些异常情况及时报告给系统管理员,或者市场分析人员,好让他们结合实际情况和分析,借助于这些系统提示信息,作出进一步的处理。

(五)具体挖掘流程。重点采用统计分析方法进行挖掘。处理流程如下:首先,数据的获取。基于关键字的数据挖掘的信息源的获取渠道可以从服务器端、客户端等几方面进行。其次,数据预处理。得到原始数据后,经过类别判断处理之后得到整齐的数据。再次,选择挖掘方式,可以是类内统计、子类内统计或孤立点分析。最后,根据挖掘结果进行分析。

(六)对不同的客户群体做进一步的挖掘分析。这其中牵涉到客户关系管理的相关内容。客户关系管理中的重要问题是,如何基于对客户的了解来为客户提供真正需要的产品以及优质的服务。通过对网站客户群的分类,找出各个客户群体中客户的共同特征,以便开展有针对性的营销活动。可以采用简单的分类分析,具体做法是将用户信息表和关键信息表联合起来,将用户按不同的标准进行分组,在组内进行关键信息的统计分析,再进一步分析不同组之间差异性,以及组内的整体需求情况。挖掘的目标是了解不同客户群体的浏览行为,知道不同客户群体的兴趣以及需要所在,动态调整Web页面,以更好地满足客户需求。

四、总结

本文针对当前所普遍存在的问题现状,提出了一个适合很多中小型商务网站的简单模型,该模型能存储和搜索用户的相关访问信息,并进一步为企业下一步的营销提供很好的分析和指导。该模型具有简单、可操作性强、技术要求低的特点,能为广大的中小型B2C网站提供参考和支持。

猜你喜欢
分类器关键字类别
学贯中西(6):阐述ML分类器的工作流程
一起去图书馆吧
成功避开“关键字”
简析基于概率预测的网络数学模型建构
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
基于支持向量机的蛋白质交互界面热点的预测的研究与改进
选相纸 打照片
智能垃圾箱
从搜索量看关键字效果 区别竞价花钱值