黄志成
中国电子科技集团公司第十研究所 四川 成都 610036
电子商务的发展带动了整个智能信息的发展,而个性化智能推荐服务的诞生目的是为了更好地服务用户,精准的捕捉用户的消费习惯。所以从本质上来看,个性化智能服务系统是从电子商务中脱胎出来的。而我们主要参考的WWW信息检索服务,就是在原始的个性化智能服务基础之上诞生的,其理念相同,因而可以在基础之上完成延续[1]。我们主要分析的WEB挖掘的个性化智能服务也由此产生,其主要内容共分为两个部分,一是信息内容为基础方法,二是用户访问行为为基础的方法。通过目前现有的研究,我们已经可以通过用户的访问路径和相应访问规则来进行智能化的预测,通过提取用户的访问习惯和访问途径,分析出相关的访问模式,最终利用市场决策和智能推荐服务系统,精准的预测客户的下一步访问行为。目前在互联网领域,该个性化智能推荐服务已经得到了十分广泛的应用和实践,取得的成果十分的卓然。而我们当前探讨的问题主要是利用该服务系统解决用户的信息过量以及信息资源方向缺失这两个问题。
在WEB访问挖掘基础之上建设的个性化智能推荐服务一共分为两个部分,分别是离线部分和在线部分[2]。利息部分的主要任务由数据准备和特定的挖掘任务组成,以此来弥补网络连接的问题。离线的数据会通过服务器的访问文件以及访问站点的相关信息生成特定的文件,有用户文件和事务文件这两种类型,而用户的特性访问挖掘则分为了关联规则的发现以及URL聚类的生成。以此来综合生成完整的用户访问规则。在线操作访问机制要细致和更为多样化。首先是用户在在线访问的过程中会出现频繁的动态,这些动态作为指引会为用户推荐相关联的系统服务并完成进一步的操作。在线部分的访问挖掘主要有个性化智能推荐服务Agent和WEB服务器组成,实际上在线服务端口比离线端口更为重要,在线访问可以逐步跟踪用户的访问操作,根据相关访问内容进行个性化智能服务。而个性化智能服务Agent可以通过分析在线用户的访问操作以及操作路径来确认相关的访问模式,直接确定下属的URL聚类类别,进而生成URL集合便会十分的顺利,并且最终生成的URL集合能够作为操作访问的候选集合完成操作[3]。这无疑是更加符合个性化智能服务体系的一种操作模式。在整个的操作过程中我们将WEB的主题服务内容分为了五个部分:①优先收集WEB相应对象以及页面;②通过收集内容对操作对象的主体进行识别,例如用户识别和路径识别;③对主体和对象进行分类,按照主体发展模式展开追踪;④在对象和主体之间完成两者的匹配e.最后根据主体和对象的匹配解决完成对个性化服务候选集的确定。总的来说,WEB的访问挖掘个性化智能推荐服务,是在追求用户的访问规则,并在这一规则基础之上完成的一种访问行为。其内涵也就是预测行为,根据一定路径来预测用户的访问习惯以及下一步可能会出现的访问行为,并以此作为发展对象来延伸对用户的个性化智能推荐服务。
离线准备阶段需要考虑到数据的参与和处理情况,在离线情况下,用户访问的log文件并不是实时的,因而存在很多的噪声数据,我们需要在这些数据中找到必要部分,提前对log数据进行预处理,方可进行下一步的关联规则挖掘。预处理主要是清理不必要数据,一共分为数据精化,数据过滤和数据事物识别这三个部分。在所有的个性化智能推荐服务中,不论是离线状态还是在线状态都需要进行这一步的清理工作。完成预处理任务之后,生成的用户事物文件才具备基本 的可用性。而在过滤log文件的过程中我们也需要注意,尽量过滤到大部分的无关项目和文件,必要时候可以分析丢失的访问记录进而得到更为全面的文件系统[4]。而所谓的无关项就是从根本上并不参与到个性化智能推荐服务中的一些项目,WEB访问挖掘分析并不会因为这部分软件而产生过多的影响。具体的预处理内容具有选择性,无法一概而论,本文只论述基本的预处理方法,对处理目标不做过多深入的研究。
本研究主要讨论的关联规则的个性化智能推荐服务,主要针对的结构的站点组织结构,因此根据这部分结构的独特性,我们需选择最为合适的路径来进行数据模拟。本研究选取了最大前向访问路径辅助-内容事务,作为对用户相关访问内容和事物的独特访问路径进行选择。首先根据这部分路径的选择,我们需首先完成相关基础定义的介绍。在该条访问路径的设计中,我们将用户看作是一个具体的点或者是符号,该符号作为用户访问操作的集合,所有的访问记录均可以形成一定的辐射向外扩散。在用户使用一定IP地址和ID号进行页面访问时,可对访问时间和访问内容完成记忆。而通常情况下,用户在没有ID号的前提下进行登录,那么可随机为用户匹配相关的ID号,这可作为具有标志性的另一个符号被囊括到用户的使用范围内,也可算作是用户访问操作的集合内容之一。
以上为本路径选择的基础性定义。与离线预处理不同,在执行用户在线推荐服务的过程中,需要对用户的操作序列以及访问模式进行匹配和计算,此时我们使用到的最大前向访问路径辅助-内容事务便能够从不同链接中寻找到具体的访问序列。每个用户事务都是用户在网页操作过程中的Web页的序列,从用户访问第一个Web开始到最后返回Web结束,所有前向访问的Web页都被算在了当前请求页当中,而不属于已访问过的Web页,这样一来,事务的开始结束和划分变得非常的清晰。只要用户点进新的访问链接,就可以算作是新的事务的开始,以此来整体衡量用户访问过的Web页,但是并不考虑用户访问的长度,虽然这样一来可能会造成精准度的误差,但是访问路径事务的形式能够清晰的呈现当前用户的访问习惯,并完成后续的个性化智能服务。
推荐集是我们本研究主要为大家介绍的内容,因为推荐集的生成较为直接,离线状态下,通过用户的频繁访问规则和访问模式就能够得到基本的访问线路,而预处理又能够最大程度上筛选出用户事务,将一部分不属于规则推荐服务内的文件筛除,利用最小支持度完成筛选任务。而那些更大支持项目和频繁用户事务集合就能够较为准确的被聚拢,进而形成聚集树。在关联规则挖掘个性化智能推荐服务的支持之下,聚集树首先会发现相匹配的用户,并对用户的访问路径进行规划,从而形成一定的访问关联规则。推荐度的大小决定了规则的限制范围,而推荐度因子的大小则决定了推荐项,最终为用户呈现的个性化智能推荐服务目标就是根据推荐度因子的大小形成的,因此,并不是所有的推荐度都在最大个性化推荐服务之内,聚集树会根据相关数据访问的规则进行限定。而推荐因子的诞生,则是由关联规则的置信度乘以距离因子得出的。
所有推荐服务的设定最终都将落实在在线推荐这一最大目的之上,因此,能够随时跟踪用户的访问操作习惯并且有效地将用户的访问操作内容进行记录才是最重要的。我们当前采用了滑窗采样的方法来对用户的操作访问路径进行跟踪和获取,在此我们假设用户的滑窗大小为A,那么其关联的规则集就会在原定的滑窗大小之上呈现A+1的姿态,针对当前滑窗长度为A的用户访问操作路径去匹配相应的聚集树上的子访问路径,所有获取的最终结果,都将以A+1的频繁子访问路径的方式进行呈现[5]。以关联规则为基础的个性化智能推荐服务是对接用户智能接口个性化智能信息检索主动服务的最佳选择,并且非常的适合Web服务器站点的个性化自适应服务。本研究中已经对部分关联规则为基础的个性化智能推荐服务进行了介绍,我们可以初步的了解该智能推荐服务的核心内容和侧重点,其可行性和实践性能佳,且具备一定的优化潜力,因此其算法和实际应用均能够满足当前推荐服务的需求。
通过本次研究,我们粗浅的了解了基于关联规则挖掘的个性化智能推荐服务的相关内容,明确了个性化智能推荐服务的基本形成原理和形成方法,并对其中的几点问题做出了详细的解释,第一点问题是关于滑窗大小的选择问题。在滑窗选择的过程中我们首先需要利用支持度和置信度的门限对其进行限制,但是这一门限并不适合设置的太高,因为滑窗的大小需要有更加充分的候选项作为保证。第二是生成集的相关影响,通过部分实践研究成果我们可以发现,用户进入的方式不同,生成集并不能仅围绕着一个范围进行测算,因而用户行为对生成集来说会造成较大的影响。而伴随着推荐程度的加深,推荐集会越变越小,这是因为根据用户行为进行生成已经没有了太大的发展空间,因此其最终推荐集甚至可能会出现空集。针对这一现象,可以通过调整置信度门限的方式来缓解。我们将个性化智能推荐服务集中到了对用户感兴趣的主题进行定位上,实际上这是一种信息获取习惯或者是网络信息服务习惯的一种获取,而通常情况下,伴随着智能推荐服务系统的深入,对于用户感兴趣问题的捕捉能力会减弱。因为长时间同等模式下的信息录入会造成大量信息的重叠,对于这一情况,我们只能依靠重新建立推荐集的模式来生成全新的信息项。
在本研究中,我们主要探讨了基于关联规则挖掘的个性化智能推荐服务方法,在推荐方法的建立过程中,我们针对的主要是个性化智能信息的检索问题,最初可行化服务的概念诞生自电子商务,只是伴随着这类服务模式的发展和实用性的扩大,在WWW上实现个性化信息检索的能力也在不断升级,进而我们当前探索的这类个性化信息检索服务,同样拥有着十分现实的应用价值和实践意义。对于WEB访问挖掘个性化智能推荐系统来说是一个全新的尝试,对于用户习惯的摸索未来可能还会有所精进,并且个性化智能推荐服务方法可能会有更大程度的提升,因而我们目前的研究对于未来电子商务部分项目的发展规划仍然具备一定的前瞻性和实用性。