基于用户兴趣感知挖掘的个性化服务推送研究

2013-06-12 09:50:52内蒙古工业大学图书馆呼和浩特010051
图书馆理论与实践 2013年4期
关键词:本体页面文档

王 福(内蒙古工业大学 图书馆,呼和浩特 010051)

1 问题提出

调查显示,自2004年以来,Internet上的PIW(Publicity Indexable Web)页面数已达到了1010数量级,每天新增页面的数量超过800万,Web已成为人们获取信息的重要手段。用户的网络访问数据蕴涵着用户兴趣模式,使得基于网络学习者的兴趣、个性特征的挖掘和对应的学习策略的生成及推送成为研究热点。本文主要研究构建网络学习者模型,依据学习者个性挖掘机理,并以此为基础提出网络学习者的信息推送服务系统框架。[1]

2 研究现状

用户兴趣感知构建的有显性方式和隐性方式两种。显性方式是通过用户的注册信息,包括用户的职业、研究方向、从事专业、感兴趣领域等方面进行构建。由于注册时这些信息已经固定,一旦用户研究方向发生迁移则原感知和构建的信息过时,除非系统提供改变这些信息的功能并且用户随时通过系统设置来及时改变,所以这种构建方式是静态的,需要用户不断参与。隐性方式则是可以随用户兴趣的迁移动态更新用户兴趣模型,通过系统后台记录和累积用户行为,根据用户的行为偏好挖掘用户兴趣,随时删除用户感知兴趣模型中低度特征项,该方式动态实现构建,实时检测用户兴趣的迁移,不需要用户的直接参与。

在实际应用中根据项目的实际,结合上述两种方式的优点完成对用户行为模式进行挖掘,对网站学习优化、用户兴趣变化动态感知、学习内容的自适应导航等应用提供必要的支持。个性化信息服务推送就是通过前面建立的用户兴趣模型,运用PUSH技术为用户主动推送信息,而不需要用户实时请求,克服了以前用户PULL模式的缺点。

3 用户个性挖掘

通过对学习者访问行为及其Web日志分析,不但可以挖掘出用户行为与个性兴趣间的关联关系,并以此捕获用户个性特征,还可以获取学习者的兴趣及迁移趋势。用户行为与用户兴趣是个性化服务系统为用户定制的个性化学习策略与推荐个性化学习资源的依据。用户兴趣感知挖掘是个性化信息服务推送的前提,用户曾浏览Web页面的内容及次数、用户访问页面的Log都可以作为用户兴趣挖掘的主要途径,具体挖掘的流程如图1所示。[2]

图1 用户兴趣感知挖掘流程

3.1 Web页面内容挖掘

Web内容挖掘(Web Contenet Mining)是指从Web页面及其描述信息中获取潜在的、有价值的知识或模式的过程,它是Web数据挖掘的一个重要研究领域,在搜索引擎、知识服务、网络教育等领域有着极其广泛的应用前景。Web页面内容挖掘主要对象是页面文本文档,它是针对HTML文档的结构化与半结构化文本挖掘。

目前Web页面内容挖掘基本上采用Web页面文本内容、文字格式、文档结构、页面布局和链接结构中的一种或若干种对页面的标示。Breuel考虑了HTML文档的结构,提出将HTML文档分析成一棵HTML标签树,然后从树中提取相关的信息。对获得的信息运用一定的数据清洗算法进行“数据清洗”,通过清洗可以剔除与主题信息无关的信息,如:飘动或悬停的广告信息,以及位于页面下方的版权信息和一些导航链接等,从而准确获取Web文本的关键词,并通过权重的设置进行深度揭示,即可实现基于页面内容的用户兴趣感知挖掘。[3]

3.1.1 噪声信息清洗

HTML文档是一种半结构化文档,可以通过标签分析工具DOM 接口读取。DOM(Document Object Model)即文档的对象模型,它是W3C制定的一种标准,通过DOM页面的标签树,构造工具按照HTML语法构造文档树,文档树是按照Web页面中标签嵌套关系构造而成,可以理解成标签树的叶子节点为基本元素的“图像”、“文字”、“音频”、“视频”等,而标签树的根节点为页面内的标签。在上述构造的标签树中反复多次出现的极有可能是噪声,可以通过工具裁剪掉这些信息从而进化网页,如:网页中的换行符、空白、无用的链接等信息。

3.1.2 信息抽取与揭示

目前国内信息抽取系统有“中科天玑(Golaxy)”,国外系统有“GATE”。不同系统的遍历标签树的策略不同,有广度优先策略、深度优先策略和聚焦搜索(最佳优化)策略。通过这些策略,可以有效获取页面关键词,进而结构化文本内容,即:运用一定的权重为提取的关键词加权。目前从应用和研究的现状来说,表示用户兴趣感知的方法如下。

(1)TF·IDF权值表示法。TF·IDF是在文本处理领域使用最广泛的权值表示方法,它基于两个观点:特征在文档中出现次数越多越重要、特征在越多的文本中出现越不重要。TF·IDF权值一般有两项,其中TF项反映了第一个观点,IDF项反应了第二个观点,该算法的表达式为:

Wij=TFij×IDFj=TFij×log(N/Nj)(其中,i,j=1,2,3……n)

表达式中Wij代表Tj特征在Di文档中出现的次数,IDFj代表出现特征Tj的文档的倒数。N代表文档总数,Nj代表特征项Tj出现的文档数,TFij表示特征Tj在文档Di中出现的频度。[3]

(2)抽取本体元素法。本体(Ontology)是一个哲学概念,本体库是建立存储和检查用户兴趣的基本特征和属性的数据库,这些特征一般用层次概念树的形式表示,用户的一个兴趣类由树的节点形式来表示。通过本体库来表示用户兴趣的模型可以实现知识的共享和重用,从而实现用户本体兴趣的共享以及用户本体知识交流和共享,也可通过本体推理机制及语义关系来分析处理用户兴趣模型。

随着本体应用的发展,在过去十多年里,已经出现了如:Ontolingua Server、Onto Saurus等许多本体构建工具,借助这些工具,用户还需要了解本体描述语言的细节,就可以方便地输入、编辑本体。同时,这些工具还提供了友好的图形化界面和一致性检查机制。但是,这些工具提供的仅仅是本体编辑功能,仅支持手工构建本体的方式。手工方法费时、费力,使得本体的构建成为一项艰巨的任务,制约了本体的发展和应用。[3]

(3)细兴趣粒度表示法。粒度粗细是按照模型中表示用户兴趣的信息粒度来区分的,粗兴趣粒度用于表示用户模型中的兴趣,细粒度用于用户模型中用户感兴趣的主题或关键词,具体如表1所示。

表1 粗粒度用户兴趣示例

细粒度兴趣是用户粗粒度兴趣的挖掘和划分,用于在用户兴趣特征集中区识别用户兴趣的主题或关键词,如表2所示。

表2 细粒度用户兴趣示例

3.1.3 用户兴趣聚类

要实现不同兴趣用户分组需进行用户兴趣聚类。通过用户兴趣聚类可以把用户划分为若干个类别。同类的用户兴趣差别应该尽可能细微,而不同兴趣用户类的差别应该尽可能大。用户兴趣聚类需要选择与兴趣模型有密切联系的参数和算法,所以相似度量的设计需要结合用户兴趣模型的数据特征,也需要在对不同算法和不同参数选择所得到的不同结果中快速、准确地选出最优结果。同时要建立用户兴趣聚类的评估指标,从而对用户兴趣划分质量给与评估。用户兴趣聚类的过程一般为:使用若干聚类算法,合理设置相关参数,多次运行获得结果。开始时,初始化所有文本使其组成一个单独的簇,通过迭代算法,使相近的簇进行合并,直到组成一个簇或满足预先设定的条件为止。图2为个性聚类过程示意图。

图2 用户个性聚类过程

3.2 挖掘用户日志

用户浏览行为是其兴趣偏好的真实反映。通过用户的操作可以揭示出用户的兴趣,如:收藏网页、访问时间、下载文件、翻页次数、输入的关键词等。以两种主要的操作行为:访问时的停留时间和翻页次数为例,利用二元线性回归模型分析这两种操作与用户兴趣偏好之间的关系,可得到线性回归方程:

Ki=AX1+BX2+C

其中X1表示停留时间,X2表示下载文件,Ki表示用户对当前网页i兴趣度,A、B、C为常数,随着网站的不同而变化。另外,考虑的影响因素如果增加,则可以类推用多元线性回归模型完成用户兴趣度量,回归模型分析可以使用MATLAB或MATHCAD等工具。通过挖掘用户日志可以得到相关数据,针对每一簇用户的兴趣点,建立用户兴趣特征文件,以此为不同簇用户进行信息推送,图3为用户兴趣挖掘的机理图。

图3 用户兴趣挖掘的工作机理

4 用户个性挖掘推送机制

Web访问行为序列模式挖掘包含数据收集、数据预处理、模式发现、模式应用四个主要步骤。行为数据的收集主要是从Web服务器、Web代理服务器和客户端三个级别收集。收集到的原始数据经过数据清洗、用户识别、会话识别、路径补全、事务识别等数据预处理步骤,放到访问序列数据库中;然后对其进行序列模式挖掘,实际推送系统就是挖掘结果的应用,图4即为基于用户兴趣挖掘的框架。

图4 基于用户兴趣挖掘的框架

数据预处理、用户兴趣分析和个性化信息推送是该框架的三个主要部分。首先,无论是静态的网上采集用户注册时提交的基本信息还是系统从后台记录和积累的用户浏览行为都需要进行数据预处理,所以数据预处理是框架的基础。其次,需要对预处理后的数据进行数据清洗和净化,进而归类和存储;然后通过使用多种挖掘方法对数据挖掘,使用多种数据挖掘的方法对数据进行分析。可以利用前面提到的聚类分析找出不同用户想去的相似性聚类成簇,也可以使用或关联规则挖掘高频可能性进而产生关联,也就是说达到了分析用户行为获取用户兴趣的目的。[3-5]通过以上操作后就可以得到用户兴趣视图,以此为依据为用户进行信息推送。

5 基于用户个性挖掘的信息推送

基于用户兴趣挖掘的个性化信息推送服务的流程,简单来说完成下图五层工作。第一层:存储层,在该层中主要存储信息资源和用户兴趣特征信息,这些信息是从网上搜集到的。第二层:数据访问接口,该层主要功能是为用户访问数据提供便利,包括资源访问接口、用于异构数据访问的XML访问接口和有数据口访问接口。第三层:业务逻辑层,该层是负责对网上搜集信息进行分类整理,抽取元素据,个性化区分信息,主要有知识协同构建、索引服务和知识资源服务。第四层:呈现层,指系统采用何种计算机语言和脚本来为用户提供推送服务。第五层:客户层也称用户层,用户直接面对这一层,通过应用程序用户推送的信息在浏览器中显示,也称个性化、多粒度、交互式知识服务界面。通过以上五层实现了信息的个性化推送。个性化服务系统还提供了用户与服务商交流的界面,通过该界面实现用户反馈,如图5所示。

图5 个性化信息推送服务流程图

5.1 个性化信息推送服务的特点

通过Agent机制变以前信息获取的PULL方式为PUSH方式,运用PUSH技术借助用户兴趣信息库把信息资源按照用户兴趣特征有计划、有目的地推送到用户面前。这不仅实现了信息推送的目的性和高效性,而且可以有效地降低网络负载。个性化推送改变了传统信息流方向,减少了网络污染,提高资源的利用率,这正是个性化信息服务推送的核心思想。

基于用户兴趣挖掘的信息推送技术的特点有如下几个方面。

(1)主动性。根据用户兴趣偏好,当有新的信息需要提交或到达时,按照传送信息的类型和重要等级进行推送。它是基于用户兴趣的信息推送技术主动从网络中收集、分类跟踪兴趣的信息,并以E-Mail、手机短信、OPAC系统等各种形式推送到用户前。

(2)针对性。个性化推送系统,通过分析用户兴趣特征,构建个性化检索式进行检索、分析、汇总和推送。目前个性化系统实现了Web2.0技术,通过该技术用户可以定制个性化的浏览界面和检索界面以及设置自己偏好的信息传输方式。

(3)动态性。个性化系统可以感知和捕捉用户兴趣变化和迁移,动态修改用户兴趣特征数据库,不断挖掘用户潜在的兴趣和偏好,提供及时、准确的信息服务,更具人性化。

(4)智能性。用户可以通过控制搜索的深度,系统可以自动过滤掉无用的信息,使得信息推送更具有智能性,提高了信息推送的准确性。

(5)高效性。个性化服务系统克服了用户检索的盲目性、根据用户需求驱动,所以针对性强、效率高。

5.2 个性化信息推送服务的技术

5.2.1 智能代理

智能代理通过计算机程序搜集信息资源、用户兴趣特征。通过用户定义的规则自动搜集用户特征信息,根据这些信息为用户推送信息资源到指定地址。它是架起用户与信息资源之间的桥梁。通过用户行为分析预测用户需求,按照用户兴趣特征检索并过滤污染信息,最后实现信息推送是智能代理要解决的主要问题。

5.2.2 智能搜索引擎技术

智能搜索技术是利用网络机器人(Spider)等搜索软件,按照分类、索引、概念在信息资源库中按主题和关键词搜索,把结果存储到信息资源库中,并对这些信息进行分类、汇总。在此基础上按照用户兴趣特征生成主题词或关键词把用户需要的信息进行推送。该技术需要对信息资源库及时更新,保证用户接收到信息的质量,提高用户满意度。

5.2.3 信息过滤技术

根据用户的信息需求对动态资源流进行过滤就是信息过滤技术,它的原则是把复合或满足用户需求的信息推送给用户,使得信息获取效率提高。基于向量空间模型的信息过滤方法是目前信息过滤比较成熟的方法,该技术可通过在模型中设置权值、词位、词序等限制条件,增强过滤的准确性。信息过滤技术是构建信息推送系统的核心技术,它根据一定的标准将那些不相关的信息单元滤掉,仅保存需要的信息。

[1]林龙.从iGoogle谈个性化信息推送服务[J].科技情报开发与经济,2009(3):115-117.

[2]袁丽芬,等.XML的信息推送服务及实现[J].情报科学,2003(6):619-620,623.

[3]邱均平,等.信息获取与用户服务[M].北京:科学出版社,2010.

[4]易明.基于Web挖掘的个性化信息推荐[M].北京:科学出版社,2010.

[5]尹晓莉.智能推送技术在信息化服务中的应用[J].中华医学科研管理杂志,2010(2):132-134.

猜你喜欢
本体页面文档
Abstracts and Key Words
哲学分析(2023年4期)2023-12-21 05:30:27
刷新生活的页面
保健医苑(2022年1期)2022-08-30 08:39:14
有人一声不吭向你扔了个文档
对姜夔自度曲音乐本体的现代解读
中国音乐学(2020年4期)2020-12-25 02:58:06
基于RI码计算的Word复制文档鉴别
《我应该感到自豪才对》的本体性教学内容及启示
文学教育(2016年27期)2016-02-28 02:35:15
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
不让他人随意下载Google文档
电脑迷(2012年4期)2012-04-29 06:12:13
同一Word文档 纵横页面并存