新闻聚合系统中的数据挖掘技术初探

2013-12-29 00:00:00朱然李德华
电脑知识与技术 2013年1期

摘要:互联网的迅速发展以及信息的海量增长给数据挖掘技术提供了一个广阔的舞台,数据挖掘技术在信息检索和个性化推荐中占据越来越重要的地位。 该文描述了一个新闻聚合系统的组成结构和基本算法,包括一些文本模型和推荐算法等,可以有效地从海量信息中筛选出人们感兴趣的信息。在此基础上,该文提出了一种基于特征模型的推荐算法。特征模型将用户的兴趣偏好特征与新闻的属性特征统一起来,方便表示和计算,为进一步地挖掘用户真实兴趣偏好、更加准确地进行新闻推荐提供了良好的基础。

关键词:数据挖掘;文本模型;主题模型;特征模型;协同过滤

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)01-0148-04

科技改变着人们的生活。从前的那种早餐之后悠闲地翻阅报纸关心世界大事、晚上回家打开电视了解重要新闻的田园牧歌式的日子似乎离我们越来越远,人们越来越多地使用手机、笔记本、平板电脑随时随地地访问互联网浏览自己感兴趣的新闻。互联网作为新兴媒体,集免费、即时、方便、互动等诸多优势于一身,成为人们获取新闻的主要手段,大有把电视、广播、报纸、杂志之类的传统新闻媒体扫进历史博物馆之势。尽管如此,尽管人们掌握着前所未有的海量信息,但仍感到前所未有的饥渴,因为在海量信息中获取有用的信息实在犹如大海捞针一班。面对海量信息,人们感到无所适从。因此在这种环境下,数据挖掘技术被人们寄予厚望,成为当前互联网技术的研究热点[22]。

基于这种情况,该文提出了一种新闻聚合系统的设计方案,旨在利用数据挖掘技术,从海量新闻中为用户发现他们真正感兴趣的新闻。作为新闻聚合系统的概述论文,该文做了如下工作:首先,描述了新闻聚合系统的组成结构和工作流程;其次,概述了该系统运行过程中使用的数据挖掘技术;最后,展望了该系统的应用前景与接下来的工作。

1 系统结构

一个新闻聚合系统需要完成如下任务:收集互联网上的新闻文档;对新闻按照主题分类;为用户兴趣偏好并推送新闻;收集用户反馈信息。因此根据这些任务可以将系统工作流程分为四个阶段:新闻收集阶段、新闻分类阶段、用户评估及新闻推荐阶段、用户反馈。如图1所示。在新闻收集阶段,系统通过一个爬虫组件从各个新闻站点抓取最近新闻,将新闻按照一定的格式处理之后作为文档保存在本地。之后,一个新闻分类组件会将这些文档按照主题分到不同类别,如体育类,财经类,军事类,科技类等等。应该注意到,一篇新闻有可能同时属于不同的类别[21]。另外,我们还需要对用户的兴趣偏好进行建模,以让系统了解到用户对哪些主题的新闻感兴趣,这样系统才能为用户推荐其感兴趣的新闻。当用户第一次使用系统时,系统无法知道用户的兴趣,因此可以让用户选择几个感兴趣的主题。最后,系统根据用户的兴趣偏好模型,运行推荐算法,筛选出与用户兴趣偏好最匹配的一组新闻,推荐给用户。之后,系统通过显示或者隐式的方式收集用户的反馈信息。用户使用系统一段时间后,通过用户反馈机制,系统可以更加精确地了解到用户兴趣,从而作出更加准确地推荐决策。

2 数据挖掘技术

2.1 新闻收集阶段

在新闻收集阶段,系统需要对各个新闻站点的权威性进行评估。对权威度高的站点,系统会收集较多的新闻,对权威度低的站点,我们会收集较少的新闻,甚至不收集该站点新闻。由于Web 不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接,而超链接包含了大量人类潜在的语义,它有助于自动分析出权威性语义。因此通过连接分析,对Web网络结构进行挖掘,我们可以得到Web站点的权威度。[1]目前比较重要的链接分析算法有是PageRank算法和HITS算法。下面对PageRank算法做一个简单介绍。

PageRank 的基本思想是:一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引用;但被一个重要页面引用;则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面。

我们考虑随机网页浏览者的行为。当浏览者打开某个网页之后,如果该网页包含三个链接,他会以相同的概率访问这三个网页,即他跳转的任一一个链接的概率是1/3。如果该网页不存在链接,则他会在地址栏中随机输入一个地址进行访问。也就是说,如果一个Web图中包含N个节点,则浏览者以1/N的概率访问Web图中的任意一个节点。因此我们可以把随机网页浏览者的行为看作是一个马尔可夫链,每一个网页对应于该链的一个状态。一个马尔可夫链由一个N×N的概率转移矩阵P刻画[2],其中每个元素在[0,1]之间,并且P中每一行的元素之和为1,每个元素值Pij代表浏览者在浏览网页i之后,会以pij的概率访问网页j。