Web挖掘优化VOD点播系统

2012-11-09 13:42钱丹
中国教育网络 2012年3期
关键词:日志页面数据挖掘

文/钱丹

Web挖掘优化VOD点播系统

文/钱丹

VOD (Video On Demand,视频点播技术),也称为交互式媒体视频点播系统,是计算机技术、网络技术、多媒体技术发展的产物,是一项全新的信息服务。如今各大高校校园网建设日趋完善,网络辅助的重要性日益凸显,VOD系统在高校辅助教学领域得到充分应用,由此展开一系列针对VOD系统服务性能的研究,其中优化站点服务、提供个性化选择成为研究的热点。

VOD系统在应用过程中遇到的问题是,随着VOD系统中影片资源集的不断增大,点播人数的众多,服务器的负荷日益加重。VOD服务器系统、网络传输系统和终端系统的性能是视频点播系统能否提供高质量服务的三个方面。因此希望通过对不同时间段、不同用户群点播数据的挖掘提出优化服务器负载的解决办法,也就是针对VOD服务器系统,利用Web挖掘技术优化其性能,以免成为整个系统的瓶颈。校园网络因其使用群体层次高、频度大、范围广,因而更加需要高质量的网络。如何通过分析用户行为,合理分配流量,提高用户使用网络的效率已成为校园网络管理的一个重要课题。

我们以南通大学校园网教学VOD点播系统为基础,运用Web挖掘技术,以校园网用户的行为特征为对象进行关联性分析,在对点播系统优化后,通过有针对性的引导,对不同用户进行个性化推荐,以提高页面访问的效率和视频资源的利用率,从而减轻服务器负载,使点播更加流畅,并提出一个新思路:根据各大高校的网络部署,不仅可以针对整个群体进行推荐,还可以将用户进一步划分,区分为学生组和教师组,甚至细分至各学院不同专业,就可以根据同一IP地址段用户的点击习惯来生成该区域用户的关联模型,从而有针对性、更精确、更人性化地提供VOD的推荐服务。

Web挖掘向用户智能化推荐资源

数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式[1]。数据挖掘是知识发现过程的一个基本步骤,也是最重要的步骤,它是用来评估的隐藏模式。

图1 VOD推荐系统模型

图2 未经筛选的VOD用户点播日志

Web包含丰富、动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供丰富的资源。Web挖掘发展成为数据挖掘中的一个重要分支。Web挖掘的过程可粗略地分为:问题定义、数据准备、数据挖掘算法执行和模型建立、对结果的分析和模型的评估。Web挖掘的任务很多,有分类、聚类、关联、预测等。根据挖掘目的,采用不同的任务和技术对结果的影响非常重要,也是能否得到有意义结果的关键因素。

根据VOD系统用户点播影片的详细访问记录,我们可以从中发现用户的行为模式,建立访问模型,有针对性地为用户做出智能化推荐,减少用户盲目搜索的时间,提高VOD系统的服务效率。根据这一目标,我们采用Microsoft关联性规则算法[2],该算法的两个关键参数是MINIMUM_SUPPORT(项要成为频繁项集所必须满足的最小支持度)和MINIMUM_PROBABILITY(关联规则的最小概率)来说明项集以及该算法生成的规则。在我们进行Web数据挖掘过程中,需要多次设置参数组合来比较挖掘结果,并通过模拟测试以得到最佳参数设置[3][4]。

建立动态变化的VOD前台系统

为保障研究课题的顺利进行,我们对实验环境进行精心部署,在服务器上安装SQL 2005来进行数据挖掘。因为数据挖掘不是实时的数据处理,所以我们进一步将VOD的前台点播页面也同时部署在这台服务器上,以便更好地实施后续工作。在研究过程中,我们采用Visual Studio.Net为开发平台,使用C#语言来进行编程。由于VOD用户对每个页面的浏览和每部影片的点播都会存入日志数据库,我们通过对该数据库的挖掘来获取详细数据,并构建模型,创建一个独立的影片推荐模块。根据不同用户组的历史点击情况,定制个性化的点播页面,形成动态变化的VOD前台系统,并嵌入到当前的点播系统中,从而优化服务器负载,改善网站系统运行情况。

具体实施步骤如下:

第一步:对分组用户进行汇总,将数据库中的信息作为数据源,考察用户各项行为数据。对Web挖掘的数据特征项进行分析,并进行数据预处理,挖掘出有效数据。

第二步:根据Web挖掘的具体目标,制定挖掘任务,并构建模型。

第三步:利用Web挖掘所得到的数据,结合终端用户的实际点播情况,动态生成点播系统的前台页面。

VOD个性化点播推荐系统的设计方案由离线部分和在线部分两部分组成,如图1所示。其中,离线部分实现数据的采集、预处理以及推荐模型的生成等功能,在线部分接受推荐请求、运行推荐策略并实时产生推荐结果。

数据处理及模型建立

数据采集

根据所需要得到的结果和不同的挖掘任务,Web数据挖掘[5]可以分为三种类型:针对内容的Web挖掘,针对结构的Web挖掘,针对使用记录的Web挖掘。[6]在本文中,我们所重点研究的是:针对使用记录的Web挖掘。当用户访问VOD视频点播系统时,其所点击的页面等一系列操作都会记录在日志服务器中。我们对各类用户访问的页面进行分析,通过有序的数据来预测访问者对VOD站点的下一步访问行为,从而获得用户浏览站点时的点击流。我们可以用于挖掘的参考数据包括:Web用户的IP地址、参考页面、访问日期和时间及配置信息。一个用户会话描述了用户在登录Web后一段时间内浏览的网页序列,通常将这组网页称为一个访问[7]。

数据预处理

我们对VOD视频点播系统进行优化,归根结底是通过挖掘Web日志来实现的。用户访问模式的发现也必然依赖于VOD服务器产生的日志文件,因此,如何将日志中的有效信息进行合理筛选,是我们优化的关键。Web日志将各类用户的访问行为记录在册,其中涵盖大量有效与无效信息。这使得我们对Web访问日志的分析和挖掘必须经过一系列的数据准备工作和建模工作,其中一个重要步骤就是数据预处理,目的是将原始的日志文件和VOD页面的结构及内容结合起来,经过一系列的数据处理,转化为挖掘算法所需要的特定形式的数据格式。根据Web挖掘的要求,我们对Web访问日志进行过滤和转换,从中抽取有价值的数据。[8]未经筛选的用户点播日志如图2所示。数据预处理是Web挖掘的重要步骤之一,直接影响着挖掘的质量和正确性。凡是点播记录中字段为空的记录、重复无关的记录,都必须进行清理和删除。当用户点击影片时,由于网络延迟或者系统响应速度的问题,用户可能存在重复点击的情况,这样数据库中所记录下的多条重复记录并不能反映用户的实际点播情况。对于这样的记录,只需保留其中的一条,以确保构造正确的模型。

数据预处理的相关程序节选如下:

图3 挖掘模型

经过此步骤,我们从120多万条记录中筛选出记录约40万条。

数据模型建立及关联规则表的生成

在Visual Studio 2005中创建Analysis Services项目,首先要建立数据源和数据源视图。我们将整个VOD点播系统数据库作为数据源,但用于前台推荐的数据仅仅是其中一部分。本次研究根据日志数据表生成两个视图,一个是Customer表,用于表征用户,另一个是PlayLog表,用于表征用户的浏览记录。在创建挖掘结构中将Customer作为事例表,PlayLog表作为嵌套表,通过LogIp关联,在挖掘模型中选择合适的数据挖掘算法并设置合理的参数,如图3所示。

设置挖掘模型后,就可以通过挖掘模型浏览器来查看挖掘的结果,图4为推荐模型生成项之间的网络图。

在图4中,我们可以看到,点播的影片之间存在着关联。例如:对某用户来说,中间绿色圈内为首点播影片,周围橙色圈的影片表示与该片存在很大关联的影片序列;紫色圈内的影片表示,它们与示例影片存在相互引用的关系,而呈灰白色的影片则表示,它与示例影片之间暂时达不到关联规则的要求,排除在推荐列表之外。

一般,我们可以采用DMX来查询数据,但是由于点播系统的访问量非常大,点播日志呈指数级增长。每次都通过实时查询挖掘模型来获取数据库的推荐信息,将会大大增加服务器的压力。因此,我们进一步优化推荐方案,通过数据挖掘将关联规则一次性生成,并存入数据表中,与影片数据库分别部署。前台点击时,通过SQL查询语句查询数据表中对应的项即可作出影片推荐。根据影片更新情况和访问情况,按周期执行数据挖掘模型,将用户点播的最新情况更新到关联规则表中,确保影片推荐的质量。通过对原本无序的访问进行有序地引导来减少点播流量,从根本上减轻服务器负载,使得点播更加流畅。

如表1所示,关联性规则推荐表的后两个字段是项集,P1作为前台推荐程序的输入参数,P2是与之关联的项,是可能的输出结果,根据概率和重要性两个指标选择满足条件的记录,推荐程序部分节选如下:

表1 关联性规则

图4 由推荐模型生成项之间的网络关系

前台点播页面

我们的研究目的是为了将历史数据用于系统优化,将上一步生成的关联规则表应用于点播系统,为用户提供更好的点播体验。主页面设置新闻公告、最近资源、热门排行等主要模块,按模块化设计思路,每个模块都是一个用户自定义控件,能够在不同页面重复使用。比如创建一个hotfilm.ascx用户自定义控件,实现热门电影排行,程序如下:

点播程序中最核心的页面为filminfo.aspx,在查看某个影片的详细信息时,通过关联规则表查询出推荐影片,推荐模块的程序如下:

挖掘效益分析

目前全国各高校校园网建设日趋完善,网络辅助教学呈直线上升趋势,我们根据实际教学工作的需要,将Web挖掘技术运用于VOD视频点播系统中,对该视频点播系统的功能进行改进和优化,特别是对于该系统的影片个性化推荐技术进行研究和探索,从而提高该系统用户的访问效率和服务质量。在研究中,我们还细分用户,根据同一IP地址段用户的点播习惯来来生成该特定用户组的关联模型。

我们主要完成以下任务:

1. 生成关联模型:根据历史的访问点播记录,发现用户的模式,建立访问模型。

2. 形成关联模型表:通过数据挖掘将关联规则一次性生成,并存入数据表中。例如:一次性生成几个月以来的关联规则。同时,为了适应用户的动态更新,在一定周期内,根据服务器负载情况,在负载最低的时间段,执行一次数据挖掘模型,将关联规则更新到规则表中,以确保影片推荐的精确性。前台点击时,只要使用SQL查询该数据表中对应的项即可作出影片推荐,从根本上减轻服务器的点播压力。

3. 前台推荐程序:该程序通过获取用户当前点击的影片名称,查询关联规则表中满足推荐的影片,如果查询到满足条件的记录,则输出地址链接,将推荐的结果链接到影片播放界面。通过智能化地引导和推荐影片,提高VOD点播系统的服务效率。

由于各站点的数据本身具有自述性和动态可变性,半结构化的Web数据模型是研究Web挖掘、信息检索、智能引擎及Web用户访问模式挖掘的前提和重点。[9]面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。针对Web数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。我们将不断探索,使Web挖掘更好地服务于网络教学。

扩展阅读:

[1] Jiawei Han,Micheline Kam ber.Data Mining Concepts and Techniques [M].Beijing:Higher Education Press,2007,240-243.

[2]Pereira Jr,Baeza-Yates A R.Applications of an web information mining model to data mining and information retrieval tasks[J].Proceedings International Workshop on Database and Expert Systems Applications.2006:1031-1035.

[3]Lisheng Ma,Huiwen Deng.Fast algorithm for mining maximal frequent itemsets[C]// Proceedings of international Conference on Data Engineering,2007:86-91.

[4]Zhao Hui Tang,Jamie Mac Lennan.Data Mining with SQL Server 2005[M].Beijing:Tsinghua University Press,2007:199-200,322-323.

[5]Pannar J,Garg S.Modifiedweb aecess pattern approachfor sequential pattern mining.Computer Science[M].2007,(6):46-54.

[6]R Gruber. Towards Principles for the Design of Anthologies Used for Knowledge Sharing[J].International Journal of Human-Computer Studies,2009(43).907-928.

[7]L.Zhen,G.Q. Huang,Z. Jiang,Recommender system based on workflow,Decision Support Systems2009 (48) 237-245.

[8]翁小兰,孙蕾.基于WEB日志挖掘优化VOD系统中影片的归类[J].Computer Applications and Softwar,2007,(10):125-127.

[9]Bunchner A G,Mulvenna M D.Discovering Internet Marketing Intelligence Through Online nalytical Web Using Mining[J].Sigmod Record,2006,27 (4):145-156[J].

(作者单位为南通大学现代教育技术中心)

本文获江苏省现代教育技术研究2010年度课题资助,课题名称:《基于校园网VOD视频点播系统的视频教学资源整合与个性化研究》,课题编号:2010-R-16632。

德州仪器:3D投影机将创建沉浸式学习环境

本刊讯 德州仪器于2月8日在北京召开记者会,声称DLP在2011年全球投影显示市场拥有近55%的市场份额,到目前为止,DLP芯片的出货量已经超过了3千万,未来将投入到新兴的嵌入式投影市场,并将在教育市场发力。

德州仪器致力于教育的创新,希望通过提供各种创新技术,包括DLP的3D-Ready投影、互动投影、超短焦、无灯泡投影技术等,帮助学校提升学生学习的主动性、积极性。

德州仪器高级副总裁兼DLP产品事业部总经理Kent Novak表示,在现今全球教育创新的改革中,3D教学已成为一个不容忽视的发展趋势。DLP凭借其创新技术,创造性地使学校可以通过平价单机3D投影机实现沉浸式教学,从而为学生带来更真实而动态的学习环境,进而大大地调动学生的学习热情,并大幅提升他们的学习成绩。

德州仪器除了在教育领域创新技术之外,还在数字影院、微型投影、嵌入式投影等方面带动更多极具创意应用的发展。

猜你喜欢
日志页面数据挖掘
刷新生活的页面
一名老党员的工作日志
答案
探讨人工智能与数据挖掘发展趋势
让Word同时拥有横向页和纵向页
扶贫日志
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
雅皮的心情日志
雅皮的心情日志
高级数据挖掘与应用国际学术会议