基于网络日志挖掘技术数据信息分析的研究

2015-05-04 23:13付生
科技与创新 2015年6期
关键词:信息检索数据分析

付生

摘 要:对网络日志挖掘技术数据信息分析的研究,是动态交互网络使用数据挖掘的一种技术实现。通过挖掘动态交互网络日志,可以查找用户访问动态交互网络的浏览方式和习惯性行为,并依据数据挖掘分析和研究动态交互网络日志记录中的规律,判断数据价值链与组织结构的适应性问题,从而提高信息查找的快速指向性和信息检索的高效性,并利用统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。

关键词:日志挖掘;数据分析;信息检索;网络日志

中图分类号:TP311.13 文献标识码:A DOI:10.15913/j.cnki.kjycx.2015.06.068

1 日志数据挖掘

动态交互网络获取信息的过程存在站点访问的跳跃性和无序性,数据信息指向是呈布朗运动分布的。超文本链接的跳转过程具有一定的普遍性,并且还有数据存量大、数据更替快等大数据4V特点。挖掘规律即是动态交互网络用户访问信息发现的重要研究内容。动态交互网络日志挖掘是对大量用户行为和数据价值有效性的判断,该判断是经过数据的预处理、数据模式识别和模式分析3个过程实现的。

2 动态交互网络日志挖掘的过程

对于动态交互网络日志挖掘,首先要研究和分析网络日志记录信息存在的变化和特点,进而实现数据的预处理过程。另外,要识别用户信息,提高对用户价值信息的服务质量,改进动态交互网络服务系统的数据信息判断和组织结构。

2.1 数据预处理

在动态交互网络日志文件记录中,存储的是用户访问站点信息的原始记录,而原始记录的数据具有多样性和大量性,所以,直接从数据中挖掘其有效价值存在不确定性和一定的困难。在借助一定的算法和工具分析数据时,必须要对数据进行预处理。预处理过程是指对数据质量、数据的多样性和量级进行处理,这会直接影响数据挖掘的结果,还会影响数据价值存在的判断。对于数据访问量小、数据多样性单一的网络日志信息,数据处理的准确性具有非常重要的意义。日志预处理主要是通过数据净化、用户识别、会话识别和数据合并4个过程实现的。

2.2 数据模式发现

利用数据挖掘相关算法是实现对网络日志中隐藏的、重复的、大量有用的或者无用的信息进行数据模式识别的一种方式,最终发现可以理解和学习的信息。同时,用于动态交互网络的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析和依赖性建模等。

2.3 模式分析

在动态交互网络日志挖掘中,最重要的一项工作就是数据分析。它主要完成有用模式的算法发现和数据链的模式分析。在当前的电子商务系统中,模式发现和模式分析能够实现大量用户数据的价值发现,利用挖掘的有效算法,能够在日志数据快速变化的状态下分析用户的浏览状况,并依据模式分析结果改进网页内容,优化用户服务,从而提高用户的兴趣点,提升访问量,解决数据大量、快速、多样性变化的特点,以此获取有效价值数据对交互网络的影响。

3 在信息系统中的构建

3.1 网站设计

网站设计的主要内容包括以下几点:①用户访问网站方式基于http协议;②动态交互网络的服务多样性;③依据用户行为信息,挖掘有效价值链,产生具有特色的网络交互行为,而数据页面的引导表现出了便捷和快速的特点;④利用日志挖掘技术查询用户有价值信息,依据数据价值判断、推算出潜在的数据连接和页面访问指向。

3.2 系统架构

该系统主要由4个功能模块组成,即客户端访问模块、数据访问模块、价值识别模块和个性化服务模块。

3.2.1 客户端访问模块

客户端访问模块主要用于处理客户端的基本信息并识别用户,其工作内容包括客户端的登录服务、识别用户名和密码。其中,登录服务主要是完成用户信息的修改和存储。同时,用户的不可修改信息也会被存储和识别,比如MAC、IP浏览器版本号等。

3.2.2 数据访问模块

客户端被访问时会在服务器端和客户端产生日志信息,而日志信息是数据预处理和模式识别的基础。访问日志模块主要用于处理用户行为记录的各项信息,访问信息具有大量、多样和快捷的特点。日志信息包括访问某一页面的次数、访问页面的多个URL地址信息、用户行为信息的判断和大量数据保存方面的管理配置等。利用数据访问模块,可以识别和分析数据,完成预处理工作。

3.2.3 价值识别模块

网站的构成具备多网页站点间多联系、交互的特点,而网站数据具有多样性和快捷性。网站要想显示用户兴趣和行为,就要改进数据分析和识别模式。对用户在网页中停留的时间和搜索的信息内容等情况进行数据挖掘时,要结合用户参与和识别的情况,建立适合用户访问兴趣的信息推送,从而实现数据价值识别。

3.2.4 个性化服务模块

个性化服务模块是通过分析用户访问的数据分析来判断用户信息的兴趣。客户端登录后,依据数据分析和价值识别来搜索类库中用户的历史信息,通过个性化服务进行推荐。模式分析的结果是不同兴趣的用户得到的不同数据页面。

4 结束语

实践证明,对动态交互网络日志进行预处理,可以清理、过滤、组合无价值的记录。在动态交互网络日志中的数据,可以利用数据挖掘相关算法,将其转换为可识别的形式来挖掘关联规则,并对用户进行聚类和分类,挖掘出客户端与地域、时间、页面等相关内容的联系,从而发现用户访问动态交互网络页面的模式,改进动态交互网络站点的性能和组织结构,实现日志数据挖掘技术在用户行为信息分析中的作用。

参考文献

[1]陈京民.数据仓库与数据挖掘技术[M].第二版.北京:电子工业出版社,2007.

猜你喜欢
信息检索数据分析
浅析开源情报信息检索与信息鉴别
对大学案理研讨课学生信息检索意识若干问题的思考
医学信息检索与利用的探讨
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议
空难事故跨媒体信息采集与检索方法的研究
中外档案网站信息检索功能比较研究