韩红宇,朱丽秋
(1.东莞职业技术学院管理科学系,广东东莞523808;2.广东亚视演艺职业学院经济管理系,广东东莞523710)
海量数据干扰下Web数据挖掘技术分析
韩红宇1,朱丽秋2
(1.东莞职业技术学院管理科学系,广东东莞523808;2.广东亚视演艺职业学院经济管理系,广东东莞523710)
随着网络信息技术的快速发展,互联网已经与每个人的生活息息相关,并且随着网络在生产生活中的应用范围增加,网络终端存储的信息量就越来越大,为了更好地利用这些信息数据,就必须能有效地在海量信息的干扰下找到自己需要的信息。该文根据目前的Web信息特点,探究在海量数据干扰下的Web数据挖掘技术,希望有助于网络数据挖掘技术的研究,提高信息的利用率,让其更好的使用现代发展的需求。
海量数据干扰;Web数据;挖掘
近年来,网络信息技术得到快速发展,生产生活也随着网络信息技术的普及变得高效和信息化,随之而来的就是人们对于自身的网络信息安全的顾虑。特别是现在人们在网上越来越多的暴露自己的个人信息,在现在看来一些软件或者公司表明他们保护消费者的权益和信息安全,但是我们知道自己的信息都是以数据的形式在Web上传播,难免会有泄露,因此为了提高网络信息安全,就必须提高Web的安全防护能力,其中很重要的就是有效挖掘危险Web数据。Web数据挖掘是在传统的数据挖掘技术上发展而来的,根据网络数据库信息量大、结构复杂的特点,Web数据挖掘技术也有了改进,目前进行Web数据挖掘的技术有很多,如路径分析、关联规则和序列模式等等,下文会进行详细论述。随着互联网技术的深化发展,越来越多的电子商务公司出现,这些公司甚至海量的网络数据信息蕴含着巨大的上级和利益,所以他们快速研究和发展Web数据挖掘技术,通过对网络数据信息的挖掘,寻找客户信息数据,并依靠分析得到想要的客户信息,也就为他们创造了丰富的商机和巨大的利益。现在的Web数据挖掘技术应用越来越广泛,它在未来的发展前景和趋势都令人期待。
1.1 Web数据挖掘的概念
要说Web数据挖掘就得先说传统的数据挖掘,传统数据挖掘本意就是在大量的、随机的、复杂的实际数据中,根据某种目的寻找人们想要知道的有用信息的过程和技术。当然在现代发展中,随着数据挖掘的商业化运作,它的含义也发生了一定的改变,在商业背景下,数据挖掘是在庞大的商业数据信息中,分析商家想要得到的客户信息数据或者是竞争对手的商业信息数据,为公司的商业战略决策提供一定参考。而Web数据挖掘就是讲数据挖掘技术应用到Web中,由于网络世界的信息量以及复杂程度都是不可估计的,并且在这样杂乱的信息中挖掘有价值的数据是非常困难的。所以现代化的Web数据挖掘技术也与传统的数据挖掘技术不同,它针对网络信息数据库的特点,在信息过滤技术的帮助下,完成信息数据的发掘、处理和保存工作。目前的Web数据挖掘有以下几种[1]:
(1)Web数据的结构挖掘。网络信息技术有着严密的逻辑关系,同样看似混乱的数据信息其实也是有着一定的结构逻辑,Web数据的结构挖掘就是要对已经有的数据信息进行分析,挖掘数据之间的结构关系,然后通过一定的计算算法实现网页价值计算,评估网页系统的商业价值。在充斥着海量数据的Web中,有着各种各样的超链接结构,随时都能将客户带到另一个界面,特别是现在随着网络信息技术的发展,很多文档中的引用或者是生僻的概念用于都能添加超链接,从这些结构中能隐藏很多数据信息资源,目前的Web数据的结构挖掘技术大都是使用一定的结构算法,对网页的超链接进行检测和保护。
(2)Web数据的内容挖掘。现在人们需要获取什么信息都首先通过浏览器检索,目前网络上已有的数据信息基本能满足人们的需求,这也得益于这些浏览器强大的Web数据的内容挖掘能力。内容挖掘工作主要就是收集有用的信息资源,进行分类和整理,并且给不同的数据信息加上“标签”,便于客户的检索操作,当然除了直接能通过浏览器检索到的数据资源之外,还有很多的加密数据文件,需要采用特殊的Web数据的内容挖掘技术。
(3)Web数据的使用挖掘。随着网络信息技术的快速普及,人们在日常生活中访问网页的次数和时间也有增加的趋势,那么Web数据的使用挖掘就是在网页的相关站点和常规日志文件中挖掘有用的客户访问信息,从而帮助网站进行针对性的客户涉及,提高客户体验和商家经济效益。其中要着重关注网站的日志文件,因为客户在使用过程中,会自主的跟网站进行交流,而交流的信息数据会自动保存到日志文件中,所以通过对日志文件的Web数据进行使用挖掘,能有效地掌握客户信息以及动态发展需求,促进网站的设计优化更新,提高工作效率。
1.2 Web数据挖掘的特点
Web数据挖掘的对象是海量的网络信息数据,首先我们在进行Web数据挖掘之前就需要对大量的网络信息进行初步的筛选,要根据本次的Web数据挖掘目的选择合适的方法和模型,后期还需要对Web数据挖掘的信息进行整合提炼,信息的更正和补充,然后对信息进行分析和总结,得出结论。其次,因为Web数据挖掘是针对的网络信息数据,面临着较高的安全风险,所以在进行Web数据挖掘的时候还应该做好安全防护工作,降低信息污染和病毒入侵的可能,确保Web数据挖掘工作顺利进行。最后就是Web数据挖掘的数据存储问题,这就要根据选择的挖掘模型而进行相应的改变,因为数据信息的复杂以及各式都会影响最后的数据存储工作,所以对于数据的管理和存储工作需要专人负责,做好数据的检测和保护工作,便于在Web数据挖掘工作结束之后能得到完整的数据信息,提高实际工作效益[2]。
2.1 确定Web数据挖掘目的
首先要明确进行此次Web数据挖掘的目的,根据主要目的确定Web数据挖掘的范围,选择合适的网络数据信息并且对此次Web数据挖掘的价值和质量进行评估,方便后续工作的进行。
2.2 建立Web数据挖掘库
进行Web数据挖掘首先需要根据本次目的确定信息数据范围,然后建立完整的树立体系,形成数据挖掘库。在数据挖掘库中根据关键词或者相关的信息资料进行Web数据挖掘,这样不仅能提高检索效率,而且准确性高。建立数据挖掘库的一般过程是,首先通过Web网络大数据体系生成相关的数据报告,将各种信息进行整合分类。其次,将相同类型不同数据源的数据合并到一个数据库中,将垃圾数据及时清理。随后,安排专人对数据进行备份和存储,并且定期对数据库进行检查和整理,清除安全隐患,确保信息数据库的完整[3]。当然在实际应用中也要及时的更新数据库的设备,才能更好地满足发展需求。
2.3 清理Web数据挖掘库
Web数据挖掘库是建立在海量信息的基础上,是将各种复杂的信息都收录其中,所以在进行数据挖掘工作之前,需要对Web数据挖掘库进行清理分析,因为网络数据存在错误和混乱是很正常的,特别是当信息量巨大的时候就更为广泛,因此要有运算速度快的分析处理设备,加快信息的整理工作,并且加强每次数据库更新的管理工作,保证数据的完整性和安全性。
2.4 分析Web数据挖掘库
在进行Web数据挖掘之前还需要对数据库进行检测,通过对检索变量、检所记录等各项指标进行测试,确保数据库的挖掘模型能正常运作,保障数据挖掘的质量和效率。
2.5 创立Web数据挖掘模型
我们需要根据不同的Web数据挖掘目的建立合适的数据挖掘模型,才能在海量信息干扰下高效正确地进行数据挖掘,并且对需要的数据进行完整的保存,这就需要我们使用最先进的Web数据挖掘技术,创建科学的数据挖掘模型[4]。
3.1 路径分析
路径分析是目前最常用的一种Web数据挖掘技术。随着现在的互联网技术快速发展,电子商务也快速兴起,为了更好的营销,就必须了解客户需求和喜好,所以路径分析对于电商而言是必不可少的一种Web数据挖掘手段,通过对消费者的Web访问路径的分析,可以清晰的分析出消费者最常访问的网址或者是最留意的商品信息,通过Web数据挖掘出客户的频繁访问路径,然后根据需求制定推销计划,能更好地迎合消费者的需求,提高效益。当然服务型机构也能更好的根据路径分析,为客户提供高质量的服务。
3.2 连接规则
事物之间都是普遍联系的,网络世界更是因为它的虚拟性被使用者喜欢,但是在网络信息数据之间其实也是存在着千丝万缕的联系。在Web数据挖掘技术中也常用到关联规则,通过分析数据之间的相互关联,得到事物内部之间的隐藏的关系。因此通过Web数据挖掘的关联模型,利用客户的访问记录中的访问界面或者文件,或者是通过客户浏览的网页中频繁出现的关联网页,分析其中的关联,然后对客户进行捆绑销售,并且能为客户设计链接性的访问界面,提高其访问量,这样不仅能让客户使用更为方便,还能提高销售的精确度[2]。
3.3 顺序模式
Web数据挖掘都是依靠一定的线索进行工作的,在设计Web数据挖掘模型时也要根据目的和数据类型进行设计。目前大多是按照时间顺序进行数Web数据挖掘,也就是序列模式,通过时间线索对数据进行分析,探究这些事件之间的因果关系。这种模式对于电商的客户需求预测以及营销战略安排有重要的意义。可以根据Web数据挖掘的分析结果,对客户进行提前的广告服务,可以有效地提高访问量和销售量。
3.4 分类和聚类分析
如果Web数据挖掘的内容分支较多并且内容较为复杂,那么这个时候就需要用到分类分析方法,将数据信息按照一定的区别进行分类,一般采用树状模型或者是神经网络模型,对挖掘的数据分类,然后逐个部分进行分析,这样能较为清晰的得出数据分析结果。聚类分析是一种不同于分类分析的技术,这是通过对将有相同信息访问规律的客户聚集在一起进行数据分析,通过Web数据挖掘,找到有共同特征的客户,然后针对性的进行分析,对于电商而言能有效的了解各类商品的消费人群和消费水平,能进行针对性的销售[4]。
3.5 数理统计分析
对于数理统计相信大家都不会陌生,这是一种常见的数据分析方法,在很多领域都有应用,Web数据挖掘也常用到统计分析方法。这种方法不仅操作简单,而且对于海量数据的干扰下的Web数据挖掘环境,采用多维统计分析技术也是非常适合。如同时将客户的访问时间数据、访问次数数据以及访问内容数据等一起进行统计分析,能较为科学的得到客户的访问规律以及习惯,有助于提高Web数据挖掘的准确性和权威性。
在网络世界可以说是属于信息爆炸,海量数据给Web数据挖掘工作带来了很大的干扰,但是随着电子商务的快速发展,对于Web数据挖掘技术的需求日益增加,为了能在市场竞争中获得优势,就必须有打赢信息战,谁先掌握了更多的客户数据信息,谁就会在战略制定上领先一步。因此,Web数据挖掘技术对于现代化的企业发展有非常重要的影响,拥有先进的Web数据挖掘技术就拥有了更加有力的发展先机。希望本文对于在海量数据干扰下的Web数据挖掘技术分析能给企业提供借鉴,有助于其在未来更好的发展。
[1]王曙霞,熊曾刚.海量数据干扰下的危险Web数据挖掘技术研究[J].微电子,2016(2):87-91.
[2]韦侃.Web数据挖掘技术研究与应用[J].计算机光盘软件与应用,2014(9):128-129.
[3]王瑛.WEB数据挖掘技术及应用研究[J].时代金融,2013(35): 425-426.
[4]马保国,侯存军,王文丰,钱方正.Web数据挖掘技术及应用[J].计算机工程,2006(6):20-22.
TP311
A
1009-3044(2017)19-0228-02
2017-06-06
辽宁省高等学校科研项目计划(2009A325);东莞职业技术学院院级基金(2015c19)
韩红宇(1973—),男,东莞职业技术学院管理科学系副教授。