翁淑文
【摘要】大数据时代的到来,改变了人们的生活行为。网络行为演变成人们生活中必不可缺的一部分。本文通过阐述大数据与网络行为的关系、介绍大数据是什么,大数据的特征和本质,最后分析大数据时代下人们的网络行为,利用网络数据预测网络行为。
【关键词】大数据 网络行为 网络数据
一、引言
随着网络和信息技术的不断发展,人们的网络行为也日益多元化。网络行为是指人们依托互联网所做出的一种全新的形态的现实行为活动,分为狭义的网络行为和广义的网络行为。狭义的网络行为专指人们在电子网络空间里开展的行为活动。广义的网络行为是指不局限于狭义的方面,同时也包括那些与互联网密切关系,在很大程度上要借助和依赖于互联网才能顺利展开的行为活动。简单来说,网络行为就是人们在互联网上的一切行为。
网络行为的类型包括访问网站、收发邮件、上传和下载、即时通信、聊天、论坛、网络游戏、流媒体视频等等。这些行为一旦发生,就会产生数据。随着智能手机的普及,无线网络的覆盖范围越来越广,网络的用户的数量也在不断的增加,产生的网络也在迅速膨胀。在这些庞大的数据中,往往包含着巨大的信息量。网络行为分析依靠隐藏在大数据中的网络用户的爱好和特点等行为特征,整合汇总后反映用户当前的潜在的行为需求。
二、大数据时代与大数据
麦肯锡即全球知名咨询公司最先提出未来是大数据的时代,他声称:“数据将会是重要的生产因素,因为它已经渗透到各行各业。人们对海量数据的运用和挖掘都会带来新的生产率的增长和消费的浪潮。”近年来,大数据一词因信息业和网络的飞速发展而引起人们的关注,其实它早就渗透在各大领域,例如,物理学、金融学、环境学、化学、军事学等等。
大数据是指在承受范围之外运用一般的软件工具进行捕捉、管理和处理的数据集合,采用新的处理模式使之具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他认为大数据是将所有的数据进行分析处理,而不运用随机分析法的运算途径。
大数据和数据大并非是一个概念,但大數据其本质是数据。大数据的大主要表现在五个方面:①大量,即数据的数量庞大。目前为止,所有人类生产的印刷材料的总数据量是200PB(1PB=210TB),从古至今,人类所有说过的话语总数量是5EB(1EB=210PB)。目前,大部分的个人计算机硬盘以TB为单位容量,而某些大企业的数据量是EB,远远大于硬盘存储量。②多样,即数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相当于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括音频文件、网络日志、图片、视频、地理位置信息等,这些多元的数据类型对数据的处理能力要求更高。③价值,即价值密度低。价值密度的高,数据总量越小即二两之间成反比。以一部视频为例,一部1小时的视频,在连续不断的监控中,有用的数据可能仅有一二秒。如何通过强大的机器算法更迅速地完后才能数据的价值“提纯”成为目前大数据背景下急需解决的难题。④高速,即数据处理速度快。这是大数据区分于传统数据挖掘的最显著特征。根据TDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。面对如此海量的数据,企业兴盛的关键就在于其处理数据的效率。⑤复杂,即数据复杂。通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据的需求。
大数据的精髓在于我们分析信息是的三个转变。第一个转变就是,处于大数据时代下我们分析处理的数据量更大,不再依托于随机取样的方法有时甚至可以对一些特殊的现象进行分析和处理。第二个转变就是,随着数据量的快速增长我们不再专注于处理数据的准确性。第三个转变就是,不需要有因果关系。
三、大数据时代下人的网络行为的分析
(一)大数据与网络行为
(1)大数据的网络数据获取来源。大数据的应用范围广泛,包括:自然科学领域、军事领域、医疗领域等等,但近些年,随着信息科技的迅猛发展,大数据运用于网络领域的比重越发显著。人与人之间的关系、城市之间的道路连接、科研论文之间的引用都组成了网络。树条结构表达了层次结构关系,而不具备层次结构的关系数据,可统称为网络数据。网络数据获取的来源有多种,其中包括主流网站的选择。例如微博、微信、博客、Facebook等社交网站。
(2)大数据的网络数据获取方式。网络数据获取的方式主要包括第一利用网络用户Cookie数据,即即服务器暂时存放在用户的电脑里的资料,好让服务器用来辨认计算机。互联网网站可以通过对Cookie的跟踪,统计用户访问该网站的习惯;第二,利用APP获取网络数据,APP是网络用户数据获取的一种有效手段,在APP中预埋SDK插件,用户使用APP内容是就能及时将信息汇总给指定服务器;第三,与拥有稳定数据源公司进行战略合作等方式。
(二)网络行为的分析
信息时代的到来,把网络和人们的生活紧密的联系在一起。人们在产生网络行为的过程中以浏览、留言、点赞、评论、转发、转载等形式形成大量的行为数据。面对这些大量的数据,需要先进的数据处理技术。例如,搜索引擎Google在2008年每天要处理20PB的数Facebook则每天需存储、访问和分析超过30PB的用户创造数据;Twitter每月会处理超过3200亿的搜索。这些数据的背后,隐藏着巨大的价值。网络行为分析主要包括三个阶段:第一,预处理阶段;第二,网络行为模式发现阶段;第三,网络行为分析阶段。
预处理阶段即对可利用数据的使用记录和网络内容及结构的信息行为模式的提取过程。该阶段以行为分析为基础,对数据的使用记录、内容信息和结构模式信息进行预处理。
网络行为模式发现阶段,有统计分析、关联规则、分类、序列分析等模式。
网络行为分析阶段,即数据处理的最后一步,过滤模式或者模式中不感兴趣的规则,常用的分析方法有SQL,也就是结构化查询语言;还有一种是OLAP操作即联机分析处理系统。数据的内容和结构信息都能使用为过滤服务。
通过收集这些数据,进行分类、汇总、采用数据挖掘算法与大数据分析技术对这些格式化、非格式化的数据进行分析,从中获得网络用户的规律性知识。通过数据挖掘不同用户的爱好,提供针对性的服务,提高用户对网络服务的满意度。
(三)举例研究
电子商务领域的网络用户的数据信息行为的数据量极大,电子商务基于大数据的处理分析,猜测用户的进一步需求,这样可以更好的帮助企业的产品营销、促进用户的体验次数,并为人们提供更加方便快捷的服务。
本文以某个大型购物网站为例,通过自身的网络行为,分析大数据的运用。网站主要有搜索、各种产品分类、猜你喜欢等界面。其中,猜你喜欢的界面就是根据用户的网络行为,通过大数据的分析、汇总处理而产生的。用户甲打开网站20次,其中18次均直接进入家居的所属分类下,10次选择卫浴,8次选择厨房。进入家居分类后,用户甲直接选择了综合排序中的信用排序最高9次,价格从高到低8次,价格从低到高1次。在进行了一系列筛选过后,在该页面停留了5分钟,之后在风格分类栏下进行二次筛选。用户甲选择了现代简约10次、欧式7次、现代中式3次。然后在评价页面停留了2分钟,在图文详情页面停留了20秒。
由此,可对大数据通过数据分析对用户甲的需求喜好,用户甲注重产品质量高于重视产品价格,偏好于现代简约、欧式的家居风格高于中式风格;其次用户甲看中产品的评价与口碑,乐于参考其他用户的体验评价。大数据依据这些数据分析,在猜你喜欢中会出现相对应的现代简约或者欧式风格的卫浴用品、厨房用品等商品。利用大数据的分析处理方式,这样就提高了网络用户购买的成功率。endprint