王兵
摘要:移动互联网大数据时代的到来,使企业的运营商面临着极大的挑战,该文针对大数据背景下用户行为分析引擎提出了设计方案,有利于实现供应商新业务的开发。
关键词:云计算技术;大数据;用户行为;引擎设计
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)05-0001-02
近年来,我国的移动互联网技术得到了充分的发展,这使我国的互联网运营商面临着一个新的发展机遇,开始走向话务量经营向流量经营的道路,并对用户的行为规律进行深入分析,发掘市场与广大用户的真实需求。为了能够充分满足用户日新月异的需求变化,运营商必须不断开发、推出新产品,加强计算机技术的功能发挥。而云计算技术正是这样一种能够满足海量数据分析与处理的强大引擎系统。
1 云计算技术下的大数据用户行为引擎系统设计
1.1 总体构架
在本次研究中,主要是利用云计算技术的海量数据计算能力,建立完善的移动互联网数据挖掘分析系统,实现对互联网用户行为引擎的分析,并根据用户的上网习惯与行为偏好,为用户提供具有针对性的个性化服务,使数据的采集、分析与服务类型、营销策略能够形成一个统一的有机整体,提升企业的营销效率。另外,云计算系统主要是借助FTP服务器来实现对数据的采集,然后在系统的接口处对数据进行分布式计算以及批量处理,并将这些大数据一并存入Hbase数据库,该系统不仅能够实现海量数据存储,而且对于那些非结构化的数据也能够存储[1]。然后再经过Hive整合层与汇总层EIL处理,利用MapReduce数据分析模型,将处理的结果传入数据库,其系统总体构架见图1 。
1.2 系统拓扑与功能分布
系统的拓扑主要是指将一台服务器作为Hapdoop平台的主节点服务器,其他都作为Hapdoop平台的从节点服务器。一般情况下,从节点服务器可以根据实际需要进行动态扩展,而主节点服务器不仅要将任务与流量分配给从节点服务器,而且还要监督从节点服务器的工作执行情况,由多台从节点服务器共同参与完成任务,能够提升数据处理效率,主节点服务器的软件运行情况如图2所示。
将所有汇聚到系统的移动互联网用户行为数据进行分析,主要借助了MapReduce用户行为分析模型资源,能够对用户的上网习惯、偏好,甚至包括用户的社会关系进行有效的分析,并提供全面的业务服务,给用户推荐具体的内容。一般来说,从节点服务器与主节点服务器在软件的结构上没有太大的差异,唯一不同的是从节点服务器不具备部署任务以及管理调度的功能[2]。以搜狗公司数据分析为例,根据第三方互联网数据统计机构CNZZ公布的2015年9月的中国网民搜索引擎使用情况统计报告,搜狗搜索的市场份额已经达到15.68%,成为中国第三大互联网搜索公司,其用户行为数据分析格式如表1所示:
2 用户行为分析大数据入库组件设计
通常,对移动互联网用户的行为分析引擎的数据主要是通过应用平台数据与DPI数据两个渠道获取的,这两个数据源有着明显的不同。首先,应用平台数据比较集中,在一个访问行为表中就能够完整的呈现,每天表现为一个文件,且文件的大小以GB分级;DPI数据则是众多分散的小文件,这些文件一般都不超过10MB,其最重要的一个特点就是文件的来源特别快,平均每2min就能够接收到多个新文件,大约一个省一天可收集到1TB左右的数据量,效率极高。针对这两种数据源的特点,分别采取了不同的设计方案。在获得用户访问基本数据信息的情况下,对这些数据进行统计分析,能够从中获取用户行为的基本特征与规律。采用Hadoop平台的用户行为分析系统对搜狗实验室提供的搜索引擎日志数据集进行分析处理,源文件大小共4.4G,行数为43545444行。用户查询关键词的排名、点击URL排名以及用户搜索记录、时间段等用户行为特征都能够有效的呈现出来,详见表2。
2.1 应用平台数据入库
该平台主要采用的是批量入库的方式,每天进行一次数据入库,文件的大小一般为GB级。通常对于大型数据文件多采用Hadoop平台进行入库,然而经过实践证明,MapReduce分布式处理Hbase入库效率普遍不高,因此,可对这一系统进行优化处理,在MapReduce分布处理的基础上,进而实行批量入库处理。在Hadoop系统应用过程中,多使用TextInputFormat,其在map中多显示的是文件的单行记录[3],因此,可采用NLineInputFormat类使其能够在MapREduce中实现批量入库,在这种系统的支持下,每个分片都会留下N行记录,然后通过适当的参数配置,实现每次可读取N行记录,进而在map中行批量入库的相关操作,能够在一定程度上提升数据分析的效率。
2.2 DPI数据入库设计
DPI数据入库主要针对的是大量的小型数据文件,这些文件尽管所含数据量不大,但是数据来源的频率特别高,对这些文件的处理有中方式。首先,可采用SequenceFiles软件将这些小文件进行压缩打包,在文件打包的初期就要采取措施降低小文件的数量。然而,对其读取却会受到一定的限制,无论是Hadoop shell软件还是Map读取软件,都很难实现对数据的灵活读取。而采用HAR软件对小文件进行归档,这尽管能够在一定程度上减少小文件的数量,却仍然达不到数据的灵活读取,这很大程度上是由于HAP软件的读取性能较低。另外Hadoop append系统尽管能够将这些小文件追加到同一个文件中,然而,这些小文件的大小千差万别,且数据来源频率广,有峰值与低谷之分,因此,对这些数据的控制也较为繁琐。除此之外还有Flume、FLumeNG以及Scribbe系统,这些系统能够对中间层的数据进行处理,有效降低小文件的数量,然而这两者传输与压缩文件功能不强,具有一定的缺陷。由此可见,以上这4种方式都不能实现数据文件的有效处理,因此,要对DPI数据的特征进行科学分析,对CombineFile InputFornt进行有效继承,将数据的分片大小进行设置,以便实现CreateRecordReader,这种方式也能够促进DPI大数据实现入库[4-5]。
3 结语
随着我国社会主义现代化建设的不断发展,我国的计算机信息技术取得了卓有成效的进步,并由此进入一个信息时代,使人们的生产与生活方式发生了一系列的变革。然而随着信息多元化与多用户模式的出现,传统的计算机信息技术已经不能够满足人们的需求,开始转向对云计算技术的开发与应用。云计算技术下的大数据用户行为引擎设计,能够对用户形成高效的跟踪,且运行成本低廉,在企业的营销中有着极大的应用价值,值得推广应用。
参考文献:
[1] 谢晓頔. 大数据环境下云计算分布式数据管理和分析技术工具的研究[J]. 科技风, 2015(19):51-51.
[2] 王宁, 杨扬, 孟坤,等. 云计算环境下基于用户体验的成本最优存储策略研究[J]. 电子学报, 2014, 42(1):20-27.
[3] 尹天骄. 云计算时代下的数据管理技术探讨[J]. 计算机光盘软件与应用, 2015(3):179-180.
[4] 李晓飞. 基于云计算技术的大数据处理系统的研究[J]. 长春工程学院学报:自然科学版, 2014, 15(1).
[5] 李进生, 杨东陵. 云计算环境下大型电气数据库存储性能分析与优化[J]. 电气应用, 2015(6).