赵 露,李 庐
(1.安徽电子信息职业技术学院,安徽蚌埠 233000;2.安徽财经大学,安徽蚌埠 233000)
互联网与人类社会之间的关系变得越来越紧密,从社会整体发展的角度分析.在网络渗透各行各业的今天,当前的社会活动已经不能完全脱离互联网[1].从生活的角度分析,互联网的出现已经从根本上改变了人们生活方式,人们在日常生活中的基本诉求都可通过网络得到满足,包括沟通、购物、获取信息等等[2].在全民的用网形式调查中,以智能客户端为基础的数据占总体的90%以上,这种发展趋势主要受无线网络覆盖面积大幅提升的影响[3].通过上述两个方面的分析不难看出,互联网已经成为了人类社会活动开展以及个人日常生活中不可或缺的重要组成部分.就现阶段的网络发展态势分析,在移动互联网不断发展的时代背景下,其对人类的影响将会向着更深、更全面、更广泛的方向发展.互联网用户的增加带来的最直接的问题就是网络用户的行为数据的增长,这种增长不仅表现出明显的大规模属性,同时也表现出明显的多样化属性[4].网络的开放性和动态性决定用户上网数据复杂程度逐渐提高,导致网络用户行为分析的难度也逐渐提升.
基于此,本文提出网络用户行为大数据分析引擎设计,重点对大数据的获取进行优化.通过本文的研究,以期为网络用户行为分析工作提供有价值的参考.
本质上,通过观察计算其中的规律性特征,将其转化为相关行业或平台的优化目标.随着网络数据规模的增加,对用户行为信息进行有效采集,对采集到的数据进行准确分析成为了相对困难的课题[5].获取完整可靠的数据信息是网络用户行为大数据采集分析的前提,为此,本文从数据采集分析角度对引擎进行设计.
近些年来,伴随着现代信息技术的发展,互联网的应用范围和应用程度都实现了大幅提升,因此,要实现对网络用户行为大数据分析,可靠的数据采集是极为必要的.为此,本文采用搭载了FACE(FPGA Algorithm Acceleration Engine)算法的数据采集装置FACE-ZU-15EG作为引擎的数据采集构件,以此适应不同环境下的数据获取需求[6].
图1 FACE-ZU-15EG数据采集构件实物图Fig.1 Physical map of FACE-ZU-15EG data acquisition component
首先,在FPGA与ARM的支持下,FACE-ZU-15EG可以实现对相关连接软件及硬件的灵活控制,不仅如此,FACE-ZU-15EG支持全可编程操作,因此可以按照设计引擎的实际应用需求做出适应性调节,在并行算法的运行模式下,当网络中出现动态的可重构用户行为数据时,FACE-ZU-15EG也可以是在短时间内完成对其的搭配组合,外围搭载的大容量DDR3/DDR4存储以及PCI-E、QSFP、SATA等高速接口,使得引擎相关功能项目的开发不会受到额外干扰.其实物图如图1所示.
利用FACE-ZU-15EG获取网络用户行为数据时,主要是利用其搭载的FACE系统实现的,FACE-ZU同时搭载ZYNQ UltraScale器件以及ZYNQ-7000全可编程器件,使得数据和数据传输可以同步进行.FACE-ZU系统搭载FPGA主器件为XTBPD0032-2FFVB14125I,板载FPGA协处理器件为XC4500-2CLG440I.当所采集到的网络用户行为大数据出现异常波动时,二者共同作用可有效实现对FACE-ZU-15EG的采集速度适应性地进行调节.
其次板卡外设有PS DDR4 SODIMM插槽,采集到的数据可以实时传输到传输装置中.考虑到由于部分条件下可能会存在网络环境异常的情况,导致数据的传输速率与采集速率出现偏差,为此,配置2个USB 2.0接口作为备用连接,确保数据采集工作的顺利进行,内置的8GB PS eMMC存储器可以暂存采集的数据[7].在512 MB PS QSPI Flash存储器的支持下,PS Micro-SD卡槽支持内存拓展,适应更大规模的数据暂存需求.对于ZYNQ协处理器的外设构成,分为PS部分和PL部分两组构造.其中PS部分包括1个1024 MB DDR3存储器,1个256 MB QSPI Flash存储器,千兆以太网以及一个64 GB的eMMC存储器;PL部分包括1个FMC扩展连接器,其中含有4对GTP,34对LVDS,2个PL差分时钟以及1个MGT时钟.FACE-ZU-15EG搭载的Zynq UltraScale+ MPSoC处理器系统具有三个主要的处理单元.其运行方式如图2所示.
图2 以FACE-ZU-15EG为基础的网络数据获取流程Fig.2 Network data acquisition process based on Face-ZU-15EG
在图2的基础上,通过在引擎内一键创建Vivado,生成FACE-ZU-15EG的配置文件,其采集到的数据就可以直接解压到目标目录,在Vivado开发环境下对数据进行进一步分析[8].
通过该构件,实现对网络数据的完整获取,为后续的分析工作提供可靠的基础.
定义网络用户关系为G=(B,F),其中,B表示网络中具有相同行为的用户集合,F表示用户之间的联动关系.根据FACE-ZU-15EG采集到的数据,网络中活跃程度高的用户所产生的行为与其他用户产生关联的几率更高,因此,在网络中拥有较多互动行为的用户节点对应的行为在整个网络行为中的贡献也更大[9-10].本文通过计算用户关系网络中活跃用户节点与其他节点的交互连接次数,衡量用户之间行为的相似度.本文采用PageRank算法确定网络中用户的活跃程度:
(1)
其中,R(a)表示用户a的活跃程度,c表示活跃阻尼强度,在正常网络环境中,其取值范围为[0.80,0.90],n表示采集的数据中包含的用户总量,D(Ui)和R(Ui)分别表示所有其余用户与a用户的互动次数和互动频率.通过这样的方式,得到活跃度相对较高的用户,本文取前20%作为基础用户,对其关联的用户在行为上相似度达到60%的作为聚类标准,再将与之关联的二级用户相关联的用户在行为上相似度达到70%的作为聚类标准,以此类推,最终得到的聚类结果为:
P=a+0.6a+0.7(0.6a)+(0.8(0.7(0.6a)))+...+(1(0.9(0.8)(0.7(0.6a)))))
(2)
其中,P表示聚类结.通过这样的方式,以聚类为单元,分析每个聚类中用户的行为特征,本文利用HITS算法计算,其表示方式为:
(3)
其中,ei表示聚类中行为的中心值,f(P)表示聚类P的行为特征.
为了测试在实际网络环境中本文设计引擎对用户行为分析的效果,进行如下测试试验.
本文以某学院1年时间内IIS服务器的用户访问日志作为测试数据,利用Java语言对IIS的日志文件数据完成解析后,通过FACE-ZU-15EG对其进行采集.结合实验服务器的数据规模以及数据流量大小,本文将Cortex-A53作为应用程序处理单元,以FACE-ZU-15EG的APU形式存在,并设置其对应的构架为64位四核CPU ARM v8;将Cortex-R5为FACE-ZU-15EG的实时处理单元,以FACE-ZU-15EG的RPU形式存在,并设置其对应的构架为32位双实时CPU ARM v7;将ARM MaliTM-400 MP2作为FACE-ZU-15EG的GPU.利用USB3.0接口和串行GMII接口作为数据传输接口,实现最大5 Gb/s,最小1 Gb/s的传输线速率.以此为基础,将数据传输到分析引擎中,以K-均值聚类的方式将具有相似行为的用户聚类,并设置不同的阈值标准,分别统计聚类结果.
在上述基础上,首先统计了引擎在数据采集方面的效果,采用现阶段应用最为广泛的YAFIM和Flume作为对照组,测试结果如表1所示.
从表1中可以看出,本文设计的分析引擎,在数据采集方面具有良好的应用效果,在不同的最小支持度阈值下,项目粒度明显小于对比方法,用户粒度高于对比方法.这是因为本文在网络数据获取方面应用FACE-ZU-15EG,按照实际数据环境需求通过ZYNQ-7000全可编程器实现了采集速率的自适应调节,以此提高采集速率.
在上述基础上,统计了本文设计分析引擎对用户行为数据的聚类结果,其具体如表2所示.
从表2中可以看出,在不同的相似度阈值条件下,本文设计的分析引擎对用户行为的分析具有较高的准确性,相似行为的聚类质量始终保持在0.700 0以上,且孤立点的数量不超过170个,表明设计引擎能够对绝大多数网络数据进行采集分析,聚类数量随着相似度阈值增大而增加,表明引擎对行为的分析精度也逐渐提高.
网络时代,用户行为数据中不仅体现出了用户的需求,同时也暗示了相关行业的发展或者转型的方向.而网络用户行为在一定程度上指导着网络的发展方向,同时对于相关行业的发展,其中蕴含的数据价值也是极具指导意义的.精准有效的数据分析是十分具有现实价值的.海量网络用户产生的数据规模是巨大的,如何实现对这种海量数据的分析成为了值得关注的问题,本文设计的网络用户行为大数据分析能够实现对数据的有效采集分析.