汪晓东/中国联合网络通信有限公司烟台分公司
移动互联网的大数据处理关键技术
汪晓东/中国联合网络通信有限公司烟台分公司
【摘 要】通过大数据的研究处理将获得的有用信息服务于企业或机构,使其在竞争中取得优势,来为企业提供更好的处理大数据的方法,帮助企业更深刻的理解客户对其的需求和体验,以利于业务的发展,用户也可以更好地体验移动互联网各种资源。本文首先对移动互联网大数据做了概述,然后分析了移动互联网大数据处理中存在的问题,最后详细阐述了移动互联网的大数据处理关键技术。
【关键词】移动互联网;大数据;处理;排重;整合
移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:与网络信令、协议、流量等相关的网络信息数据;与用户信息相关的用户数据;与业务相关的数据。
大数据提供客户经历的各种体验的完整信息,可以详尽到在任何时间、地点,结合移动客户体验方案来分析相关数据,从而帮助运营商更详细掌握客户体验情况,提前预知网络上可能发生的问题,及时做出合理响应,这些信息对运营商的服务提供很大的帮助。大数据分析为整个电信产业带来了前所未有的机遇与挑战,如何高效地发挥这些数据资源的作用,是摆在为运营商面前的关键问题。
(一)多源数据采集问题
大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:
1.无线移动网络结构复杂,需要在网络中高效地采集数据。
2.多源数据集成和多类型数据集成的技术。
3.兼顾用户的隐私和数据的所有权和使用权等。
(二)移动互联网海量异构数据管理问题
据统计,2003年前人类共创造了5艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。
(三)移动互联网大数据实时数据挖掘问题
传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,Online Analytical Processing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、WiFi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。
(一)数据处理的整体框架
数据处理的整个过程如图1所示,主要包括四个模块:分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据。
图1 数据处理的整体框架
这四个模块的主要功能如下。
分词:对抓取到的网页内容进行切词处理。
排重:对众多的网页内容进行排重。
整合:对不同来源的数据内容进行格式上的整合。
数据:包含两方面的数据,Spider Data(爬虫从网页中抽取出来的数据)和 Dp Data(在整个数据处理过程中产生的的数据)。
(二)数据处理的基本流程
整个数据处理过程的基本步骤如下:
1.对抓取来的网页内容进行分词。
2.将分词处理的结果写入数据库。
3.对抓取来的网页内容进行排重。
4.将排重处理后的数据写入数据库。
5.根据之前的处理结果,对数据进行整合。
6.将整合后的结果写入数据库。
(三)数据处理的关键技术
1.排重。
排重就是排除掉与主题相重复项的过程,网页排重就是通过两个网页之间的相似度来排除重复项。Simhash算法是一种高效的海量文本排重算法,相比于余弦角、欧式距离、Jaccard相似系数等算法,Simhash避免了对文本两两进行相似度比较的复杂方式,从而大大提高了效率。
采用Simhash算法来进行抓取网页内容的排重,可以容纳更大的数据量,提供更快的数据处理速度,实现大数据的快速处理。
Simhash算法的基本思想描述如下:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。
(1)初始化一个C维向量Q为0,C位的二进制签名S为0。
(2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1〈=i〈=C,如果H的第i位为1,则Q的第i个元素加上该特征的权重;否则,Q的第i个元素减去该特征的权重。
(3)如果Q的第i个元素大于0,则S的第i位为1;否则为0。
(4)返回签名S。
对每篇文档根据SimHash算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可。根据经验值,对64位的SimHash,海明距离在3以内的可以认为相似度比较高。
2.整合。
整合就是把抓取来的网页内容与各个公司之间建立对应关系。对于每一个公司来说,可以用一组关键词来对该公司进行描述,同样的,经过dp处理之后的网页内容,也可以用一组关键词来进行描述。因此,整合就变成了两组关键词(公司关键词,内容关键词)之间的匹配。
对于网页内容的分词结果来说,存在着两个特点:(1)分词结果的数量很大;(2)大多数的分词对描述该网页内容来说是没有贡献的。因此,对网页的分词结果进行一下简化,使用词频最高的若干个词汇来描述该网页内容。
3.流处理系统。
移动互联网的多源异构数据每时每刻都在大量产生着。数据探测模块根据这些数据处理的不同要求,将数据分别送给实时处理系统和批处理系统。很多互联网公司将根据业务的需求和处理的时间将划分为在线、近线和离线三种方式来处理业务消耗的时间。这其中,在线处理的处理时间通常在毫秒级,一般采用流处理方式;离线处理的处理时间通常以天为单位,一般采用批处理方式。这样会最大程度地利用好输入/输出系统。近线处理对其处理模式没有特别的要求,处理的时间一般在分钟级或小时级,在实际情况中多采用此处理方式,可根据需求灵活选择。
综上,随着移动互联网的迅猛发展,客户处理的业务越来越复杂,与其相关的大数据正逐渐增长,大数据分析技术已经成为各方关注的焦点。合理使用大数据将有效的发挥移动互联网大数据的资源作用,使大数据为用户获得前所未有的体验,为企业发展提供完整清晰的指引。
参考文献:
[1]张铮. 浅析网络大数据的采集和处理方法[J]. 信息系统工程,2015(10).
[2]刘智慧,张泉灵. 大数据技术研究综述[J]. 浙江大学学报(工学版),2014(06).
[3]王秀磊,刘鹏. 大数据关键技术[J]. 中兴通讯技术,2013(04).