基于移动互联网大数据分析平台的研究

2017-07-13 03:06刘国峰中国人民大学信息资源管理学院
消费导刊 2017年19期
关键词:画像用户算法

刘国峰 中国人民大学信息资源管理学院

基于移动互联网大数据分析平台的研究

刘国峰 中国人民大学信息资源管理学院

互联网用户行为特征的大数据分析平台,涵盖了云计算、大数据的各个知识点,主要研究当前互联网的用户行为习惯及购买偏好等、利用网络爬虫技术自动收集互联网上的用户访问行为记录,结合当前流行的算法进行分析建模,运用hadoop等大数据框架进行后台运算,最终生成用户的行为习惯数据模型。

移动互联网 大数据分析 模型 平台

一、平台的诞生及市场背景

在广告交易平台方面,除了BAT以外的交易平台整合媒体资源的能力,一般公司的服务器响应能力、数据并行计算能力、解决方案、反作弊技术成熟度方面均表现欠佳。此外,行业标准化程度也参差不齐、有待提高,例如广告尺寸、DSP接口、DMP平台数据标签化分类等。在DMP平台化方面,当前国内缺乏正式的第三方独立DMP平台,大多以私有DMP平台为主,数据孤立,无法实现数据利益的最大化。大数据分析平台正是基于以上实情研发而来,其有效解决了平台底层计算的逻辑及算法问题。

当前国内专门从事大数据分析的企业还不是特别多,这里对比了几家大数据相关行业的企业,比如北京友友天宇系统技术有限公司的友友系统以及北京学之途网络科技有限公司的秒针系统等,这些企业普遍存在着研发成本较高、开发周期较长、开发与维护成本较高等问题。

互联网人群画像识别技术,目前在国内还属于一个不成熟的发展阶段,且具有不透明性。当前市场上主要的技术服务型公司还主要集中在PC端的人群画像识别层面,比如百度指数、阿里的达摩盘、腾讯的广电通等。

“双十一”是阿里与2011年在国家商标局注册的商标,截止到2014年11月11日,阿里双十一全天交易额571亿元。可以说,阿里后台基于大数据的研发技术——互联网用户画像造就了这样一个天文交易数据。大数据分析、大数据预测、大数据的画像技术,给商家提供了精准营销的策略依据,为消费者减少了垃圾广告的展现次数。腾讯的开发平台用户分析——用户画像,主要分为地域分布、用户年龄特质、用户性别特征、用户职业分布、用户QQ等级分布、使用场景分布等几项。

另外,大数据分析的市场需求非常高。市场研究公司MarketsandMarkets之前发布的一份报告预测显示,从2013年到2018年全球大数据将出现年均26%的增长率,即从13年的148.7亿美元增长到2018年的463.4亿美元。2015年上半年市场规模已经超过2014年全年,达到25.71亿元。

二、技术原理

大数据分析平台的搭建与运维,是大数据分析处理的基石,为大数据的分析处理提供分布式存储、分布式计算、分布式资源调度等处理能力。主要包括使用目前主流的hadoop系列进行移动大数据平台的搭建、运维、监控、展示等工作。技术指标主要有:响应时间(毫秒级)、处理能力(PB级)、集群规模、稳定性、识别率、准确率等等。

平台的扩展需求只受存储资源的限制,当系统存储空间不足时,可在保证系统服务连续的前提下,对系统进行在线动态扩容,并且自动进行适当的数据迁移和负载均衡,以保证所有节点的有效使用,消除容量瓶颈。

互联网用户行为特征的大数据分析平台,采用当前云计算及大数据处理技术的hadoop框架技术,包括统一用户识别技术、数据采集、分析处理、算法模型、结果集市等模块。

(一)统一用户识别技术

指将不同渠道间的互联网用户通过统一用户识别技术进行打通整合,形成唯一的互联网用户数据,为最终用户画像的形成提供唯一标识。经过分析多渠道的PC端、移动端的数据,采用相应的数据算法模型,研究出一套将来自多渠道的数据相互打通的解决方案。经过数据测试验证,渠道间用户的统一用户比例为1:3.6。

(二)实时采集模块

占用CPU、内存资源都很小的情况下,能迅速将数据实时的发送到接收端进行后续的处理,同时支持多线程、断点续传等技术。

经过研究国内外的数据采集框架后发现,许多开源的数据采集框架存在bug、不稳定、丢数据等情况,例如flume。于是自主开发了一款简洁实用的采集工具cotail,采用脚本语言python编写,代码量少,功能强大,性能优越,可实现多线程、多目录、多文件的数据采集。经过内部测试,平均响应速度比flume快20%左右,日志无丢失现象,可以实现断点续传和多线程功能。

(三)分析处理模型

采用多层数据模型,比如第一层数据源,专门存放采集的原始数据集;第二层数据清洗层,用来将清洗后的规范数据进行临时的存放;第三层数据识别层,开始逐步将数据与数据字典中的知识库进行匹配识别,形成初步的标签数据;第四层画像层,通过不同的用户属性标签,将用户数据不同的属性进行合并操作;第五层数据集市层,将最终的平台画像等数据进行存储,随时供业务进行调用访问。

(四)算法模型

算法权重的计算,有很多种方式,比如定量统计法、专家评定法、对偶比较法等等。经过多方实践,最终使用数据建立数学模型,形成了自己的衰减算法,并获得了衰减算法的公因子,在整个数据处理过程中至关重要。

三、平台研究中的数据流转过程

互联网用户行为特征的大数据分析平台,运用大数据hadoop系列框架处理技术,其中包括分布式存储、分布式计算、分布式数据库等,将企业在日常生产中产生的多种大数据进行整理分析,进而产生对企业有价值的数据。

首先,使用分布式的爬虫技术从互联网上爬取用户活跃度比较高的网站内容数据,作为原始数据的一部分;同时,接入三方的数据进行原始数据的补充,比如inmobi、芒果等三方数据;其次,使用hadoop系列大数据分析平台进行数据的ETL处理,一部分数据经过数据挖掘算法处理后形成基础数据库,基础数据库再经过人工的优化最终形成完善的基础数据库。另外,数据经过平台处理,最终形成可供企业客户使用的互联网用户人群数据。

四、平台的优势及风险

通过互联网用户行为特征的大数据分析平台独特的处理分析流程,将互联网复杂纷乱的不相关数据进行整合处理,进而根据需求生成用户的多种维度属性数据。该平台采用当前互联网上流行的大数据计算框架和算法分析技术,保证了技术的先进性和实效性,无论是在云计算,还是大数据方面,均处于行业领先水平。在电信、广告、媒体等行业中都可以使用,推广力度较大,市场需求较广,该平台可以在短时间内为企业进行大数据平台的建设,并保证相关技术处于行业的领先水平。

通过网络爬虫、第三方数据合作等方式采集互联网人群、移动端人群的两大用户群体的用户浏览行为、用户购物行为、移动端使用情况等数据,利用大数据进行汇总分析、数据挖掘、人工智能等技术,进而得到整个互联网人群的画像数据。

大数据是当前计算机领域较为热点的研究内容,很多初创公司都在大数据背景下进行着技术创新,主要风险来自于资金以及三方数据合作两个方面:

资金风险在进行大数据研发过程中,需要购置大量的服务器设备进行数据运算以及维持服务运行,这些设备的购置将需要大量的资金;另外在进行相关研发中,需要聘请专业的技术人员、销售人员和管理人员,他们的薪酬也需要大量资金支持。对于初创公司来说,资金的不足将成为公司长久运行的风险。

三方数据合作,指与第三方数据单位进行战略合作,打通爬虫爬取不到的数据资源,作为原始基础数据的补充部分,比如移动端的流量数据。目前三方数据的获取主要依靠战略合作、资源交换、购买等方式获取,且数据格式、完整性等存在不规范,需要进行专门的整理或者简单处理方可进行后续的使用。

五、小结

历史数据或结果数据的特点是大多含有时间属性、常以追加方式写入、并且很少进行的结构化数据。本平台使用多种手段来提升存储系统的整体访问性能。包括:将大量的数据及访问请求进行合理的水平、垂直分割,充分发挥网络以及服务器的I/O吞吐能力;支持用户自定义的各种数据格式,并根据具体的应用需求,使用特定的数据结构来针对性地提高数据的访问效率;同时支持内存和磁盘数据库,利用不同存储层级的设备为实际应用提供可扩展的高速缓存和持久化的数据存储,并且可根据具体业务需求进行单独使用或者组合使用,从而在时效性、安全性和重要性上实现对数据的差异化处理。

[1]陈丹,郭先会.Hadoop在电信大数据平台的研究与设计[J].现代电信科技.2014(08).

[2]方少卿,周剑,张明新.基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J].计算机应用研究,2013(02).

[3]黎宏剑,刘恒,黄广文,卜立.基于Hadoop的海量电信数据云计算平台研究[J].电信科学.2012(08).

猜你喜欢
画像用户算法
威猛的画像
“00后”画像
画像
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
关注用户
关注用户
一种改进的整周模糊度去相关算法
关注用户