王准
(广州工商学院,广东 广州 510850)
基于大数据的网络广告精确投放研究
王准
(广州工商学院,广东 广州 510850)
随着社会日新月益的发展,互联网在人们生活中得到了普及,人们对其的使用范围越来越宽广,所以,人们逐步进入互联网的大数据时代.在互联网广告中,借助应用大数据能够有效促进广告精准投放的成效,为网络广告的发展带来很大程度的发展.本文旨在分析基于大数据的网络广告精确投放的平台、算法、系统模型等,为实现广告精准投放提供借鉴.
大数据;网络广告;精确投放
大数据非常具有影响力,能够给人们的生产和生活带来诸多的改变,因此,大家深有体会大数据时代给人们所带来的影响,使得大数据时代已成事实.在电子商务以及网络的快速发展中,大数据作用越来越凸显,使得网络广告方面也发生一定的改变,在现代大数据快速发展的时代中,凭借以往经验决策的时代早已成为过去,现在靠的是迅速、准确找到用户的特点、需求,进而提高广告投放的准确度.所以,随着数字信息化的发展和对各类客户的行为数据等方面进行不断的积累,大数据将赋予网络广告精确投放将会更上一个台阶.
数据管理平台,简称DMP,是集中分析上网数据的平台,能够定向推送服务广告,并且功能明显.DMP关乎能否提取用户上网行为的特点,如果没有DMP,就没有用户行为特点与广告相匹配,定向广告无法实现.所以,在网络定向广告的推动中,数据管理平台所发挥作用非常重要.同时,DMP是DSP的核心,能够管控广告代理商和广告商家对大众数据进行有效管控,借助这些数据,进而有效实现广告计划的管理和媒体购买.
1.1 对用户数据进行预处理
每天有批量人员进行网络操作,所以用户将产生众多的网络日志文件,因此,对用户网络数据进行处理,主要是利用DMP在Hadoop集群的基础进行处理,对Web日志进行预处理工作主要包括截取关键字段和识别独立用户两个方面,预处理之后,web日志就变成规范的数据.借助关键字段截取功能,对海量的日志文件进行有目的性的截取,从而降低运行成本的开销.截取字段可以包括用户访问网址、ip地址以及访问时间等方面的信息.这些web日志经过预处理后,将转变为规范化的数据,由关键字段组成,主要包括访问网址、时间以及标识等方面,这些将有利于对用户行为进行针对性的分析.
1.2 对用户行为特征进行分析
用户行为特征分析作为DMP的关键部分,主要任务是对用户上网的行为数据借助一定的方式方法进行有效的分析,进而得到用户兴趣的数据统计.其具体流程如图1所示.
图1 用户行为特征分析流程图
1.3 更新用户特征的数据
数据更新指的是要随着时间的改变更新用户兴趣特征方面的数据,而且这非常有必要,因为,用户会随着时间的延长,兴趣行为特征有可能进行改变.比如:一个女士用户在双十一的时候想购买一条牛仔裤,因此,浏览网页都是牛仔裤方面的网页,但是,当她购买完成这个牛仔裤后,下次再浏览网页的时候,就不会再继续浏览与牛仔裤相关的网页,而是失去了购买的兴趣,经过一段时间,该女士又想购买外套,所以又浏览了和外套相关的网页,所以,兴趣特征发生改变,如果不第一时间将此数据进行更新,将会对推送广告与用户兴趣产生差距.因此,用户数据特征的及时更新反应着DMP的优劣.
2.1 建立向量空间模型
在对用户进行网页浏览的过程进行兴趣行为的特征分析的时候,用户行为的特征不同,那么所对应的关键词的重要性也不尽相同,以往的向量空间的模型不能计算这种差异性的要求,所以,对此空间向量模型进行优化、改进,分析用户浏览行为进行分析,重新权衡用户兴趣行为特征的关键性的重要性,尽量接近用户表现出来的兴趣爱好.例如:一个用户进行了n中浏览行为,而且每一个都不一样,且每一个对用户兴趣的影响程度均不一致,利用权重来进行区分,关键词Wi用ε1,ε2,...εn来表示,n种不同浏览行为的权重用fi1,fi2,…Fin来表示,那么,用户有效浏览n个文档时行为特征的关键词用出现的词的频率,在传统向量空间模型中tfi为:
优化后的权重计算方法为:
广告dj和网页di的相似度计算方法是:
其中w'(wki)表示关键词wk在网页di中的权重,w'(wkj)表示关键词wk,在广告dj中的权重.
2.2 向量模型的语义扩展
本文主要是对向量空间模型进行了语义扩展,算法的流程具体如图2所示.算法首先借助前面优化的向量空间模型来计算用户兴趣模型关键词的权重,并对向量进行裁剪,包括m个权重最高的关键词.借助语义关联的工具可以对关键词进行词汇扩展,利用其同义词、近义词以及予以相同的词.但是用户兴趣新的模型和其扩展词汇没有直接的关系,所以,W构建与贝叶斯网络结构计算扩展词汇的权重相似.首先,借助基于中文维基百科分类体系和链接结构的多路径语义相关度算法计算关键词和扩展词的语义相关度,然后再利用这一相关度及关键词在原用户兴趣模型中的权重构建类贝叶斯网络来计算扩展词在新模型中的权重.
图2 向量空间模型扩展流程图
2.3 更新用户兴趣模型
利用向量聚类算法主要是对向量空间模型进行语义扩展,然后再按关键词进行聚类,用公式计算出聚类形成的每个词向量簇的权重WUi,进而计算出每个词向量簇的质心dQEi,最终用于评价广告和用户匹配得分的计算公式是:
其中,词向量簇质心dQEi与广告ak的相似度Sim(dQEi,ak)用改进的向量空间模型计算.广告和每个兴趣簇质也都有一个得分,选取值最大的作为该广告的最终得分.按照这个得分对待投放的广告进行排序并将得分最高的广告投放给用户.
因为内容定向精确投放广告的算法仅仅是选取了网页的一些关键词并按照网页的主题去投放广告,该方法基于网页种的内容,并未有效挖掘用户的兴趣和喜好,因此广告的投放效果不是很理想,常常投放的广告对于用户而言并不感兴趣.文章提出一个建立在用户浏览行为基础上的广告精确投放算法,这种算法在提取用户浏览网页所用关键词的同时还考虑到各种浏览行为的特点对关键词所形成的影响,任一浏览行为其所相应的浏览内容均有不一样的权重,在特性分析的同时对传统的向量空间模型予以改进,从而使向量空间模型可以更为准确的体现出用户的兴趣.不过改进的向量空间模型与广告间仍然有一定的语义失配,故而要运用语义关联工具对可体现用户兴趣的关键词予以词汇上的扩展并计算出其权重.考虑到这个问题,文章先提出在维基百科基础上的多路径语义的算法,用来计算关键词及其扩展词的相关度,继而结合用户的兴趣和关键词的相关性以及关键词和扩展词的巧关性,构建出一个很像贝叶斯网络的模型去计算扩展词的权重.
3.1 需求分析
目前的网络广告投放主要有下面3种形式:
(1)传统媒体,这种投放形式是依据时间的长短在媒体上买广告位,该模式的投放成本非常大,而且资源比较分散,往往不可有针对性的寻得目标受众.
(2)网络联盟,通过该投放方式,广告主以及代理商能够依次买到一百家以上媒体,能够执行跨媒体的频次控制,其长处是投入的成本比较低,而且曝光度较足,其短板是广告常常出现于一些小型网站中,对品牌的影响力很有限,仅可按网站本身的属性进行初步的定向.
(3)需求方平台DSP,通过这个平台,广告主可以借助交易平台去购买受众.它借助cookie分析人群的行业习惯以及个人特点,从而把广告精确的投放至最需要的用户,这种方式的用户覆盖面非常广,其投放的成本也很低,且投放的效果比较好,发展前景非常广阔.
3.2 总体流程设计
本系统主要是对用户兴趣行为进行分析,然后定向广告投放算法进行分析,然后针对用户的兴趣行为特征选择相关的广告,匹配度高,让广告交易平台参与广告的竞价.系统W能够通过对用户的兴趣分析,能够实现广告的精准投放,很大程度上提高了广告投放的成效,在增加广告收入的基础上,实现了多方的共赢.系统的总体流程设计如图3所示.
图3 网络广告精确投放系统流程图
3.3 功能模块设计
按照模块功能,可以将精准广告投放系统的原型DP分为:广告模块、用户信息处理模块及系统管理员模块,其中,广告投放系统按照模块功能可用图4来表示.
图4 网络广告精确投放系统模块图
3.4 广告投放的效果
本文设置投放次数10万次,手机广告以及汽车广告均是10万次的投放次数,分别利用大数据网络广告的投放方式和传统方式进行投放,对投放效果进行量化,可以采用广告点击率的方式,结果显示,在用户浏览行为的基础上,大数据的广告精确投放算法能够充分挖掘用户的兴趣行为特征,能够对此投放与之相近的广告,虽然投放的次数与传统的投放次数有所减少,但是投放广告的点击率和有效率得到了提高,即有效投放,投其所好,较传统投放,点击率提高了一倍多,成效明显.
综上,文章首先对网络广告数据管理平台如何构建进行了概述,结合目前网络广告投放不能够够精确表达用户兴趣等方面的问题,提出了基于用户兴趣浏览行为大数据的广告精确投放算法,并在此基础上建立了定向广告投放系统模型,形成网络广告精确投放系统,进而实现了广告精准投放的目标.
〔1〕俞淑平,陈刚.一种髙效的行为定向广告投放算法[J].计算机应用与软件,2011,28(1):4-7.
〔2〕施灿灿.网络定向广告中用户兴趣模型研究应用[D].合肥工业大学,2013.22-30.
〔3〕周蒙.面向互联网用户的个性化广告推送服务研究[D].上海:东华大学,2014.22-29.
〔4〕李志.互联网广告精准投放平台的研究[D].武汉华中师范大学,2013.5-6.
〔5〕王中华.网络广告模式现存问题及解决思路探讨[J].经济研究导刊,2010(1):22-25.
〔6〕刘铁岩.方兴未艾的计算广告学[J].中国作者姓名.
F713
A
1673-260X(2017)01-0100-03
2016-10-27
2015年广东省教育厅重点平台及科研项目(青年创新人才类项目(No.2015KQNCX196));2016年广东省高等教育学会高职高专云计算与大数据专业委员会课题(No.GDYJSKT16-06)