孙晓博
中国传媒大学广告学院,北京 100024
浅析大数据的商业应用与问题
孙晓博
中国传媒大学广告学院,北京 100024
如今大数据的商业应用主要集中在行为标签、智能推荐、管理系统、数据整理与展示以及广告检测智能系统等,国内外大量企业都已经开始或准备开始利用大数据创造新的利润增长点。虽然大数据在商业应用中拥有巨大潜力,但是其在应用中也存在一些需要思考的问题,包括计算速度制约全数据计算、海量数据的假规律风险、断裂数据和封闭数据以及缺失数据。在肯定大数据应用的进步和成果的同时,只有思辨地看到大数据应用过程中还存在的误区,正视当下需要思考和解决的问题,才能更清晰地理解大数据应用的商业逻辑以及局限。
大数据;商业应用;应用误区
2008年7月,O’Reilly Media出版了《Beautiful Data》,同年9月《Nature》刊登了“大数据”专辑,微软出版了《第四范式—数据密集的科学发现》,①首次提出了大数据的概念。大数据实际上指的是巨量数据,即无法通过传统的主流的工具在合理的时间内进行提取,整理,分析,并得出有价值的有指导的信息。IBM将大数据的特点总结为3V:数据量大(Volume),种类多(Variety),Velocity(速度快)。在此基础上,还有人提出另一个“v”,就是价值高(Value)。数据量如此巨大,如果没有科学地进行分析和筛选,那就只能是“白噪声”,如何在如此“海量”的数据里面筛选出有用的信息本身就是一个在智能信息传播领域的重要研究课题。本文希望通过分析当前大数据在商业当中的应用现状找出其中存在的问题。
如今大数据在商业中的应用主要是集中在行为标签、智能推荐、客户管理系统CRM、推广监测质量评估与防作弊、数据整理与展现、广告监测智能系统等方面。其中有以下几个方面的应用备受关注。
首先是智能推荐。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,它代表的是对象属性与对象值之间的一种映射关系。②以今日头条为例,它根据用户登录方式的区别,有2种推荐信息的方式。一种是用户选择作为游客身份登陆,今日头条会根据合作媒体的热点推进进行推送,随着用户的使用和频次增加,之后的新闻推送会针对用户更有针对性;另一种是用户选择通过微信、微博或者QQ等方式登陆,今日头条由此获取用户的基本数据,推荐用户感兴趣的消息,并且在对新闻消息进行评论的时候,用户可以看到自己朋友的评论,从另一方面增加用户的互动性和亲切感,增加了品牌效应。这一个方面的应用在一定程度上改变了过去的大众传播模式,开创了一个新的传播方式,也是精准传播的基础。
第二个重要应用是客户管理系统CRM。其中的用户生命周期管理CLM包含客户获取、保留、提升价值等整个周期的管理。CLM可以通过预测用户流失机会,并自动推广活动来实施。生命周期数据分析:首先在客户的获取期,首先是潜在客户识别,在这个阶段,应该判断客户的购买意向,分析、预测潜在市场的规模及变化,开展“拉新”;然后在客户的提升期,分析在网客户的业务使用情况,了解价值提升的瓶颈;在客户的成熟期,分析、跟踪成熟客户的忠实度及深度需求,包括对新业务的需求,会用到关联性交叉销售、客户分群渠道评估,从而实施营销策略来实现品牌引导,在客户的衰退期,分析、监控用户的使用量变化,需要进行客户流失预警、客户关怀回流和精准营销,密切了解竞争态势,制定针对性营销举措。
第三是在推广渠道质量评估与防作弊方面。作为广告主,选择让广告效用性价比最高的广告位是极为重要的,于是大数据成为一个良好的工具。在大数据的支持下实现了常用的互联网广告付费机制CPC、CPS等。当然,还做到了更加实时的RTB广告,它在每一个广告展示曝光的基础上进行竞价,就是为一个出现的PV进行一次展现竞价,出价高的广告将被这个PV看到。③CPC广告按照每次点击付费,如今互联网广告的类型中有80%是CPC广告。大数据还可以帮助解决点击作弊的预防与检测。爬虫程序以及机器人作弊程序的泛滥将会使广告主被错误的指标所影响做出错误的决定。活跃用户行为判断是指用户使用应用时,像不像一个正常的用户,主要是通过用户使用各功能模块的占比和使用时长来衡量的,包括:点击率、留存率、整体活跃用户、活跃用户行为形状、集中度和其他产品特有属性。这些在大数据应用之前是很难实现的。
其他方面的大数据应用在商业领域广泛地展开,已经出现了许多成功的案例。在国外,大数据的应用已经在超市商场里广泛应用起来。英国的Tesco采用的是抽样试验分析、大数据推送的方式,只要你进行了完整的消费,他就会根据你的消费进行准确的广告推送。又比如时尚购物品牌ZARA,可以结合陪伴购物和监视器视频数据来获得许多有用的信息,如在某一件衣服面前的驻留时间和频次,以便能够更好地为当地客户提供更加喜欢的服装款式和制定更加理想的店内购物路线设计。在国内,大数据也在商场开始应用。如刘德寰的国内手机市场数据分析等等。另外,在国内互联网企业巨头百度、腾讯、阿里巴巴在大数据的应用方面也是各有千秋,各有优势。这些陆续增加的应用显示出数据的常用时代将拉开帷幕,因此我们亟需注意大数据商用当中的问题所在。
一方面,大数据应用自身在技术上仍然存在着各种各样的问题。
第一类问题是标签错误,仅仅依靠标签抓取的信息有时候是偏颇不可靠的。标签的设定往往源于用户的浏览记录,所以可能会弹出并不是当前使用者所关注的信息。例如当笔者登录淘宝时,经常看到很多关于中老年宽大衣服的推荐,其实源于双11笔者的母亲要求笔者查找一些她需要的厚裤子。这种错误是因为系统把对我们的标签中某些属性定义错了,给我们推送了错误的信息,没有达到精准投放的效果。
第二类问题是算法的缺陷。常见的聚类分析算法有:层次聚类算法,其对给定的数据对象集合进行层次分解,改进的层次聚类算法有:BIRCH,CURE和Chameleon等;基于划分的方法,比如K-MEANS;基于密度的聚类算法,比如:DBSCAN,DENCLUE。比如推送冰箱广告给采购买冰箱的用户,让用户再次购买消耗度较小的产品,这样的广告推送无效,且易让人反感。
第三类严重的问题是目前的大数据应用缺少深度分析。大数据时代最不缺少的就是数据,可是如何在海量的数据中发掘有用的信息或者说发现知识是亟需解决的重要问题。在算法中要考虑先验知识,相似性量度等问题,这些都需要人工定出,只有这样才能做到在传统统计学与大数据、以及智能分析的基础上得出相对准确的决策。
另一方面的大数据应用问题则是人为问题。人们对大数据的认知和理解上也存在着偏差。
首先,人们容易盲信大数据的准确性,其实海量数据也会呈现出许多假规律。很多人都知道著名的Google预测流感的案例:在甲型H1N1流感爆发的前几周,Google的工程师们把5000多条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感时期的数据进行了比较。④他们的预测与官方数据的相关性高达97%。但是后面的测试却越来越乱,很不准确,这其实就是因为大数据是重相关关系。如果在感冒发生的时期,还有一场重要的赛事,或者重大的演唱会,会有很多人去搜索这些关键词,这样搜索赛事和演唱会就构成了感冒预测的关键词,而其实他们并没有关系。海量数据必然含有海量噪声,如果建模的错误或算法的优化等问题,就会出现全数据全相关的情况,事事都相关。
其次,人们容易盲信大数据的全面性,目前许多所谓的大数据只是断裂数据和封闭数据,所以任一封闭数据集上的信息种类并不够丰富。网络上其实数据是断裂的,比如在淘宝上的数据只会被阿里巴巴的系统保存,在百度上搜索的数据也只会被百度保存,同样的还有腾讯。为什么会出现这样的情况,其实就是由于商业造成的。虽然现在有了大数据交易平台,但是对这样矛盾的又有极其明确的竞争关系的巨头们,想用户数据这样重要的大数据是绝对不会交易的。美国为了连接这样的断链和封闭的数据,在他的公共健康系统的基础上建立一片“大云”,这片云由所有医院公用,这样最高地提高了效率,但是这是因为由政府负责主导,才可能实现,而在商业上因为利益的排他性,建设真正的大数据数据库还有很长的路要走。
无论是公共事业上,还是商业上对大数据应用的各种挖掘和尝试,都取得了很多瞩目的成就,但是我们需要注意的是在大数据的应用当中仍然存在许多需要克服的问题。大数据在商业应用中得到追捧,一方面它确实创造很多商业奇效,可是另一方面,我们也要冷静地看到因为商业利益,商家们都希望大数据成为他们新的资本,赢得客户的信任,从而在很多时候忽视大数据的不足。因此我们在研究当中应该更加思辨地看待大数据,一部分看到它发展的势头,一方面也要清楚认识到它的不足。
[ 注 释 ]
①王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考.中国电子科学研究院学报,2013,2(1).
②决策树.百度百科,http://baike.baidu.com/item/%E5%86%B3%E7%AD%96%E6%A0%91.
③雪鹰传奇.电商大数据[M].电子工业出版社,2014,3:101.
④[英]维克托.迈尔-舍恩伯格,肯尼思.库克耶,著,周涛,译.大数据时代[M].浙江人民出版社,2013,1:3.
孙晓博(1986-),男,天津人,博士研究生,中国传媒大学广告学院,从事新媒体产业研究。
F832.33;TP
A
1006-0049-(2017)12-0007-02