程龙
摘 要 文章通过分析现阶段市场主流大数据处理方式,及该流程下易产生的数据失真原因和导致的后果,提出相应的有针对性的处理方式,从而讨论大数据处理过程中的风险控制可行性,并对未来用户数据隐私保护时代和海量数据背景下如何增强数据有效性收集提出部分设想。
关键词 大数据挖掘;黑天鹅;样本免疫;血字数据
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2019)235-0120-02
1 大数据处理现状
目前行业内大数据常用的处理流程可以概括为四步,分别是数据采集、导入和预处理、统计分析以及挖掘。
1.1 数据采集
大数据的采集是通过多个数据库介质来接收发自客户端的数据(随着智能手机的普及,App端口采集已经成为主要来源),且数据采集者可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高访问量在峰值时达到上百万或千万级别,如“天猫双11”和春运抢票以及各种网购平台促销时的“秒杀”活动,都要求采集端部署大量数据库才能支撑,负载均衡和分片处理将是采集端设计的重点考量范围。
1.2 导入预处理
很多业内流行的做法是在采集端进行前端数据导入的大型分布式汇总,且在分布式储存群中进行数据的清洗和和预处理,甚至嵌入流式计算步骤。此步骤要注意的是百兆、千兆每秒的数据量处理难度较大。
1.3 统计分析
传统统计与分析的需求端运用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright。实际运用过程中我们常遇到批处理,或者基于半结构化数据的需求,这点应当区分考虑,同时统计、分析步骤涉及到的数据量十分巨大,近年来随着数据采集量的爆炸式增长,系统资源占用往往没有上线,这点硬件布局时应当充分考虑。
1.4 挖掘
市场上目前挖掘方式,主要是在现有数据根据客户需求进行基于各种算法的计算,从而起到预测的效果,高级别数据分析的需求,也往往是基于初级算法的嵌套性叠加。往年典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,使用工具有Python、Hadoop等,该过程的难点往往是精准把握用户数据需求,再基于需求的基础之上进行算法的调整。
2 大数据失真的危害及风险
在处理流程中,采集、导入预处理、统计分析,都可以通过预设数据库完成。而真正用于企业营销、战略、市场分析的核心数据挖掘阶段则是完全无法具体量化,可以说不同行业和不同市场阶段有着截然不同的数据库需求,如果我们挖掘和提炼数据的过程严重或者部分失效,则在数据分析的蝴蝶效应之下得出的结果一定与事实情况是天壤之别。
2014年电影《黄金时代》和2018年电影《阿修罗》大数据端在票房和市场预测方面失算的案例充分说明大数据的推演失真所造成的结果是灾难性的。随着“关系链和数据流应成为企业估值的新核心指标”这一把数据价值提升到前所未有的理论诞生。各中商业资本开始疯狂的引入大数据概念,各种相对应所谓的数据分析公司应运而生。然而大数据真的那么神奇吗?是否真的可以像宣传的那样神奇到对目标无孔不入地分析?据资料统计《黄金时代》在百发有戏的发布会上,百度大数据部产品规划负责人祖峥介绍了百度票房预测产品,通过百度搜索数据、新浪微博数据以及10年来电影行业数据、同类电影数据等,以及电影受众分析,预测《黄金时代》票房将在2亿至2.3亿之间。由此可见其数据挖掘阶段的主要参数是“百度搜索”“新浪微博”“电影行业历史数据”等存量数据指标,虽然算法笔者个人不得而知。但作为一个软件行业从业人员从数据源的角度分析:首先百度搜索和新浪微博等支流平台其收集的只是所谓关注度数据,我们无法将关注真正转化为票房;其次,中国电影在票房统计上有先天的缺陷,影院对票房的瞒报早已成为业内的潜规则,而21世纪初我国才开始建立票房统计制度,其时间周期不过10年左右。最后受众分析方面,发行方和百度数据利用所谓的问卷调查为依据样本,推演出数据结果殊不知这样的数据严重受制于“受众免疫”现象。(受众免疫:泛指调查样本在已知条件下对调查行为采取的与实际不符的行为方式,其结果会产生调查数据折射)。
3 大数据处理过程中的风险控制步骤
大数据究其核心无外是用过去推断未来。或是用过去既定的已经发生的同类事件推测未来与之相似事件的结果。其诞生就饱受争议。
笔者认为,合理控制数据采集和统计分析过程中的数据源精准度是减小和控制大数据推断结果风险的核心要素。
具体步骤为:
1)淡化模糊数据的收集,精确采集源重点收集血字数据。
随着互联网技术的全面运用,海量数据的产生已远远大于存储介质的容量,如果“大数据”的收集只是一味求“大”不求“精”,那么所收集的混沌数据将毫无意义,即:掌握了所有数据其实等于没掌握数据。而血字数据则不同,(所谓血字數据是指反应事物本身联系无法掩饰和修饰的唯一性数据如:居民身份证号码、银行卡等级、卫星定位点等等无法或者掩饰难度极大的数据。其得名于柯南道尔福尔摩斯系列小说中经典故事“血字的研究”)。在法律和保护消费者范围内合法收集关键数据可以直接提高大数据的采集精度和推断广度,在源头上解决数据收集过程中巨量的采集和超高的服务器荷载。不但节约企业硬件成本而且还能直观提高采集效率,减少决策过程中蝴蝶效应的发生概率。
2)增强数据挖掘过程中的企业独特性,引入先进分析方法和现代统计学、概率分布矩阵经验来降低数据挖掘过程中小概率事件的发生风险。
市场调查公司AC尼尔森发布的“尼尔森数据”就是独特数据挖掘的典范。即对数据采取“质量控制”。未来大数据时代尤其是金融领域,面对相同的数据不同的处理方式和挖掘手法可能得出的结果完全不同。正如乔治·索罗斯在《金融炼金术》一书中提到:在认识函数中,参与者的认识依赖于情镜;在参与函数中,情境受参与者认知的影响。
3)提出控制预警方案以应对大数据时代的“黑天鹅事件”。
大数据反对派的关键王牌就是黑天鹅现象,持此观点者普遍认为黑天鹅现象不可预知如“911事件”“印度洋海啸”“日本核泄漏”等极端事件无法通过历史所谓的大数据和经验去预知,而其造成的巨大风险将会严重透支常规事件中企业所取得的利润。简言之就是大的灾难造成的损失可能使正常事件积累的财富一夜化为乌有。但他们恰恰忽略了历史上发生的黑天鹅事件本身就是大数据分析的最好素材基礎,正式因为其独特性和唯一性反而造就了上文所说的血字数据,黑天鹅事件的大数据分析往往能够更为精准,究其原因很大程度上是因为事件本身的独一无二。少数的黑天鹅事件几乎能够解释这个世界中的所有事情,从思想的胜利到历史事件的变迁,到我们的个人生活。我们无法避免黑天鹅事件的发生,但恰恰是对以往事件的分析和统计研究可以避免和减少未来新的黑天鹅事件带来的损失。这一点恰恰是黑天鹅事件中风险控制的灵魂所在。
4 结论
伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。自2018年欧盟新的用户隐私法规实施以来,用户日益觉醒的隐私保护观念和海量数据中的有效性处理,已经成为了大数据采集、导入、预处理和统计分析环节中的重要瓶颈。对此在未来的数据分析采集中,我们应当避免目前阶段我国主流数据收集收集公司统计学和市场调查般的海量堆砌数据,再花大的精力进行后期处理;这种方法在早期PC端用户时代和智能手机崛起初期有明显效果,那时数据生成量有限且用户对个人敏感数据的保护性并不十分强烈,而今我国已经成为世界上数量最多的移动端用户保有量国家,且2020年5G时代将全面来临,巨量的峰值数据和兆亿般的系统资源占有量负载,现有海量数据收集筛选法将会无法适用。对此,我们必须布局未来,从思路上进行有效数据的挖掘处理机制探索,并形成体系化的处理工作流和新型架构理论,才能全面应对未来大数据处理过程中的风险。
参考文献
[1]肖风.投资革命[M].北京:中信出版社,2013.
[2]乔治·索罗斯.金融炼金术[M].海口:海南出版社,1999.
[3]纳西姆·尼古拉斯 塔勒布.黑天鹅[M].北京:中信出版社,2009.
[4]徐子沛.大数据[M].桂林:广西师范大学出版社,2015.
[5]比尔·施玛泽.大数据:从概念到运营[M].北京:中信出版社,2016.