钱汐阳
数据分析涉及很多知识点,对于分析人员来说,过程很重要,是一个发现业务价值、探索业务价值的过程,但对于领导来说,结果才最重要,只有可落地实施、可带来实际效益的结果才是数据分析价值的体现。所以,流程中的每一步铺垫与探索都是为了最终的业务价值的实现。
数据分析SOP流程
数据分析包括四大阶段:
需求处理阶段———考验沟通理解能力;
数据处理阶段———考验数据清洗及SQL、python等工具使用能力;
数据分析与展现阶段———考验分析应用与可视化展现能力;
复盘跟踪阶段———考验反省优化能力。
其实数据分析一句话就是:将一堆无序的海量数据经过一系列清洗、处理、规整和加工展现,提炼出痛点及机会,从而驱动业务增长、辅助业务决策。
发现问题
问题千千万,需从中找出有效问题。有效问题就是有价值的问题,这涉及了什么业务,与什么指标相关,有多大的影响,能解决什么难题,受宏观影响还是微观影响,无法避免还是本可避免等。发现问题,可以从几个方面着手:与历史对比、与总体对比、与竞品对比、与目标对比、与经验对比等。
需求处理阶段
需求分2部分:他人驱动与自我驱动。
他人驱动
通常由业务方、上级领导等需求方发现问题,提出需求。这里可能会存在需求不明确的问题,既增加沟通成本,又耗费时间成本,分析师将需求完成之后,需求方才发现自己需求并未解决,成了无意义的工作、低成本的分析。
所以需要清晰需求方的痛点,了解清楚需求背景、需求目的、指标口径、数据需求范围、数据需求维度和需求的期望排期等。
另外还需明确一点,数据展示聚合还是明细。如果展示聚合,需要按照什么维度聚合、什么方式聚合;如果需要展示明细,就要搞清楚为什么需要的是明细数据,因为明细数据量会比较大,既涉及数据安全,也会给调取数据带来压力。
有时候需求方要求明细数据,他们拿到明细数据之后还要再用excel去聚合做数据处理。其实这一步骤分析师完全可以直接用SQL或者BI产品解决,也就是说这个明细数据并不能一步到位让需求方看到想看到的数據,所以需要引导需求方了解他们需求的真正目的。这就需要做到拆解需求,将抽象的需求具体化,复杂的需求简单化。
自我驱动
分析师本人发现问题,探索解决问题的方案。比如某个指标波动异常,先于业务方发现并解决问题,再比如专门负责某一个项目,主动通过数据探索项目优化方案。
数据采集
数据采集的目的是为了在分析中使用,多数情况下用到的是聚合数据。数据采集分为内部数据、外部数据2种。
内部数据
需要梳理清楚这个需求需要什么数据,需要判别需要的数据是否能从现有数据库中获取。如果可以,应该从哪个库中的哪个表获取?这个表中字段的口径和需求所需的字段口径是否一致?
如果现有数据库中没有现成的数据可以满足需求,就需要梳理好口径请数仓管理员重新落表。
如果现有数据库中有表可以满足,但是需要通过SQL层层关联才能从数据库中获取聚合数据,最好的方式是请数仓管理员将所需的聚合数据落成数据库表,这样一方面使用起来较为简单,另一方面也减少了数据展现层的BI端连接数据的压力。
外部数据
行业报告数据:比如艾瑞网、极光大数据、阿里研究所、199IT互联网数据中心等都会不时地发一些行业分析报告。整个行业的数据公司内部是无法获取的,所以可以从一些行业分析报告入手。
问卷采集,通过问卷数据获取一些产品中无法获得的数据辅助分析,包括:
①主观想法:喜欢产品的原因是什么?产品最吸引您的点是什么?您觉得产品最应该改进的点是什么?
②对竞品的行为:您在xx场景下更愿意使用A产品、B产品还是C产品?
③用户习惯的场景:您在什么场景下更愿意使用xx产品?
宏观数据,指标有时候也会受到宏观政策的影响。比如在xx日出具了xx政策,本公司产品在该政策之前与之后变化有多大等。确保能获取核心的关键性数据,为下一步做准备。
数据处理
对分析师而言,这步需要分析师将数据根据脑中的分析框架处理成所需要的数据。会涉及数据异常值处理、缺失值处理、数据转换、数据聚合、数据分组归类以及数据准确性的校验,为下一步的数据分析奠定好基础。
总之,井井有条的数据更有利于分析。
数据分析
硬实力
数据调取:MySQL,SparkSQL,Hive,impala,PostgreSQL,Oracle等;
数据清洗或建模:Python,SPSS等;
数据可视化:Tableau,Fine BI,Quick BI,PowerBI等;
数据分析报告:ppt,Excel,word。
以上硬实力并不是说全部都需要,针对不同的岗位性质需要不同的技能。比如有的分析只需要会SQL、可视化工具或者写分析报告就可以了,有的分析额外还需要会python建模等。
软实力
统计知识:描述性统计、逻辑回归、假设检验等;
排查问题的能力;
沟通能力:与业务方、数仓、上级领导沟通;
归纳总结能力:从一系列分析中归纳出最重要的点;
数据敏感度。
软实力更重要,工具大家认真学都能学会,软实力却是实打实的个人特色與魅力。
数据展现
以上准备都做好之后,就到了数据应用层———数据展现。数据展现普遍来说,有2种形式:数据分析报告和可视化报表。
数据分析报告
数据分析报告要素:数据调取时间、报告出具时间、报告负责人、数据维度、分析背景、分析目的、结论要点和附表等。
注意:最好将要点总结放在上面,这样看报告的人可以第一时间清楚要点,然后再针对性去看每个要点的分析。
结论要点总结,求精不求多。一张图尽量表明一个观点,而如果一张图涉及很多种指标,传达很多种观点,容易造成干扰。
一份有价值的分析报告才是成果的展现。
BI报表
不管是采取外购的BI产品还是自研,都需要有一种敏捷BI来为数据应用提供一种入口。
数据可视化旨在将复杂数据图片化,帮助人更好地分析数据。可视化并不是单纯的展示数据,而是使分析结果可视化,注意“分析结果”这4个字。借助于图形,清晰有效地传达与沟通问题。举个例子,可视化相较于数据,好比照片相较于文字。一张好的照片可以让人瞬间发现其中的亮点,而无需在大量文字中去提取。一份优秀的可视化可以让人瞬间发现数据要传达的含义,重点在于直观的展示,而非简单的好看。
数据是思想,可视化是表达方式。想象一下,倘若公司没有可视化,员工会在数据处理上耗费大量的时间,于员工而言,耗时耗力;于企业而言,员工因数据处理而导致的加班增加了开支成本,且管理层无法第一时间迅速获得有效信息。
持续跟踪
一份分析报告的完成以及一份BI报表的上线,并不是分析的终点。分析需要可持续化的复盘跟踪,比如:
①跟踪分析方案有没有为公司带来实质性的价值。该方案执行一段时间后,需要进行执行后VS执行前的对比分析,跟踪分析方案有没有为公司带来实质性的价值;
②跟踪分析数据指标异动的原因。上线了新的报表之后,需要跟踪下报表上指标的变化,及时感知数据是否出现异动以及探索异动的原因;
③跟踪分析数据实际表现与目标的差距。通过对历史数据的归纳总结,聚焦实际表现与目标的主要差距,量化分析优势与不足。
持续化的复盘跟踪,有助于查漏补缺、完善方案,更有助于探索数据深层次的含义、及时感知数据的异常波动,提升自我价值与业务价值。
分析其实就是要摸清楚需求对象是谁,关注点是什么,需要解决什么问题?过程服务于业务,分析师不是一线,但与一线人员息息相关。