赵国栋
和一些企业交流时,有几个问题会被经常问到,“没有多少数据怎么办”、“大数据都是大公司的事情,我们小公司怎么办”、“能不能告诉我,哪些软件或者工具可以解决大数据的问题”一般情况下,我都会说,首先要有大数据思维!
但什么才是大数据思维,我以大数据飞轮模型来概括。大数据飞轮(见右图)涵盖了大数据思维的全部思想。
怎样拼数据资产
大数据飞轮模型的上半部分,关系到企业是如何认知哪些是自己的数据,也是大数据的商业功用。就是说有了大数据我们能干什么?怎么赚钱?有哪些好玩的商业模式?
大数据的商业功能即常见的商业模式,包括租售数据模式、租售信息模式、数字媒体模式、数据使能模式、数据空间运营模式以及大数据技术提供商。
如果我们在企业层面观察,上述的商业模式就是典型的大数据的功用。但这远远不是全部。跳出具体的企业,从产业层面考察,其实产业间的兴衰交替、攻掠征伐,已经过渡到数据资产比拼的阶段了。
那些拥有优质数据资产的公司,挟天子以令诸侯,不断地攻伐、侵袭其他产业的传统领地。产业融合大幕随之拉开,天平却向这些新兴的公司倾斜。由此也得出我们第一个公司价值的判断标准:大数据时代,公司的价值与其数字资产的规模、活性成正比,与其解释、运用数据的能力成正比。
比如,谷歌通过提供搜索、邮件等广受欢迎的网络服务,获取人们大量的行为数据,加上谷歌自己抓取的网页数据,构成谷歌大数据资产。谷歌利用这些数据资产,开始涉足基础电信业务、IT解决方案、媒体、终端,甚至是传统的IDC(互联网数据中心)业务。而在这所有业务中,来自媒体的广告业务,每天为谷歌提供现金流。所有其他涉足的行业,都以免费或者成本价杀入。谷歌也不是活雷锋,虽然它新进入的行业不以盈利为目的,但是却拿走了这个行业至关重要的数据,成为它数据资产的一部分。
资产评估:从颗粒度到关联度
接下来,大家自然而然地关心,数据这么值钱,理所当然应构成新型的资产。这也是大数据飞轮的中间部分,“数据成为资产”这一论断是大数据思维的中心理论。优秀的数据思维,必然反映在优质数据资产上。我们难以定量评价一个人的数据思维,所以只好退而求其次,关心在数据思维的影响下,数据资产的优劣。数据资产的价值从五个维度来评估,分别是规模、活性、多维度、关联性、颗粒度。这五个维度,没有绝对的数值可以参考。只能给出定性的描述,具体到每个行业,需要根据这个模型来灵活运用。
颗粒度指标反映数据的精细化程度。那些宏观的数据,价值含量较低。相反那些细化到个人、单品的数据,才会带来前所未有的洞察,这也是和精细化管理的思想紧密相关的。早期管理者认为工业产品没有差别,同一个批次、型号的产品是一模一样的。但是现在人们需要管理到“单品”,也就是每一件产品。提高社会治理水平,也是逐渐细化“管理单元”的过程。秦始皇设定“郡县”,这是当时最小的国家机构,传统戏剧中经常戏谑“七品芝麻官”。但是现代的管理单元已经细化到100米乘100米的正方形,形象的称为“网格”,一个网格中,很可能只有一座楼房而已。
所以我们把颗粒度作为反映数据资产质量的第一个维度。细化到一个人、一件单品、一个网格、一个门牌号、一个零件。夸张的说,就算是一粒沙,也要清清楚楚的记录下它的位置、大小、重量,甚至因风吹浪打漂流的轨迹。
多维度指标借用空间维度的概念,来指代数据来源的丰富性。每增加一个数据维度,则会影响所有原数据的分析和判断,甚至会带来颠覆性的证据。
FICO信用评分是美国评估个人信用级别的通行标准。几乎每个美国人都有一个FICO评分。当人们申请信用卡、汽车贷款、住房贷款时,大多数的信贷机构都会参考申请者的FICO得分。但是在其发展的初期,FICO模型中,仅仅依赖申请人在现有住址住了多久、为现在的企业工作了多长时间、申请人账号开设了多久等数据。
根据这个评估标准,几乎所有30岁以下的人,都会存在很大的信用风险。而现在淘宝上的购买主力,恰恰是以年轻人为主。所以零售商们群起反对,这些条款限制了发卡人数,不利于刺激消费。当FICO增加了评估数据的维度时,譬如纳入教育水平、职业等指标后,那些受过良好的教育,从事体面职业的人,也就获得了信用卡。事实证明,他们的违约率也很低。
在多维度指标中,我们尤其重视一类“先验”数据维度。譬如人们在买股票的时候,一定先观察一支股票的行情走势;人们在买商品的时候,一定会对比和询价。互联网有助于把这些数据收集起来,进行分析,可以预测未来人们是否会买入股票或者商品。
数据的活性,指数据被更新的频次。频次越高,活性越大。Facebook在2012年10月庆祝月度活跃用户超过10亿,这里的活跃用户,和数据的活性紧密相关。股民对换手率指标非常熟悉,换手率标志股票交易是否活跃,成为判断股价走势非常重要的指标。
曾经有一家公司不知道他们的数据能否算作大数据,这家公司收集了大量的用户缴费数据,譬如交水电费、煤气费、有线电视费等。毫无疑问,这些数据非常有价值,但就是活性稍差,用户缴费最多也是一个月交一次费用。而微信的数据,无疑是最具活性的数据之一,体现出实时的价值。
规模指标最容易理解。没有“量”的积累,就没有“质”的突破。数据量的增长,即是数据规模的扩大。但是到底有多大规模,才能是算是“大”数据,的确是各行各业都很关心的问题。譬如互联网应用,如果没有1000万用户,估计很难称为大规模。但是如果一家券商拥有1000万个A股账户,那绝对是呼风唤雨的“老大”。规模这个指标很重要,但不需要执著于此指标。不同行业,不同的业务特征,对规模的定义完全不同。数据思维要先行于数据规模。
关联度指标,反映不同多维数据之间的内在联系。之所以把关联度拿出来单独讨论,主要原因是同一企业内部存在大量的“孤岛”现象,不同部门之间积累的数据无法融合,形不成合力。
[编辑 胡 俊]
E-mail:hj@chinacbr.com