李飞云
2015年下半年起,风投对互联网企业一度收紧口子,但对大数据行业仍然青睐有加,如聚合数据获得2.18亿元的融资,数据堂获得2.4亿元的增发,大数据达人鲍忠铁在《2016大数据产业从数据思维和场景应用开始》中说,“2015年宣称自己是大数据企业的大概有将近400家,其中典型的大数据企业有200多家。拿到融资的大概有五十多家,整体融资额超过50亿元,其中拿到亿元融资以上的企业有17家。”大数据在经济低迷时期呈强势逆增长,体现了资本的逐利现象和无利不起早的敏捷性,同时也充分说明大数据已经步入应用以及变现阶段。
本刊记者就大数据的爆发现象和变现路径专访在IT领域研究、观察和思考超过15年的中关村大数据产业联盟副秘书长陈新河,他曾参与国务院《促进大数据发展行动纲要》编制工作。
大数据最初应用:精准营销
互联网企业是国内最早拥有数据并建立应用的企业,而大数据最初应用领域,陈新河认为是为了精准营销,被称为数据库营销,率先在搜索领域应用,“GoTo公司是探索搜索引擎商业价值变现的先锋。”他说,GoTo使用的是Inktomi提供的搜索技术,Inktomi是搜索引擎技术提供商,专门为其它有需要的平台提供搜索技术支持。具体的搜索技术由Inktomi提供,GoTo的创新之处在于创造了竞价排名(关键字广告)和广告联盟(展示广告)。在GoTo竞价排名的启发下,Google发扬光大开发了自己的广告系统Adwords。Inktomi是面向商业用户(2B)项目开发模式获取收益,GoTo、Google是面向数以亿计的网络用户(2C)获取收益,但并不直接向用户收费,而是向广告商收费,即所谓的“羊毛出在猪身上”的商业模式,这一商业模式创新极大推动了营销领域的大数据应用。
有了数据之后,发现有很多意想不到的应用,例如电商平台阿里巴巴可以用来针对中小微企业进行征信,推出速度快、风险低的阿里小贷,与京东白条异曲同工。
数据仅为自身领域服务,其商业价值有限,当为其他行业服务时,开始发生化学反应,数据价值呈现指数级提升。如车辆交通数据仅服务于交通实时路况,其商业价值十分有限,而这些数据用于金融、个性化保险、餐饮服务、旅游服务等领域,其商业价值具有数十倍的潜力。
于是,大数据的变现机会来临。尤其是在互联网金融业,其迅猛发展的背后是大数据的身影。由于金融业高风险的背后是高利润,而传统金融业的高门槛,更使得基于大数据基础上互联网金融获得变现的可能。
陈新河说, 在国内商业环境下,金融欺诈诈骗无时无处不在,正如有一句话说得好,“你盯着别人的利息,别人盯着你的本金”。在经济下行周期,金融欺诈更甚,再加上互联网金融带来的各种所谓金融创新,更是良莠混杂,所以金融防欺诈需求更加迫切。如果把传统的尽调比作为冷兵器,大数据则为金融行业提供一种新型“核弹工具”,让金融欺诈无处藏身。
大数据:人工智能的支撑点
阿尔法狗和李世石的人机大战,让人工智能火爆了一把,大数据又水涨船高。陈新河说,其实在过去几十年,人工智能之路很艰辛,尽管在算法、模型上不断改进,但效果一般,样本有时候是决定性因素,大样本远超好算法,“大数据时代来临,数百万甚至千万的样本一下把人工智能带入一个全新的境界。”比如,用户使用语音搜索,这个过程虽然简单,但是这是在百度综合各种环境后,从七千万语音数据中,总结出十万多个小时的数据。通过这些数据,建立矩阵,效果明显更好。人工智能明显焕发第二春,但人们对人工智能的期望过高,过于神化,人工智能必将有一个降温、切实落地的过程。
陈新河举例道,谷歌有个著名案例叫猫脸识别,这个系统需要搭建16000个处理器,内部有10亿节点(人脑150亿神经元)。该系统与之前的人脸识别不同,之前的人脸识别需要程序员先将整套鉴别系统写好,然后向机器“喂”数据,当机器发现预先设定的信息时,从而做出标识。现在的猫脸识别打破了预先设定机制,而是当机器发现第一个图像时,做出一个“图像地图”,该地图稍后会帮助系统自动检测与前述图像信息类似的物体,如此不断复加,直到从一顿杂乱无章的图象中发现一只猫脸。这就是机器深度学习,利用神经网络系统的一个案例,“不过话说回来,这么庞大的机器群组拥有的智慧不过相当于一个二、三岁小孩,即使技术成熟,成本也很难承受。”来自美国伊利诺伊大学的研究小组报告显示,人类一手调教出来的、最先进的人工智能系统在智力方面也仅相当于普通 4 岁儿童的水平,而这大多是在实验室,没有太多考虑成本问题。
政务大数据何去何从:开放
目前,大数据几乎都掌握在政府部门和国企以及BAT等互联网企业,尤其是国企,如银行、电信、水电煤气等,尽管这些部门拥有很好的基础,但在数据变现上缺乏动力。
陈新河分析道,这有几个方面的原因:首先国企创新基因较弱,他们都处于垄断行业,主营业务非常好,能躺着赚钱,绝不会站着挣钱;再则技术能力欠缺,缺乏数据DNA,其实不仅是政府、传统企业,很多互联网企业也缺乏大数据人才;还有一个原因是,政府、企业数据难以整合,即使技术部门想推动大数据应用,不同业务部门、不同业务系统的系统整合、数据整合也很困难;此外,还有一个不可忽略的因素:数据认知,中国政府企业信息化缺乏一个阶段——商业智能(BI),因为这个阶段缺失,从上到下对数据没有感觉,思想上没有认识到,行动上肯定是更落后;最后,可能出于对数据使用担心的问题,政府部门以及国企不太敢做第一个吃螃蟹的人。
随着互联网的深度渗透发展,以上这种情况不是一成不变,当国企经营压力增加时,也会做出改变,这两年已经有不少国企都在考虑建大数据事业部,只是需要一个过程,这是早晚的问题。
而对于政府部门所持有的大数据资源究竟如何开发,怎么共享,如何变现,陈新河觉得,政府推动大数据发展核心就是要开放数据。数据是一种资产,资产就有私有的属性,所以不能期望企业进行公益式的数据开放,这也不符合商业伦理,而政府数据由纳税人支付后沉淀形成,具有天然开放的义务,“政府数据开放不是一蹴而就的,要明确政府数据开放、制定各级政府职能人员能明确操作的规则。”
陈新河说,政府数据开放应该采用循序渐进的原则,不涉及隐私和安全的数据首先开放出来,例如交通、天气数据等。在技术上也要积极做好准备,加强各委办局、业务板块的IT系统整合,建立统一的数据管理平台,尽量建立统一的云计算中心,通过物理的整合推动系统、数据的整合。
大数据交易:允许试错
大数据交易是一个新兴事物,陈新河认为现在正处于非常原始的阶段,数据资产交易是漫漫征程,所以试错在所难免。他大致将大数据交易的困境、原因、可能的路径归为以下四种模式:
数据难以公允定价。商品交易的三个要素,有人愿买、有人愿卖、公允定价。前两个要素时时刻刻存在,需求紧迫,卖的强烈,但唯独不能在定价上达成一致,数据缺乏市场的公允定价,甲方买走乙方的数据,乙方还有一份(工业品交易伴随着物权的转移),还可以再卖给丙方,甲方还可能转售丙方、丁方,同样的数据甲方卖给乙方和丙方时,乙方和丙方会根据不同场景应用数据所带来价值的不同而愿意支付的价格会有很大差异,同样一份数据在不同时间价值也会大相径庭。
数据交易是异质的比特。工业时代交易工业产品是同质的分子,数据交易是异质的比特,每比特包含人的行为信息、设备的运行信息、企业的经营信息才是数据的价值所在,所以要用新思维、新理论体系去思考这个新问题,而不是用工业思维去思考信息经济的新问题,否则只会南辕北辙。
程序化广告交易(RTB)是目前唯一成型的百亿美元级数据交易市场。基于商业价值变现的场景(毫秒级广告展示时间、位置)、找到供方(网站流量主)、买方(广告投放主)、公允定价定价(实时竞标的方式),将数据实现商业价值闭环。
数据权益交易。根据产业界的实践,提出了数据权益交易(Data Equity Exchange,DataEEX),简单讲就是,甲方拥有一批数据,经过脱敏化、标签化处理后,乙方、丙方、丁方可以根据自己的商业场景,用不同的算法模型,将这些数据用于广告、电商、旅游、餐饮等方面,甲方与各方可以评估数据商业价值闭环中各自的贡献,进行利益分成,比如甲乙交易时,数据价值占80%,剩下的20%归乙方;甲丙方交易时,甲可能只能分到70%。