企业间大数据整合的方法和途径

2016-05-14 01:19

信息通信技术 2016年4期

北京亚信智慧数据科技有限公司北京 100193

1 企业间大数据整合的意义

我们正处于大数据时代，数据已经渗透到每一个行业的每一个业务职能领域，逐渐成为重要的生产要素，人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来[1]。“大数据”时代网民和消费者的界限正在消弭，企业的疆界变得模糊，数据成为核心资产，并将深刻影响企业的业务模式，甚至重构其文化和组织，没有任何商业活动领域能够在这场运动中独善其身[2]。

大数据最迷人的地方在于“数据外部性”。所谓的“外部性”(Externality)并不是一个新的概念，经济学家在这个领域的研究，已经有上百年的历史，它是指某件事情的发生对原本不相干的第三方产生了影响。比如交通的改善带来了周边居住环境的提升等。而“数据外部性”是指，数据的作用完全可能超出其最初收集者的想象、也完全可能超越其最初信息系统设计的目的，即同一组数据可以在不同的维度上产生不同的价值和效用，如果我们能不断发现、开拓新的使用维度，数据的能量和价值就将层层放大[3]。互联网上展示的千姿百态的广告很可能就是利用浏览、位置和社交信息进行的精确推荐；人口流动的趋势数据为城市规划和出行带来了便利；运营商的信令数据原本为更好地提供移动电话接续服务，但现在被广泛用来分析用户的各种行为。

大数据被比喻为新经济时代的石油，但是相比工业时代的生产资料，大数据有其典型特点。在消费观念从“所有权”向“使用权”的转变过程中，Uber共享汽车、Airbnb共享房屋这两者从本质上是实物的共享，实物被占用了就难以复用，或者说其复用的边际成本很高。但数据是一种特殊的资产，由于其“复制”的边际成本极低，本质上是天然过剩的，所以可以跨越时间和空间进行更大程度地复用。这背后的意义就在于因为边际成本低，数据可以自由流动，而形成了美妙的网络效应。

最著名的网络效应评估方法是梅特卡夫定律(Metcalfe's Law)。它由“以太网之父” Robert M.Metcalfe提出，简单地说，该定律认为在有n个成员的通信网络中，每个成员可以与其他成员建立n-1个关系，如果这些关系具有同等价值(注意这个关键假设)，那么网络的总价值与n(n-1)即n2成正比；而像广播那样的单向网络，n个用户的连接数是n个，因此网络价值与用户数的关系应该是线性的，这就是美国无线电和电视广播的先驱David Sarnoff提出的萨尔诺夫定律(Sarnoff's Law)——广播网的价值与观众的数量成正比；另一方面，在一个n个用户的网络(特别是社交网络)中，由于可能建立的子组多达2n-n-1，因此可能形成指数级的增长，于是计算机网络和软件业先驱David P. Reed提出，网络效应以2n指数增长，即里德定律(Reed's Law)。

这3个著名定律，都是从网络用户规模来判断价值的，区别只是在于是线性、二次还是指数关系。网络规模增加时，其价值的增长显然应该在线性增长和指数增长之间，而通过Odlyzko et al.的若干定量测算，一般的通信网络的价值增长接近nlog(n)[4]。快于线性，但显著慢于二次增长，这一点在电话网络和互联网中已经得到了验证(也从一个侧面解释了当年的电信和互联网泡沫)。同样，如果数据网络中的企业越来越多，数据流动产生的价值也将呈nlog(n)级别增长。

2 企业间数据交换使能的模式创新

企业利用大数据创新来对商业模式进行系统化设计，可以形成整体结构性差异，而这种差异最终会呈现在企业特征、产业链定位、行业定位等多个层面。从企业特征层面来看，可以分为对内的关键业务、流程创新和对外的价值主张创新两个方面，企业数据交换的场景也将作用在这两个方面。

2.1 对内的关键业务和流程创新

基于大数据，可以对流程进行再设计，形成解决问题的新方法，提高某一业务流程的效率或效果。传统的做法是使用市场调研等形式人工收集数据，基于这些数据来确定产品开发、市场开拓等工作。这些企业虽然有的很早就建立了商务智能分析系统(BI)，但其数据大部分来自于CRM、ERP、SCM等企业管理系统，这些系统的数据维度和丰度不足够产生洞察，数据质量依赖手工录入，产生的数据洞察基本上是过去已知的事实，在变化莫测的世界里这些知识的价值不足。大数据做法不是基于人工收集的小量样本数据来做出决策，而是使用多来源收集的、多种形式的，而且通常是实时的巨大数据集合，它已经超越了公司在CRM数据库中拥有的规则的数据集合[5]。除了少量拥有低成本收集大量数据的企业，其余大部分企业都不具备这样的条件。

比如商场的选址，传统的方式是派出调查人员在相应的区域观察，通过问卷收集信息。麦当劳的选址就是这样进行的，这样的方式费时费力，所以后来肯德基的策略是选择麦当劳选择的位置开店。在需要快速扩张的今天，低成本、正确的选择非常重要。除了可以从交通信息中获取道路的通行情况外，选址更重要的就是要用到移动运营商和部分互联网分析服务提供商的位置分析数据，前者如国内的三大运营商，后者如TalkingData等。运营商利用基站采集的信令数据再综合用户上网、消费行为数据进行分析，互联网分析服务提供商则利用插入各种APP中的SDK从用户移动设备上采集信息。两者的信息略有不同，但都能反应群体用户在时间和空间方面的特征。通过这样的分析，商家可以清楚地了解周边区域的人口流动规律，包括工作日、周末和节假日的出行规律。更重要的是能精确分析用户的构成、喜好。这有助于其安排促销活动、规划营业时间。对于某些连锁经营的企业，还可以快速复制之前的成功选址经验，比如在年轻时尚的人员聚集地开设新兴的娱乐设施等。

基于气象数据进行预测并进行农业生产的组织并不是什么新鲜事，随着政府数据的开放，越来越多的企业可以免费获得历史数据。除了农业领域受益于这些数据流动之外，工业领域也开始使用气象数据来组织自己的生产，比如空调企业通过分析气象数据来预测销量，并根据不同省份的需求来组织广告投放和市场营销费用。甚至关系更不明显的金融领域也因此受益，美国意外天气保险公司Climate利用政府开放气象数据进行预测，并将提供农作物的保险服务。国内的一些保险公司也在尝试推出天气保险服务，无论是暴雨还是高温，都能成为保险的标的，企业可以选择天气保险的形式对冲天气对生产活动的影响。

2.2 对外的价值主张创新

大数据因其能不断接近用户真实需求的潜能可以为企业提供精准的价值主张。用户的细微行为，会直接暴露内心的真实想法，企业因此能有机会洞悉用户的真实需求。而当人们的兴趣、爱好、个人信息等都被抽象化为数据后，以这些特征对用户进行准确细分便成为了可能[6]。

比如利用CRM系统记录客户接触信息，以便更好地对客户进行营销和服务，这是传统BI系统的主要功能。但存在几个问题：首先是“冷启动”问题，新客户来的时候，企业并不能掌握其习性，无法基于数据优化本次接触；其次是CRM系统所记录的只是本企业领域内的数据，比如电信运营商纪录的是与用户通信行为相关的信息，社交网站纪录的是用户线上社交行为，商场会员卡系统记录的是线下购物的行为，碎片化的数据并不能充分刻画客户行为。如果用户特征数据能在企业间流动，提供数据的企业并不会受到损失，但获取数据的企业将解决上述两个问题。

因为已经提前拥有用户的信息，所以新用户初次到访时就能识别其喜好，从而进行精确营销和推荐，在促进销售的同时还能让客户感到更加舒心。由于从婚恋网站、旅游网站、社交媒体、餐饮娱乐等信息源获取了用户的360度标签信息，企业可以结合内部数据进行lookalike分析，基于已有用户对未知用户进行分群。

已有的用户因为丰富了更多的标签信息，因而可以更加全面地了解，每一次接触活动都将因此而优化，每一个宝贵的接触机会都会被充分利用起来。主动接触和被营销也将由于更加了解客户而避免反感。甚至由于拥有了多角度的ID对应关系，可以实现在社交网络上的信息流广告、基于移动设备号的信息推送等多渠道的营销手段。

不过，企业间数据交换仍存在几个障碍：首先是用户隐私问题，此种交换是否征得用户同意是关键；其次是多源数据整合需要关联匹配，否则碎片化的数据无法形成整体360度视图。

3 企业间大数据整合的方法

3.1 基于ID的整合

ID(Identifier)是指识别用户的唯一标识。传统企业通过CRM中的用户ID或者客户ID来进行识别。但如果涉及企业间大数据整合，就必须找到一种ID映射的方法。

最简单的方式是使用外部唯一性ID，比如身份证或者手机号码。每个企业如有可能都会记录这些信息。限制使用这种外部唯一性ID的因素可能是隐私和安全，因为按照目前中国的法律这些数据是禁止交换的；按照欧洲的法律，这些属于典型的PII(Personally Identifiable Information，个人验证信息)，也是禁止利用的。另外还可能存在的问题是数据质量问题，通常由于隐私或者其他的原因，用户不愿意使用真实的身份证信息，其手机号码也会由于曾经变化而变得不可靠。在使用外部唯一性ID方面，电信运营商拥有独一无二的优势。由于实名制也是法律要求，所以电信运营商掌握的身份证信息质量非常高，而且电信运营商天然掌握用户电话号码的变化。当然由于法律要求，电信运营商不可能直接将这些数据交换出去，但是可以用这些数据作为连接器帮助其他企业将分散的ID管理起来。

目前企业间大数据整合用得最多的ID就是互联网设备ID，在桌面互联网时代通常使用Cookie来唯一标识某个浏览器，移动互联网时代多使用Android ID和Apple的IDFA，或者IMEI和MAC来标识设备。这种互联网标识符到底是否属于PII的范畴在中国的法律中还属于空白地带，而且它们既能从网络上捕获，也能从终端的APP中读取，拥有跨越时间和空间建立连接的天然属性。当然，使用这种互联网设备ID仍有缺陷，主要在于其很难和用户在真实世界的行为(即线下数据)关联起来。

要想将企业间数据整合在一起，特别是涉及个体数据的整合，就必须选择一种合适的ID将数据关联起来。而且这种ID最好能融合线上和线下、跨越时间和空间。这样看来，电信运营商的ID数据或者能提供的ID链接服务将是其中最重要的一环。

美国电信运营商Verizon曾经尝试提供一种软ID，类似Cookie。具体的流程是在Verizon的流量中指向广告交易市场(AD Exchange)的部分插入一个HTTP的Header，其中将用户的PII进行按照时间和访问目的地的Hash编码。这样广告交易市场的流量中就能收到这些软ID，只要该广告交易市场在指定的时间内来Verizon查询用户的行为标签，Verizon就可以响应这些应答。因为按照时间和应用服务商进行了编码，Verizon也不用担心这些数据的使用不在当前的上下文(Context)场景中。

微信的OpenID也采用了类似的方法，微信公众号后台程序接收到微信传入的OpenID时，用户访问每个不同的微信公众号所产生的OpenID是不一样的，同样是利用用户ID和公众号ID进行混合编码得到。这种场景可以阻止公众号后台收集微信用户的行为标签，阻碍众多公众号将数据拼接起来。既加强了用户隐私的保护，同时也保证了微信对数据的掌控力。

3.2 基于主题的整合

所谓主题，就是在进行数据规划和设计时，围绕着某一项特定任务或活动，对其内容进行的系统归纳和描述。通过将数据归类为广义的、功能上独立的、没有重叠的主题，可以在一定程度上解决应用之间的数据共享和互通的问题。

主题数据库是共享主题数据资源的主要存在形式，它在数据汇集、归档和服务诸方面具有与开展数据共享管理相适应的能力。从资源组合的角度，主题数据库可理解为具有特定主题的数据集的集合，为满足特定主题而专门组织的数据资源。

通过基于主题的大数据整合分析，可以寻找新的价值创造方向和路径。例如在汽车行业，通用汽车公司利用大数据对核心技术进行主题分析，充分挖掘数据信息背后所隐含的行业技术关联，寻找有效途径延长燃气涡轮、喷气式发动机和其他重型设备的运行时间，这为传统制造业寻找新的价值增长点提供了思路。又如在航空业，PASSUR Aerospace的RightETA服务通过搜集天气、航班日程表等公开数据，结合自身独立收集的其他影响航班因素的非公开数据——比如通过自建的无源雷达站收集某区域领空内的飞机数据——对“航班到港时间”这一主题进行了综合预测，大大缩短了预测和实际抵达之间的时间差，航空公司依据它们提供的航班到达时间做计划，能为每个机场每年节省数百万美元。

此外，对外部弱相关的数据基于主题进行整合，还可以发现很多“新知”，获得竞争优势。这一点在金融行业最为明显，当多数人还在寻找传统的金融数据时，华尔街对非传统数据的需求正与日俱增。从过去的股票数据、公司财务数据，到现在的网民情绪数据，互联网使得投资者们有史以来第一次可以接近真正的群众智慧，亲自测量弥漫在市场上的恐惧、贪婪、希望和绝望的程度。但随着时间的推移，这些“新”数据将扩散到更广泛的受众，而市场则会向新的竞争优势源前进。例如RS Metrics使用卫星图像测量各商店的客流量，它近乎实时地公布了4月和5月客流量的上升。2015年，在投资者们被JCPenney的2季度报告所震惊时，那些购买了RS Metrics服务的对冲基金早已收获颇丰。越来越多的非传统数据源正进入市场，那些能最快接触到这些信息的人，将会保持对市场的领先。

4 企业间数据流动过程中的障碍

虽然企业间数据流动会产生巨大的价值，激发网络效应，促进商业和社会进步。但是如果其中的“摩擦力”太大，同样会使得数据价值的发挥极大衰减。企业间数据流动的障碍主要包括：寻找成本、实施成本、信任成本和外部成本。

4.1 寻找成本

无论是Web 1.0还是Web 2.0，无论是桌面互联网时代还是移动互联网时代，激发网络效应最重要的就是信息聚合，如果寻找信息的成本过高将导致使用不便。

最早有Yahoo提供人工录入的信息聚合，之后有了以Google为代表的搜索引擎进行自动的信息聚合。Web 2.0时代的社交网站其实也提供了社交信息的聚合，降低了寻找成本，让大家能方便地了解朋友的动态。当下的大众点评、美团、滴滴、e代驾、今日头条都是通过信息聚合降低了信息的寻找成本，只有通过这样的方式，网络效应才能被顺利激发出来。

数据流动也面临同样的问题，如果依赖数据提供方和数据需求方点对点去进行链接未免代价太高，高的边际成本使得双方的利益都无法达成。参考实体经济的例子，目前国内成立了一批数据交易所，比如武汉长江大数据交易所、哈尔滨和广州大数据交易所，都是为了解决这个难题。

4.2 实施成本

正式进行数据对接的时候，必须要考虑到数据传输的方式、协议以及数据本身的格式。由于大数据时代刚来临不久，目前缺乏标准的数据交换格式定义，数据的交换过程中直接程序对接并不容易。

在英国开放知识基金会(Open Knowledge Foundation)对“开放”的定义中，包括了非歧视性、机器可读性和开放授权性3项基本元素[7]。其中“机器可读性”即是对数据释放的格式设定的标准，即数据一定被提供在一个可用也易用的数据格式下，最好能直接装入数据库，或者由R等软件读取。在企业间大数据整合中，这个工作会更加难，因为在这里会遇到真正的海量数据，而且需要将外部数据与企业数据进行整合。实施成本如果过高，同样会阻碍大数据价值发挥。

4.3 信任成本

由于数据可以低成本无损复制，因此需要解决数据可控的问题。在一个信任缺位的环境里，通过合适的机制降低双方的信任成本是非常关键的。

双方直接进行点对点数据流动具备简单的信任模式，但数据提供方仍旧会担心需求方获取到数据后，是否按照契约将数据的应用限定在指定的范围，是否会将数据转卖或是加工形成更全面的数据后进行再销售。这也是为什么前文中Verizon和微信通过加密ID的形式将数据的使用限定在指定的上下文场景的原因。

但按照4.1所述，一个成熟的流动模式避免不了数据中介(Data Broker)的产生，数据交易市场就是中介的一种形式。引入了中介的三方模式带来了更多的信任问题。如果数据在交易市场进行交易，那么交易所是否会截流、监听数据呢？

4.4 外部成本

大数据具备迷人的外部性效应，但数据外部性有正、负之分，负的外部性可能会危及国家安全、侵犯公民隐私。比如保险公司获取了用户的健康检查、医疗记录、基因测序结果就有可能进行歧视性定价；又如获取到用户个人隐私信息，比如乘机记录，就可能被利用来做电信诈骗等。因此必须保证数据流动的过程中不会影响第三方的权益，可以将这些影响也纳入到数据流动的成本中进行考虑。

政府的法律法规有所滞后，政府的行业监管难免遗漏。最自然、最有效的做法就是让独立的第三方参与到数据流动的过程中。通过合理的机制让第三方授权数据的流动，从而让数据流动的整个过程暴露在阳光下。

5 “中心化”和“去中心化”的数据流动模式

理想的数据流动模式会通过恰当的技术机制将第4章中的四项成本尽可能降到最低。

候选的数据流动模式可以是“中心化”(Centralized)，这种模式一般是自上而下构建，通常在一个受信任的环境，比如在一个大型集团企业内部。由于信息的集中和强制性的数据获取规范以及与之配套的考核要求，这样的数据流动模式通常是高效的。

比如中国移动从2004年开始构建的两级经营分析系统，其中在总部运行的一级经营分析系统强制性从各省经营分析系统收集信息，要求在指定的时间按照指定的格式将指定的数据传送到指定的接口机。配套有总部对省公司的考核指标来确保数据的及时性、准确性。

集中式至上而下构建一个“中心化”的数据流动模式固然高效，但这种精密的模式因缺少信任难以扩展到企业间，也难以形成全球化的扩展。参考互联网构建信息流动的模式[8]，“去中心化”(Decentralized)的模式更适合在更大规模和更松散的企业之间构建数据流动。

如图1所示，“去中心化”的数据流动过程中，控制流和信息流分离，就像DNS协议一样；数据的查找通过一系列的目录服务实现，当找到了数据所在的目的地之后直接与对方建立连接；建立连接的过程可以通过制定标准协议的方式来实现自动化，客户端或者SDK可以通过这些协议对数据进行访问和使用。

图1 “去中心化”的数据流通模式

这种“去中心化”数据流动模式的创新点在于：中心化的环节仅提供必要的服务，比如认证、鉴权和计费等环节；通过将“权力”赋给参与数据流动的节点，降低了信任成本；中心化的数据登记环节提供丰富透明的供需信息，降低了寻找成本；通过各种预定义的数据交换协议、机器可读的格式，降低了实施成本；通过将第三方引入到数据授权的过程中，降低了外部成本。从而有效降低了数据流动过程中的各项成本。

6 结束语

在大数据时代，通过信息透明化可以释放巨大的价值，形成数据驱动的竞争优势。但要充分发挥数据的价值，就需要产生新的管理规则，让更多的节点利用同一种协议参与数据流动，从而激发网络效应。上述“去中心化”的数据流动协议的尝试，目前已由中关村大数据产业联盟数据交换标准专业委员会提出并开源(开源地址：https://github.com/datahub-dataos)，但只有更多的企业能接入其中并共同完善，才能真正构建数据互联网，充分释放大数据的价值。

参考文献

[1]Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[R].McKinsey Quarterly, 2011

[2]McAfee A, Brynjolfsson E, Davenport T H, et al. Big data. The management revolution[J]. Harvard Business Review, 2012, 90(10): 61-67

[3]涂子沛.数据外部性这把“大数据之剑”[EB/OL]. (2015-01-04)[2016-07-28]. http://tuzipei.baijia.baidu.com/article/41606

[4]Odlyzko A, Tilly B. A refutation of Metcalfe's Law and a better estimate for the value of networks and network interconnections[R]. March, 2, 2005

[5]Goyal M, Hancock M Q, Hatami H. Selling into Micromarkets[J]. Harvard Business Review, 2012, 89(7-8):78-86

[6]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95

[7]高丰.开放数据:概念、现状与机遇[J].大数据,2015,1(2):9-18

[8]Baran P. On distributed communications networks[J].Communications Systems IEEE Transactions on,1964,12(1):1-9