BAT的大数据行动

2017-12-25 07:45
新商务周刊 2017年18期
关键词:海量百度阿里巴巴

BAT的大数据行动

文/王怡文,武汉市第六中学高三班

本文研究分析了阿里巴巴、百度、腾讯三大公司在大数据方面的技术特点、发展重点和商业应用领域等。

大数据;技术;应用

1 BAT的大数据观点

大数据(big data),又称海量资料,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。BAT是中国三大互联网公司百度公司(Bai du)、阿里巴巴集团(Alibaba)、腾讯公司(Tencent)的英文首字母缩写。近年来,BAT对大数据表现出超常规的激情。

阿里巴巴董事局主席马云认为:“第一次工业革命能源是煤,诞生商业模式是工厂。第二次工业革命诞生主要能源是石油,诞生的行为是公司。这一切皆是创新,数据将成为主要的能源,如果离开了数据,任何组织的创新都基本上是空壳。如果没有数据,如果不对未来进行准备,我觉得灾难会是非常之大的。”所以,马云认为数据是新的工业革命的能源;并认为“人类正从IT时代走向DT(data technology)时代”,云计算和大数据是阿里巴巴的未来。

而百度公司创始人李彦宏则提出不太一样的观点,认为“数据不是根本,数据有点像新时代的能源,像燃料,推动时代进步的是技术,是创新,不是这些资源。”并且还举例,说工业时代煤像数据一样是原料,但煤的重要性肯定不如蒸汽机。他认为,人工智能时代最宝贵的也不是数据,是因为数据带来的技术的创新。”

腾讯董事会主席兼CEO马化腾则是这么认为的“大数据的发展,更重要的一个要素是场景,或者我们称之为战场,再通俗一点就是市场,我觉得这是最关键的”。马化腾表示,有了应用场景,有了市场,数据自然会产生,也会驱动技术发展,人才也会随之而来。所以,马化腾给我们的启发是,大数据和人工智能的发展规划,要从场景出发。

三位创始人对大数据的看法角度不尽相同,但同样认为大数据对我们未来的生活会造成不可估量的影响。而争做大数据时代的领跑者,也成为了当前互联网公司迫在眉睫的首要任务。

2 BAT主要的大数据技术研发领域及其进展

2.1 阿里巴巴

阿里巴巴通过淘宝、天猫、支付宝等平台经过长期积累,逐渐开启了日增长数据量百T的崭新时代。大量来自买卖双方的搜索与交易信息组成了阿里的海量数据库,从而构建了阿里数据平台。这些极具价值的商业数据信息为阿里转型为社会的基础服务提供商、数据服务商奠定了坚实的基础。阿里巴巴的大数据技术发展始于20 03年。2003年从Oracle单节点时期开始;2004年公司成立数据仓库部门,搭建OLAP平台在线分析处理业务数据,通过BIEE的报表分析工具提供业务数据、决策数据;2007年开始搭建对内数据平台,从DAC平台到阿里数据平台的不断迭代升级,承载各业务线和行业的报表;到2009年时,基于oracle产品构建的全球领先的RAC集群达到顶峰成为国内每天处理量最大、最忙的数据仓库,同年淘宝第一个分布式计算系统Hadhoop集群,规模为300台;2010年,数据大爆炸的一年,RAC集群已经不能满足业务发展速度,从RAC迁移到了Hadoop,阿里自主开发了大规模分布式计算机系统;2011年,阿里巴巴对外以生意参谋为载体,基于阿里巴巴集团数据公共层建设、数据产品整合契机推出统一的数据产品平台——生意参谋,通过数据披露、分析、诊断、建议、优化、预测帮助商家推进数据化运营;2012年,阿里自主研发的离线数据处理平台,支持海量数据存储和计算,可以提供海量数据仓库的解决方案和针对大数据的分析建模服务;到2016年时,集团中台事业群成立,启动全域数据建设,公共层onedata产品升级,全方位支持全域数据建设,并陆续启动优土、阿里妈妈等全域数据建设。

2.2 百度

百度大数据最重要的来源是通过“爬虫”搜集的 100 多个国家的近万亿网页数据,数据量是在 EB 级的规模。百度的数据非常多样化,其收集的数据既有非结构化的或者半结构化的数据,包括网页数据、视频和图片等数据,也有结构化的数据,如用户的点击行为数据、广告客户的付费行为数据等。

百度大数据主要服务三类人群:一类是互联网网民,通过大数据和自然语言处理技术让网民的搜索更加准确;第二类是广告主,通过大数据让广告主的广告和搜索关键词的匹配度更高,或者和网民正在看的网页内容匹配度更高;第三类是,也是在重点推进的百度大数据引擎,重点是服务传统行业拥有数据的企业。

百度从2007年开始引进Hadoop 0.15.1,随后快速发展,2011年百度的MR单集群规模达到5000台,到2013年已经多达1.3万台,这也是截止到目前为止全世界最大的单集群。2015年,新Shuffle技术完成全面上线,Hadoop默认Shuffle实现为基于磁盘Pull模式,计算过程显式分成Map、Shuffle、Reduce过程;Baidu研发的新Shuffle采用内存流式Push模式,Map端完成部分记录处理后直接从内存中将计算结果推送给下游。

百度大数据引擎的作用可以从两方面体现:1.对于政府机构:如交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,如果这些数据与百度的搜索记录、全网数据、L BS数据结合,在利用百度大数据引擎的大数据能力,则可以实现智能路径规划和运力管理;卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,如果和百度的搜索记录及全网数据结合,便可进行流感预测、疫苗接种指导。2.对于企业:很多企业也拥有海量大数据,不过很多企业的大数据处理和挖掘能力比较弱,如果应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅人深的价值挖掘。

2.3 腾讯

2009年腾讯搭建了第一个Hadoop集群,2010年TDW v0.1版本发布,次年智能广告上线,实现离线数据和实时查询。2012年进入发展期,TPR全实时流程上线,到2013年TDBank上线,同年Oracle全部下线。从2014年开始发展进入稳定期,2014年,JStorm TRC上线,TDW开始节源,Gaia单集群量达到8800台,同年底发布Docker on Gaia。2015年,腾讯Spark集群量达到全球第一。2016年,Angle上线,同时大数据套件产品通过数据中心联盟大数据基础能力认证,成为第一批获得认证的互联网企业,数据平台在Sort Benchma rk排序获得第一名。

腾讯大数据平台有如下核心模块:TDW、TRC、TDBank和Gai a。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TDBank则作为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。

TDW是海量数据处理平台的核心部件,主要用于对腾讯内部提供数据挖掘、产品报表、经营分析等离线海量数据分析服务。它是基于 Hadoop、Hive、PostreSQL 之上的大数据平台,具有查询引擎、计算引擎、存储引擎的分层结构,可根据用户需求进行深度定制。当前,TDW正在向着实时化发展,通过引入HBase提供了千亿级实时查询服务,并开始投入Spark研发为大数据分析加速。

TDBank是数据实时收集与分发平台。构建数据源和数据处理系统间的桥梁,将数据处理系统同数据源解耦,为离线计算TDW和在线计算TRC平台提供数据支持。针对不同应用场景,TDBank提供数据的主动订阅模式,以及不同的数据分发支持(分发到TDW数据仓库,文件,DB,HBase,Socket等)。

TRC腾讯实时计算平台,专门为对时间延敏感的业务提供海量数据实时处理服务。TRC是基于开源的Storm深度定制的流式处理引擎,用Java重写了Storm的核心代码。为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离,通过和Gaia这样的资源管理框架相结合,做到了根据线上业务实际利用资源的状况,动态扩容&缩容,单集群轻松超过1000台规模。

Gaia:统一资源调度平台。它能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了开发者的资源管理逻辑。Gaia提供高并发任务调度和资源管理,实现集群资源共享,具有很高的可伸缩性和可靠性,它不仅支持MR等离线业务,还可以支持实时计算,甚至在线service业务。

3 BAT的大数据商业应用和探索

3.1 阿里巴巴:致力于通过DT,将数据变成为驱动社会发展的能源

阿里巴巴大数据商业应用的核心就是通过DT,以激活生产力为目的,点燃整个数据和激发整个数据的力量,被社会所用,被销售所用,为制造业所用,为消费者信用所用。让阿里巴巴的数据以及数据技术工具成为中国新商业的基础设施。阿里巴巴大数据未来将由“基于云计算的数据开放+大数据应用”组成:

(1)基于云计算的数据开放。云计算使中小企业可以在阿里云上获得数据存储、数据处理服务,也可以构建自己的数据应用。云计算是数据开放的基础,云计算可以给到全球的数据开发者一个数据的工作平台,阿里分布式的存储平台和在这个平台上的算法工具,可以更好的为数据开发者所用。

(2)在大数据应用上马云已经在整个数据应用上确定了两个方案:

第一从IT到DT(数据技术),阿里巴巴的数据资产是以电商为主,其中,淘宝和天猫每天会产生丰富多样的数据,阿里巴巴已经沉淀了包括交易、金融、生活服务等多种类型的数据,这些数据能够帮助阿里巴巴进行数据化运营。

另外一个最为重要的应用是金融领域-小微金融。在小微金融企业融资领域。阿里巳经通过其电商数据中的交易、信用、SNS等多种数据来决定是否可以发放贷款以及放贷的额度。

第二是让阿里巴巴的数据、让阿里巴巴的工具能够成为中国商业的基础设施。阿里巴巴巳经开始在转型,阿里将由自己直接面对消费者变成支持网商面对消费者,阿里会根据其已有的运营和数据经验,开发更多的工具,帮助网商成长,让网商们更懂得用最好的工具、服务去服务好消费者。

因此,阿里巴巴目前的数据产品主要分为三个板块:1.生意参谋,基于全渠道数据融合、全链路数据产品集成,为商家提供数据披露、分析、诊断、建议、优化、预测等一站式数据产品服务。目前,服务的商家已经超过2000万,月服务商家超过600万;在月成交额30万元以上的商家中,逾90%在使用生意参谋。2.孔明灯,先的第三方云BI工具,以“让业务更清晰,让决策更高效”为愿景,提供一站式多维分析、数据建模、可视化应用、智能建站等工具套件;帮助企业快速有效进行数据的可视化及联合(多维)分析,完成数据决策。3.阿里指数,以阿里电商数据为核心,面向媒体、市场研究员以及社会大众提供的社会化大数据展示平台;提供地域、行业等角度指数化的数据分析,作为市场及行业研究的参考、社会热点的洞察工具。

3.2 百度:咬定数据不放松,用数据打造智能化社会

百度因为其咬定数据不放松行业和技术优势,在大数据商业应用方面,主要是通过对海量数据进行深加工,力图打造成覆盖社会各领域和社会生活各方面的智能专家。

百度大数据引擎代表了互联网企业数据服务能力开放和合作的趋势,百度大数据引擎由以下几个方面构成。

开放云——百度的大规模分布式计算和超大规模存储云,开放云大数据开放的是基础设施和硬件能力。百度是全球首家大规模商用 ARM 服务器的公司,而ARM 架构的特征是能耗小和存储密度大,同时百度还是首家将 GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。百度开放云生命科学解决方案可以帮助生物信息领域用户存储海量的数据,并调度强大的计算资源来进行基因组、蛋白质组等大数据分析。此外,百度自行研发的基因大数据芯片可以使运算速度得到数倍的提升、IT成本实现数量级的下降,帮助研究生命活动规律,促进医疗健康行业发展。

数据市场——“数据市场”是“百度数智平台(di.baidu.com)”旗下的数据产品售卖平台。“百度数智平台”汇集百度大数据核心能力,运用大规模机器学习和数据建模等前沿技术,对海量数据进行挖掘、处理和分析,打造易用产品和成熟行业解决方案,致力于为千万家企业客户提供专业、稳定的数据智能服务。数据市场为百度将海量数据组织起来的软件能力,与数据库软件的作用类似,不同的是数据工厂是被用作处理 TB级甚至更大的数据。百度数据市场支持超大规模异构数据查询,支持 SQL-like 以及更复杂的查询语句,支持各种查询业务场景。

百度大脑——百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别以及自然语言和语义理解方面,并通过百度 Inside 等平台开放给智能硬件。这些能力将被用来对大数据进行智能化的分析、学习、处理、利用,并对外开放。

百度天算平台——天算平台将百度的大数据、人工智能全面进行开放,相关行业用户可以使用这些技术简单的搭建起自己的大数据和人工智能平台,同时天算平台针对几个行业推出了定制化的方案,百度希望通过这些行业解决方案,相关的用户可以更容易地搭建自己的智能系统,更快地享受到大数据和人工智能给他们带来的好处,为日志分析、数字营销、生命科学、舆情等行业提供了定制的解决方案。

3.3 腾讯:数据为产品所用,自产自销

腾讯大数据从数据应用的不同环节可以分为三个层面,包括数据分析、数据工具、数据平台。

(1)数据分析层有四个产品:腾讯移动分析 MTA,专业的移动应用数据分析能力,提供实时数据统计分析服务,监控版本质量、渠道状况、用户画像属性及用户细分行为,通过数据可视化展现,协助产品运营决策;网站数据分析 TA,统计分析展示网站的访问情况、来源情况、访问路径等,帮助站长清晰地了解访客的行为、属性等,以方便站长进行有效地网站运营,同时为网站的决策提供更加有力的数据支持;HTML5数据分析,专业的移动应用数据分析能力,提供实时数据统计分析服务,监控版本质量、渠道状况、用户画像属性及用户细分行为,通过数据可视化展现,协助产品运营决策;微信小程序分析,支持小程序关键指标,如访问用户、打开次数、使用时长等的实时统计分析,同时提供自定义事件打点分析,完美补充微信的基础统计能力。

(2)数据工具层面两个产品:腾讯移动推送-信鸽,专业移动A pp推送平台,支持百亿级的通知/消息推送,将相关信息及时送达精准定向的用户,并与用户持续友好互动。大幅提升用户活跃度、留存率;云数据库CDB for PostgreSQL,能够在云端轻松设置、操作和扩展目前功能最强大的开源数据库 PostgreSQL,腾讯云将负责绝大部分处理复杂而耗时的管理工作,如 PostgreSQL 软件安装、存储管理、高可用复制、以及为灾难恢复而进行的数据备份,让您更专注于业务程序开发。

(3)数据平台层面两个产品:大数据处理套件TBDS,是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。可以按需部署大数据处理服务实现数据处理需求,例如报表展示,数据提取、分析,客户画像等大数据应用;腾讯推荐,为各种大小型网站、APP提供推荐服务,拥有8亿月活跃用户,千亿社交关系链,囊括了广告、电商、新闻、游戏等众多领域,千万级维度深度刻画每一位用户,深度挖掘用户属性,同时SDK支持多种平台,实现跨屏推荐。

4 百舸争流

不只是BAT的大数据在行动。其实IBM、谷歌,亚马逊,Faceb ook等一大批公司在大数据技术开发和大数据商业应用方面都涉足很深。早在大数据概念进入媒体视野之前,IBM就提出“智慧地球”的概念,其核心是把“智慧”嵌入系统和流程之中,使服务的交付、产品开发、制造、采购和销售得以实现,通过其建立的8个全球分析解决方案中心网络,使亿万人生活和工作的方式变得更加智慧。谷歌所提供的大数据分析智能主要是应用客户的情绪分析、交易上风险、产品推荐。基于Colossus,谷歌为不但为用户提供了可以计算、存储以及应用的云服务。计算服务包括了计算的引擎以及应用的APP引擎;存储服务是利用了云存储、云SQL以及云数据的存储、永久磁盘等服务;云应用服务包括BigQuery、云终端(Cloud Endpoint s)、缓冲、队列等。Facebook收集、存储和分析用户数据,他们还会通过下列方式确定或影响用户的行为:(1)跟踪Cookies来跟踪用户浏览Web的行为;(2)面部识别:Facebook可以借助用户分享的图像数据在Web和其他Facebook用户资料中跟踪用户;(3)分析用户喜好。作为全球知名的大数据产品服务商之一的亚马逊则通过大数据来实现客户的精准营销。国内方面,华为大数据主要主要针对广告营销、电商、车联网等大数据应用场景的云计算大数据方案,帮助企业用户构建大数据平台,解决企业的海量数据存储和分析需求。小米进入了智能设备领域后,充分感受到了大数据的浪潮扑面而来, 投入10亿美金开始做翱义云服务计划,在这个计划里面,小米的重心放在应用层,金山软件的重心放在开放云服务,并预计云服务收入会快速增长。国内三大通讯运营商和中国银联等数据优势企业在大数据技术和商业应用方面开启了征程。

综上所述,大数据技术为人类全面深刻地认识社会、了解自身提供了一种全新的方式和视角;大数据时代,人们将面临更多未知的挑战,百舸争流,“一切皆有可能”。正如马云所说的一样,“我们要感知大数据、思考大数据,我觉得,这是我们共同的未来。”

[1]车凯龙,铁茜.国内外社交网络(SNS)大数据应用比较研究——以Facebook和腾讯为例[J].图书馆学研究,2014,(18):18-23.

[2]陈园园.Facebook:基于SNS的大数据公司[J].互联网周刊,2012,(24):60-61.

[3]傅志华.BAT三巨头“玩转”大数据[J].中国战略新兴产业,20 15,(01):78-80.

[4]赵雪峰.基于互联网企业的大数据分析系统研究[D].成都理工大学,2016.

[5]范卉青.抢滩大数据发展 互联网巨头各有所爱[J].通信世界,2016,(15):13.

王怡文(2000.4—)湖北省武汉市第六中学高三班,研究方向:社会经济热点问题分析与研究。

猜你喜欢
海量百度阿里巴巴
一种傅里叶域海量数据高速谱聚类方法
海量GNSS数据产品的一站式快速获取方法
Robust adaptive UKF based on SVR for inertial based integrated navigation
海量快递垃圾正在“围城”——“绿色快递”势在必行
吴翰清:阿里巴巴的守护神
阿里巴巴与四十大盗
百度年度热搜榜
不懂就百度
一个图形所蕴含的“海量”巧题
百度年度人气萌娃