宋文芳 庞贝
覆盖6亿网民,汇聚全网万亿网页,每天响应60亿次搜索请求、150亿次定位请求,记录了整个中国互联网的历史、现在与未来……
—如果将数据资源比作矿藏,那么百度所拥有的无疑是一座巨大的富矿。
这座富矿究竟价值几何?百度又将如何挖掘它的潜能?
2015年9月8日,在2015百度世界大会上,百度旗帜鲜明地给出了答案,那就是用大数据来“连接3600行”。
在8月19日国务院通过《关于促进大数据发展的行动纲要》之后,这场大会更像一场誓师,百度董事长兼首席执行官李彦宏和他的同伴们终于由此开启挖掘大数据宝藏的大幕了。
大数据的宝藏,百度将要怎样挖掘?
百度高级副总裁王劲在会上发布了百度“大数据+”开放平台:“百度通过大数据连接3600行,打通线上和线下,把线上和线下的数据融合起来,产生核聚变,迸发出新的能量,让大数据成为3600行的商业新能源。”
这新能源的富矿存量有多大?
资源:海量存储 数据富矿
如果将单一信息比作一滴水,那么百度所拥有的无疑就是汪洋大海:百度的服务覆盖6亿网民,汇聚全网万亿网页,每天响应60亿次搜索请求、150亿次定位请求,记录了整个中国互联网的过去、现在与未来……
除了搜索数据、定位数据之外,百度还拥有丰富的社区数据,如百度贴吧的数据等。
过去,百度索引的是网页,而现在百度要索引真实世界。它正在将线上和线下的数据打通、融合,将百度数据和传统行业的数据深度结合。目前,百度和保险、零售等行业已经在大数据合作方面进行尝试,随着百度大数据与行业深度合作的扩展与加强,可以预想,百度拥有的数据矿产将进一步丰富与完善。
然而,如此海量的数据,仅是存储和处理就绝非易事。百度会不会被淹没在这数据的海洋里?
硬件:底层支撑 储备过硬
存储、计算如此海量的数据,离不开硬件基础—数据中心。此前,作为全球最大的中文搜索服务提供商,百度的数据中心规模已达数十万台服务器。而近日百度更是启用了华南超级核心及华南IDC(互联网数据中心)集群,使百度的数据中心规模和网络服务能力进一步提升。
百度已在全国多个地区建成超级核心及IDC集群。超级核心指的是骨干网络节点,所有IDC都需通过该节点进行互联。此次华南超级核心及IDC集群的启用,对于占全国近1/3用户的华南十省地区,可以实现网络提速30%以上。
除了拥有规模庞大的数据中心和计算网络外,百度公司还一直投入大量的资源研究数据中心的节能技术及清洁能源发电技术,引领数据中心绿色节能技术的革新潮流。
2013年1月,中国第一代整机柜服务器天蝎(北极)1.0版本率先在百度南京机房上线,开创了定制服务器新时代,在中国发挥了很好的引领作用。如今,百度已大规模上线天蝎(北极)2.0,自主整机柜服务器已投入使用数十万台。
整机柜服务器采用共享架构设计,可以让百度取得非常好的收益:整机柜服务采用集中供电,比传统分散电源的能效提升20%,而电源模块成本只有原来的50%;采用集中散热,比传统分散散热模式的能效提升60%,风扇成本节省20%;方便集中管理,以机架为基本管理单元,提高管理效率,整机能耗降低15%。
此外,百度还是全球第一家大规模商用ARM服务器的企业,仅此一项,使能效降低30%。百度在语音、图像识别等领域创新性地应用了GPU服务器,能耗降低超过10倍。百度还成为全球首家把FPGA规模部署到数据中心的互联网公司,应用FPGA后,能耗降低38倍……
技术:出神入化 谁与争锋
王劲说:“我们在技术上巨大的投入,希望有一天不仅助力百度发展,还能够帮助中国整体经济转型。希望百度技术的开放与应用,能够给中国的发展带来丰厚的回报。”
百度在技术上投入了什么,又换来了什么?它真有传说中那么出神入化?
在云计算技术方面,百度拥有全球最大的Hadoop集群。Hadoop是能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。目前百度拥有业界最大Hadoop单集群—1.3万台,日处理作业量达百万量级。
在大数据和人工智能技术方面,百度搭建了超大规模深度神经网络,可支持千亿样本和千亿特征训练。
基于大数据及超大规模神经网络,百度在机器感知方面取得了非常大的进步:其统一视觉和语言深度学习模型已经能像小孩子学习一样自然,能够进行简单的看图说话、问答,理解动态视频;在世界最权威的人脸识别评测 (LFW,Labeled Faces in the Wild,无约束人脸识别) 中,人类的错误率为0.8%,百度人脸识别的错误率仅为0.23%;对于搜索这样的短文本(中文)语音输入,人类的单字错误率为8%,而机器可以达到6%。
基于机器感知及自然语言理解方面的技术突破,百度打造了先进的读图问答技术。这一技术会聆听、识别并理解人类的语言,同时识别、认知图片内容,自行判断并且组织语言给出答案,体现了目前全球最领先的人工智能水平。
如今,百度已经将这些先进的技术和能力通过百度开放云、API Store (apistore.baidu.com)对外开放共享,助力行业转型升级。
这些令人眼花缭乱的技术,究竟能够做些什么?
市场:探明前路 前景广阔
可能在开始,百度也未必清楚地知道大数据的价值到底能够挖掘到多深入,于是它将探寻的灵敏触角伸了出去,得到了市场的热情回应。来看看大数据平台与市场结合后的斐然成果:
大数据+零售:迎接个性化精准营销时代的到来
随着信息社会的不断发展,整个大数据的生态开始往线下转移,这是大数据+非常具有潜力、值得挖掘的一块宝藏。特别是在国家大力提倡“大众创业、万众创新”的情势之下,它将为中小微新兴创业者提供有益参考,带来事半功倍的效益。
大数据可以刻画群体画像,帮助创业者进行营销,提供精准、定向的个性化推送;通过分析客流数据、消费水平、需求缺口、竞争对手、交通状况等,给出商业选址建议……
随着大数据生态的铺展,一些敏锐的商场开始抓住这一契机,从只关注最简单的整体的客流,到开始注意自己数据的建设。
而通过与百度大数据的合作,北京朝阳大悦城无论对自身还是对消费者的认知都有了质的提升:在充分保障用户隐私和安全的前提下,把百度海量的线上数据和大悦城线下多年积累的数据结合在一起,通过挖掘、分析这些数据,百度和大悦城制订了一些更有针对性、更精准的推广计划。这种个性化的推广计划在很大程度上提升了大悦城的销售量。据统计,通过这一方式,大悦城会员销售额提高了12%,未购买品牌推荐转化率提升了5倍;非活跃会员到场消费率提高53%。
从关注整体客流到关注客流的留存、停留的时间、浏览路径……再到开始关注细分人群、消费者的生命周期及偏好,最后通过O2O的生态和大数据生态,针对行为习惯不同的消费群体实施定制化的营销,大数据正在改变着零售行业。可以说百度的海量数据,有效地支持了商业运营和商业决策,同时,对于消费群体的分类、判断和认知,有助于实现个性化的精准营销和个性化服务,大大提升盈利水平。
大数据+保险:低赔付人群定位准确性超过85%
百度大数据与保险行业的融合,可以挖掘出客户购险意图,做到精准营销;同时可以预测客户的赔付率,进行个性化定价。通过与大数据的结合,使保险公司在保险价值发现、客户挖掘等方面的能力得到极大提升。
保险业降低一个百分点的赔付率,都意味着比竞争对手有了更大的竞争优势。
百度在这一领域小试牛刀,展现出大数据在这一领域的巨大潜能。
利用保险公司多年积累下来的线下数据,百度和保险公司圈定了一大批低赔付人群样本。百度将这些人群的线上线下数据融合,应用人工智能技术,把这些人的特征挖掘出来。然后,在6亿网民中,通过海量计算,将具有相同特征的人找出来。这样就找到了更多的低赔付人群,准确性超过85%。同时,通过大数据合作,实现精准营销,广告点击率提升361%、购买转化率提升200%。
大数据+金融:开启点“数”成金的互联网金融时代
把线上的海量数据和线下的金融数据结合到一起的时候,这些数据产生了点“数”成金的效果。
这些数据的融合,对基金选股、风险控制、信用评估产生了极大帮助。它们有效地提升了投资者决策判断的参照系。传统金融做决策的时候,一般用几十个、几百个维度进行决策,当应用互联网大数据后,可以用几万个维度进行决策,并可以对数据进行实时监控和反应,大大提升金融决策的有效性。
百度大数据和国金证券的合作在这方面提供了有益借鉴。他们把线上和线下的数据结合在一起,通过对这些海量数据进行复杂的计算,挑选出了20多个有效的因子,并用这些因子建立数学模型,助力选股和买卖决策。
基于上述大数据的合作,使投资者的绝对收益提升了5%到8%;信息比IR提升了0.6到0.9;最大回撤降低了3%到5%。
有了大数据的强大支持,我们在炒股上、在基金的选择上,能够有更大的收益,能够更好地控制风险,降低波动。
据王劲透露,下一阶段,百度大数据将和国金证券进行一个新的尝试,共同建立一个新的量化基金。希望通过这种创新和尝试,帮助互联网金融找到切实可行的发展道路。
大数据+旅游:智能化的旅游服务
在查找旅游信息时,搜索引擎是主要渠道。游客从搜索引擎获取信息占所有信息获取渠道的78.5%。
大数据与旅游相结合,基于海量搜索数据,以及LBS定位数据、SNS数据等,能够实现景区客流量预测,为游客出行、景区管理与服务提供参考;还可以让景区更深入地洞悉旅客,便于景区做更智能的服务和营销。此外,还可以提供酒店订单预测、热门线路预测等服务。
百度大数据与武夷山景区的合作堪称这一类型的典范:通过大数据分析可以了解到,到达该景区的旅客对鼓浪屿、黄山、乌镇、西湖等景区的关注度也很高。因此景区可以联合沿线景区,推出精品旅游路线,进行营销合作,充分发挥景区联动效应。
正像王劲所说:“过去,我们做决策凭的是个人的经验和能力;今天有了大数据,我们能够有的放矢地做出一个决定,让大数据引领我们去做新的决策。”
“索引真实世界,让大数据改变我们的生活。百度不仅仅用大数据来帮助百度自己发展,我们还希望把百度大数据开放给大家,希望用大数据+平台连接3600行,助力3600行获得新的竞争优势。”
业态:培育生态 改变生活
百度建立大数据平台的目的,一方面是为了释放大数据的海量价值,更为重要的是建设大数据生态。
在谋划大数据之初,或许他们已经前瞻性地将百度大数据打造成与各大产业相融合的模块雏形:百度大数据+平台有七大模块,分别是产业洞察、客流分析、营销决策、舆情监控、推荐引擎、店铺分析、数据加油站,并已提供针对保险、旅游、零售等六大行业的解决方案。
可以说,未来通过大数据平台打造的百度生态圈,将可以用到百度大脑、百度大数据、百度云等丰富多样的产品和服务。而大数据不仅仅能够帮助商业,还能改变我们每个人的生活。
前段时间,百度研究院和百度公益共同携手打造了一款产品“百度小明”。百度小明依托“百度大脑”的图像识别、语音识别以及深度学习等相关核心技术,成为盲人的日常生活助理,帮助盲人“洞见”真实世界。
而对于更多的正常人,百度依托大数据、人工智能,开发了丰富多样的产品,帮助人们更深入于智能生活当中,让我们对于所处的信息社会不再有如“盲人摸象”。例如百度打造的小度机器人,能够像真人一样面对面和用户对话,回答用户的问题。它可以利用人脸检测和跟踪技术,根据用户的位置移动而转动视线。不仅如此,小度机器人还具备了认识用户的能力,可以判断出面前用户的身份是注册用户中的哪一个人,根据用户的不同年龄、身份、性别做出个性化的回答和服务。
王劲说:“前段时间,国务院印发促进大数据发展行动纲要,进一步推动大数据应用到行业中。我们希望百度能够参与其中,帮助中国更好地实现大数据战略。”
我们正处在第三次工业革命的尾声与第四次工业革命的前奏共同奏响的巨大时代声浪之中,不管是从国家还是社会发展层面,世界各国都在积极探寻更深层次发展的契机。大数据无疑提供了无数发展可能性中的一种,我们期待着它在与国家战略融合的同时,“产生核聚变,迸发出新的能量”,更深远地影响到未来生活。