本刊记者|刘胜男
1月20日,今日头条在北京国家会议中心举办了“算数·年度数据发布会”。作为国内领先的资讯客户端,今日头条在过去两年多的时间里,总估值超过了5亿美元,已经积累了超过2.2亿用户,每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。同时,这些用户的每一次刷新、点击也为今日头条带来了海量的数据。
今日头条本身就是基于数据挖掘的推荐引擎产品,通过对海量数据的深度挖掘,今日头条不仅能够为每一个人按兴趣推荐信息,还能够从宏观的角度得到大众群体的阅读趋势。
那么,今日头条到底是如何猜中每位用户喜好什么、关心什么的呢?今日头条创始人张一鸣回答了一个词:机器学习。
什么是机器学习?今日头条技术副总裁杨震原解释说:“其实移动互联网时代是一个提供服务的时代,就也可以把算法理解成,是一种让机器能够给人提供服务的方法。”
杨震原举了一个特别简单、特别Q的例子:聪明伶俐会心算的小明和笨到只会数豆子的阿呆同时做一道“100+100=?”的算术题,谁先算出来谁就是聪明人,可以吃雪糕。结果是阿呆取得了胜利,这是为什么?杨震原介绍说,这个例子非常能够说明计算机学科的原理,就是如何去考虑用计算机去解决问题这个过程。小明心算3秒钟就可以算出来,但是问题在于阿呆一秒钟可以数4万颗豆子,他数200颗豆子只需要0.005秒,显然阿呆胜出了。
这个例子充分解释了计算机是如何战胜人的,或者机器如何变得更加聪明的。“实际上很多时候,我们做工程师的会觉得机器非常非常傻,我们写的很简单的程序,机器都会搞错。但当你从某一些角度去看的时候,又会发现机器非常强大,它可以算的非常快,可以记的东西非常多,所以这种量变就会积累,让他变得很不一样。”
目前,今日头条积累的用户评论,阅读,展示,刷新,停留时长等等各种用户的行为数据,用5号字体打印在A4纸上,可以铺满地球两层。数据非常大的时候,就会产生不一样的效果,这就是一个计算机科学中非常经典的领域,有这样的一句话叫做More data beats better algorithms(大数据胜过好算法)。机器学习实际上就是说工程师给机器一个计算的方法,当把这些豆子,把这些数据交给机器,机器会用这样的算法去计算,机器虽然很笨,但是最后算出来的结果表现的非常聪明,而且机器能够从海量的数据中总结出一些人们平时未曾发现的,这个过程就是机器学习的过程。在移动互联网时代,用户的每个行为都会被记下来产生数据,也就有源源不断的豆子产生。
当把越来越多的豆子给阿呆,把越来越多的数据给机器时,阿呆和机器就会显得越来越聪明。“机器学习是今日头条的核心,我们今天所有的数据也都是基于机器学习”张一鸣的这句话足可见“机器学习”的重要性。
同时,张一鸣还指出:随着物理世界中产生的信息正在被越来越多地投映到虚拟世界中,越来越多的数据被记录下来,计算机也会越来越懂用户,它扮演的不仅仅是助理角色,它更像是世界共享的一个大脑,网络空间的“上帝”,俯视观察所有用户。
知道用户喜欢吃什么,喜欢做什么,喜欢哪些公司,哪些明星,并且都会主动推荐给用户。而且数据和机器是不会说谎的。
机器学习真正到达这一步,对人类而言是一个美好的世界还是一个可怕的世界?张一鸣认为会是一个更加美好与高效率的世界。因为机器是为人类服务的,大规模信息被记录,被连接,将产生前所未有的互动规模,这样就会有更多的人类的知识与智慧被沉淀下来。不过,张一鸣也认为,通用综合型计算机大脑,至少在短期内不会涌现出来。但是在中短期内,在垂直领域,无论是新闻领域的今日头条,还是工具类应用天气、导航等,机器本身的智能性不会比人类强多少,但是由于时间长,记忆的内容和数据够多,经过长年积累,将能够大规模抹平信息鸿沟。
就如北京大学新闻与传播学院副院长陈刚教授畅想的,今日头条目前提供的还只是一个简单化的基于信息的服务。但未来,他相信今日头条一定会从信息服务走向生活服务,尤其是移动生活的服务。未来,今日头条不是媒体,它是我们在移动生活空间里,生活服务上不可缺少的一个最好的朋友。而要做到这些,离不开大数据和机器学习的支持。
在夜深人静的时候,享受一篇机器为你推荐的你最感兴趣的文章,或是给你提供的一个令你舒适的服务,减轻下人脑的负担,放松放松,何乐而不为呢?