快速奔跑的英伟达

2018-06-02 10:05孟醒

中国工业评论 2017年11期

孟醒

决定电脑运行速度的核心是中央处理器CPU。中央处理器在性能上的突破，定义了电脑的代际变化，使得电脑的世界“江山代有才人出”。第一代中央处理器的领跑者是IBM；第二代中央处理器的领跑者是Intel；到第三代的移动端，领跑者又变成了Apple、Google等。那么，在电脑要进入第四代的时候，应用于人工智能的GPU出世，出现了一个新的领跑者的身影，它就是NVIDIA（英伟达）。

败局求生

NVIDIA创建于1993年1月，到今天已有24年的历史。

自创建以来，它的总裁与CEO一直是黄仁勋。

1983年，二十岁的黄仁勋从美国俄勒冈州立大学电子工程专业毕业，之后先后在硅谷任职于AMD和LSI公司。在LSI主持芯片销售工作期间，黄仁勋结识了后来的两个合伙人——克里斯、普雷厄姆。当时，克里斯、普雷艾姆都是SUN公司的工程师，三人常相约在硅谷高速旁的一家咖啡馆畅谈创业计划。1992年年底的一天，咖啡馆老板见到三位常客，便把他们引到一个包厢，说是这里更安静，便于聊天。三人很高兴，可刚踏进去，他们都震惊了——靠街的那面墙上布满了弹孔！其中的一位大惊失色道：“我们想找一个安静，但更要安全的地方。”老板连忙道歉：“是我忽略了，不过不用担心，警察也常在这里聊天，我保证你们是安全的。墙上的弹孔是那些黑手党留下的。”

1993年初，经过一段时间的深入讨论，三位好友决定共同创办NVIDIA。

公司成立了，黄仁勋并没有马上上任，而是选择在他30岁的生日这天上任。他特意选择这一天，就是要兑现自己当年在大学追求妻子LORI时的承诺——30岁创办自己的公司。

两年后的1995年，NVIDIA推出第一款产品NV1。NV1采用独特的正方形成像技术，摒弃了流行的多边形成像技术，并集成了游戏手柄、声卡等多重功能。NV1可以加快电子游戏中图形图像的渲染速度，增强显示效果的逼真程度。

精心打磨了两年，性能突出的NV1并没有得到业界的认可，支持的厂家屈指可数。此时，NVIDIA的所有资金只能支撑30天。生存上升为第一要务，最实际的办法就是裁员自救，公司从100多人裁减到了30多人。黄仁勋亲自做说服工作，他答应等业务好转，只要本人愿意，一定接大家返回公司。

正举步维艰的时候，NVIDIA接到了日本游戏机巨头世嘉公司一笔700万美元的订单，公司得以续命。世嘉看中的是NVIDIA的技术潜力，在合作协议中明确要求NVIDIA采用多边形成像技术。但首席技术官普雷厄姆执意坚持之前的技术路线，于是世嘉提出终止合作，新开发的NV2胎死腹中。所幸，黄仁勋的诚意最终打动了世嘉，世嘉放弃了追索资金的权利，而将NV2象征性地移作他用。

创业之初接连两次失败使黄仁勋认识到，自己的产品除了要具备领先的性能，更要与用户的需求相匹配。黄仁勋果断做出改变，NVIDIA重金聘请戴维·柯克博士为首席科学家。戴维·柯克博士原在软件开发商Crystal Dynamics工作，在业界享有盛誉，被称为技术天才。戴维·柯克博士将自己的研究开发经验与NVIDIA的既有经验相结合，花费两年时间，在1997年推出了新产品NV3——RIVA 128显卡，性能与市场领导者3DFX的VOODOO显卡不分伯仲，且价格低廉。NV3具备2D/3D加速能力，匹配速率更快的三角形生成引擎，备受市场欢迎，上市四个月就销出100万片。NVIDIA再接再厉，又推出了简单升级版RIVA 128zx，也就是游戏玩家熟知的小影霸，该款产品继续畅销。NVIDIA由此收获了第一桶金。

竞争取胜

就在NVIDIA奠定了发展基础的时候，IT产业悄然发生了革命性变化。

科技发展的历史已经证明，每当大的变革来临，往往伴随着新的发展风口。此时，新生与死亡同样迅速，端看你是在风口之上，还是在风口之下。

此时，英特尔推出了AGP接口来取代传统的PCI接口，并支持3D加速显卡；几乎是同时，微软Win 95推出支持3D程序应用接口——Direct3D。

就在大多数图形芯片公司依旧在老路上全力奔跑（这样的快跑则意味着更快速的死亡），还没有觉察到风起于青萍之末的时候，而黄仁勋已经敏锐地意识到，一股新的风潮就要来了，新的机会就在面前，谁能夠快速站在巨人的肩膀之上，谁就能更快地抢到成功的冠冕。

NVIDIA副总裁克里斯的一番话可以作为注脚。他说：“在1993年的时候，英伟达的芯片还没有市场，但是我们预料到这股浪潮即将来到。”他还举了大自然风潮来袭的例子：“在每年特定的5个月内加州会举办冲浪比赛。当远在太平洋另一端的日本有风浪的迹象出现时，加州的冲浪选手就蠢蠢欲动了，因为两天之内风浪就会到达加州海岸。这跟当时我们决定创建芯片公司的情形是一样的，我们是最先下水的冲浪选手。”

在开发NV3时，NVIDIA果断选择对接微软的Direct3D和英特尔仍在试验阶段的AGP接口。在别人看来这是一场豪赌，因为NVIDIA投入自己的全部资金，但在黄仁勋看来，他是站在了风口之上。

方向确定之后，黄仁勋的专注力发挥出巨大的能量。NVIDIA产品的更新换代速度明显加快。此前是两年，此时是不到一年，在1998年10月，NVIDIA发布了第四代产品——TNT。黄仁勋不再使用NV系列的名字，特意给这款产品取了一个更贴合他性格与黑色着装的爆裂名字。TNT投放市场，果然如炸药点燃，声光乍现，被业界称为超级显卡。如果说NV3与VOODOO还存在可比性，而TNT的性能已然超越3DFX公司同期推出的VOODOO2。

仅仅半年，3DFX还没有回过神来，NVIDIA又推出了性能更为优越的TNT2，生生将VOODOO系列显卡甩在了身后，一举奠定NVIDIA的领先位置。

此时的3DFX并没有觉醒，就像NVIDIA在做第二代产品时一样，仍然坚持自己的标准，不去支持行业领先的微软与英特尔，产品无人问津，被新的市场风浪无情吞噬。2000年12月，3DFX以被NVIDIA收购收场。NVIDIA成为新一代显卡之王。

黄氏定律

上世纪90年代末，随着计算机游戏、影音、视频的多功能开发，图像处理任务在处理器中所占比重越来越大。黄仁勋意识到，是推出专门图像处理器（GPU）来分担CPU功能的时候了。

也许，他的心头又燃起了一团火，那源自少年时代的一团火。当年，兄弟俩曾在游泳池水面布满燃烧物，点燃之后随即纵身跳进水池，那水火交融的刺激无法言说。黄仁勋是那种为了目标，奋不顾身的狂人。1999年8月，NVIDIA推出全球首款GPU——GeForce 256。像TNT一样，GeForce 256摧毁了传统图像芯片的市场格局。

随后，黄仁勋基于NVIDIA的经验，提出了令人震惊的黄氏定律：显卡芯片的性能，每6个月可以提升一倍。这是对芯片市场著名摩尔定律的颠覆。摩尔定律认为，芯片处理能力每18个月增加一倍。多年以来，芯片制造商都是按照摩尔定律来制定研发规划的。黄氏定律无疑打乱了整个计算机行业按部就班的发展路径。这种近乎疯狂的产品更新速度，让那些墨守成规的厂商被迅速淘汰，NVIDIA则依仗自己的快速奔跑，继续保持着自己行业领袖的地位。

就在1999年，NVIDIA在纳斯达克上市。三年后，NVIDIA的芯片出货量突破1亿片，成为历史上成长最快的芯片公司之一。

遭遇夹击

在此期间，NVIDIA因为没有自己的CPU技术，必须依靠英特尔和AMD两大巨头的平台，面临着巨大的生存压力。尤其是AMD对于NVIDIA的发展，处处掣肘，不断打压。AMD在收购ATI显卡之后，更与NVIDIA形成了直接的竞争关系。英特尔也准备推出自己的集成显卡，与NVIDIA展开竞争。2009年，英特尔公开宣布，其下一代CPU架构不再给NVIDIA技术授权。英特尔的这一杀招，直接迫使NVIDIA退出了芯片组业务。

对此，黄仁勋口出狂言说，英特尔即使将图像计算能力提高10倍，也无法与NVIDIA的产品相匹敌。对于AMD，他毫不留情地说，自己根本不关心AMD做什么的，因为自己与对方，一个是9，一个是0，没有任何可比性。

但面临竞争夹击的NVIDIA，必须做出选择：要么坚持做图像芯片，要么像对手一样冲进CPU市场，正面搏杀。以NVIDIA的技术实力，自己做CPU并非不可行。

尽管口无遮拦，但关键时刻，黄仁勋还是很清醒，绝不贸然进军自己没有技术积累的陌生领域：“我们的策略非常清晰，我再次重申，我们将永远专注于图像和并行计算技术。”他坚信，把所有的精力专注于做最少的事情，才能比对手做得更好。于是，NVIDIA投入巨资进行研发，即使在2008年营收下降16%的困难情况下，继续增加人财物投入。专注和投入，使得NVIDIA始终处于领先位置，好莱坞使用NVIDIA芯片技术拍出《金刚》《蜘蛛侠》等特技大片，美国航空航天局则由NVIDIA协助完成火星探险任务。NVIDIA的应用市场，不仅没有因为竞争夹击而萎缩，反而日益扩大。

正因青睐NVIDIA领先的技术能力，微软在2001年推出Xbox时，决定采用NVIDIA芯片，协商的订金是2亿美元。但不久，微软觉得NVIDIA报价太高，提出降价要求，NVIDIA不予同意。从微软之后的动作来看，这是微软采取的市场策略。微软选择的后续合作伙伴，正是NVIDIA的竞争对手ATI。

与此同时，英特尔也跟进微软，减少与NVIDIA的合作，转而支持ATI。

IT产业领先的两大巨头，同时出手，市场迅速做出反应，NVIDIA的股价从70美元一路下挫至7美元。

NVIDIA全力应对，先是攻克索尼PS游戏机市场，紧接着向微软示好，开展价格谈判，最终NVIDIA在价格上作出让步，于2003年达成和解协议。

ATI就此得到喘息之机，随后又被AMD收购。NVIDIA面临的竞争压力陡然增大，匆匆之中推出的GTX480、GTX590等显卡，因为超频温度高于ATI卡两倍，并多次发生自燃事故，饱受诟病。对于北京软星科技（北软）在测试之后指出NVIDIA卡在游戏中出现各种卡顿，甚至爆炸等问题，黄仁勋扬言要炸平北软总部。

面对困局，NVIDIA不断改进芯片架构。接连推出全新架构的Maxwell、Pascal等，来提高芯片能效比，最终超越对手AMD。

在过去的二十多年里，NVIDIA遇到過的竞争对手大大小小约有250家，除了3DFX、ATI等专业厂商，还包括IBM、惠普、松下等著名厂家。最终的结果是，大多数竞争对手被淘汰出局。

剑走偏锋

早在2008年，NVIDIA就发布了一款应用于智能手机的Tegra移动处理器，后来的竞争对手高通当时还是一家做基带的厂商，另一个竞争对手MTK还只是一个仿造者。然而，跑在前面的NVIDIA在基带和应用处理器的整合上稍有犹疑，市场上就涌现出一大批厂商，如展讯、联芯、三星、高通等。NVIDIA果断退出智能手机市场，剑走偏锋转而去做游戏设备和车载系统，其核心是CUDA平台——利用GPU进行通用并行计算的一种架构平台。

CUDA的研发肇端于2004年，斯坦福大学博士Ian Buck进入NVIDIA实习的时候，提出了CUDA开发的理念。Buck曾参与一项涉及简化利用GPU的众多计算引擎过程的编程挑战赛，并取得很好的成绩，被NVIDIA招致麾下。

当时，黄仁勋拍板，通过一系列软件开发和工作改进，让GPU由单一的绘制图像产品，升级为多任务解决平台。

方案初定，前景美好，但投资成为最大的问题。当时，CUDA的研发成本估算高达5亿美元。之所以有这么高的预算，是因为与传统CPU的4、8和16个线程不同，GPU中的线程足有几万个。CUDA的核心设计理念就是发现可并行的线程，并为软件开发提供便利性。5亿美元的开发费用，相当于公司年收入30亿美元的六分之一。黄仁勋后来也说：“此举给公司带来了极大的成本压力。”据NVIDIA披露，CUDA项目在将GPU转变成更为通用的计算工具上的总支出接近100亿美元。况且公司的核心业务是硬件，如今要开发的是一个软件平台，在那个时候难以让人理解。

一开始，CUDA主要依赖编程人员发现代码中可并行计算的部分，进展相当缓慢。而且编程人员必须熟悉特定的显示芯片指令或是特殊的结构才能操作，这限制了可投入开发人员的数量。不久以后，NVIDIA将CUDA整合到消费级GPU和高端产品中，并开发出软件辅助工具，其中包括支持标准的编程语言，如流行的C语言，不再是向图像芯片发出专业指令的神秘工具。Buck认为，这一决定至关重要。它降低了门槛，只要是研究人员或者学生，都可以使用笔记本电脑或者台式机，在实验室或宿舍里进行软件开发。同时，NVIDIA还与大学合作，开设专门的课程，推广NVIDIA的最新编程技术。

由此，GPU进入研发迭代的快车道。

凭借CUDA项目开发出的芯片和软件，NVIDIA逐步打造出一个广受程序员和企业欢迎的开放性技术平台。

在企业应用领域，德国商业软件巨头SAP利用CUDA来完成加速应付账款流程以及匹配简历和空缺职位的任务。

CUDA还可以应用于气候模拟、石油和天然气勘探等领域。2012年，CUDA被应用于神经网络（深度学习所需的多层级软件）之后，该技术进入了新的发展阶段——人工智能（AI）。

以上诸多应用远远超过了黄仁勋当初的构想，关键的是，NVIDIA开始引领AI芯片市场。

目前，在CUDA平台上，有来自全世界的超过50万个开发者。其中既有大型跨国公司，也有很多初创公司。

三足鼎立

2011年，黄仁勋预感人工智能将颠覆未来的诸多领域，他首先想到的是AI应用于汽车领域，并要求NVIDIA的所有工程师立刻领会并深度学习AI技术。

起初，NVIDIA的AI团队只有数十人，半年后即激增至数百人，一年后更增加到上千人。到2017年，NVIDIA全面转向了人工智能研究领域。

人工智能的基础是海量运算。GPU运算速率一直在大幅度提升，对图像解读或语言翻译等任务的准确度也不断提升。

奥迪、特斯拉、丰田等企业均借助NVIDIA的AI专用芯片来研究无人驾驶，百度等公司的AI部门则借助NVIDIA来进行图像和语音识别。

在黄仁勋看来，AI细分领域的专业化是未来的方向。例如，开车的AI不会洗盘子；会洗碗的AI知道如何改进洗碗机，但不能为地板吸尘；能吸尘的AI也不能帮我们阅读邮件。分门别类的专业领域，需要并产生很多术业有专攻的AI。而所有这些术业有专攻的AI组合起来，将让我们的工作生活更有效率。未来数十年，AI带来的效率提升将是革命性的。

NVIDIA已经并将继续为这场效率革命打造底层AI计算的基石。2016年4月，NVIDIA在硅谷发布的首款基于Pascal架构的Tesla P100显卡，集成了153亿个晶体管。区区几块这种显卡所提供的计算性能，已等同于几百台CPU服务器节点。在2016年，NVIDIA的股价长了近6倍，市值突破850亿美元。即便是使用了谷歌TPU芯片的AlphaGo大火，也未对NVIDIA的股价上漲造成影响。

最近一年多以来，全球前十大超大规模企业数据中心，均采用了NVIDIA的GPU加速器。

2017年，NVIDIA推出功能更为强大的Volta。Volta芯片大幅度提升了运算能力，比自家的Pascal高出了近50倍。在AI急需的“inferencing”（推理）能力上，更有出色的表现。

“我们喜欢尝试新东西，做没有人做过的事情，做特别难做的事情。”黄仁勋底气十足。

2017年5月18日，AlphaGo大战我国围棋手柯洁前夕，谷歌推出TPU第二代。

5月25日，黄仁勋公开回应：“我们希望看到全球各地尽快采用AI。人们无需再投资建立一个TPU，我们有现成的，而且由世界上最优秀的芯片设计师设计。”第二代TPU的浮点运算能力是每秒45万亿次，而英伟达之后推出的Volta，其浮点运算能力则达每秒120万亿次。

2017年NVIDIA开发者大会的数据显示，全球有1300家使用NVIDIA平台的创业公司，包括80家人工智能公司，50家虚拟现实公司，20家无人驾驶公司。

如今，快速奔跑的NVIDIA已经与先行者谷歌、英特尔在AI芯片领域形成三足鼎立之势。