新基建浪潮下，中国需要什么样的开源天团？

2020-10-27 09:33张贺飞

数字商业时代 2020年9期

关键词：开发者开源框架

张贺飞

人工智能的“开源之战”愈演愈烈，早已上升为争夺人工智能话语权的较量。中国需要的不仅是越来越多的参与者，还需要在世界舞台上拼刀法的撒手锏。

天元、MindSpore、计图、OneFlow……一连串国产开源深度学习框架的相继问世，让中国的开源AI迎来了迟到的“暖春”。

8月15日的“2019中国电子学会科学技术奖”颁奖仪式上，百度自主研发的“飞桨产业级深度学习技术与平台”，更是荣获2019年度中国电子学会科学技术奖科技进步一等奖。

国产开源深度学习框架开始得到行业的认可。

早在2016年的时候，国内的开源AI还只有百度飞桨一股力量，不少开发者被迫在Google的TensorFlow和Facebook的PyTorch之间做选择。特别是在“断供华为”的阴影下，深度学习框架是否会被“断奶”，一度成为外界热议的焦点。在过度依赖国外开源框架造成的不确定中，“框架自由”成了国内不少开发者的夙愿。

2020年国产的深度学习框架逐渐填补了空白，可人工智能的“开源之战”也愈演愈烈，早已上升为争夺人工智能话语权的较量。中国需要的不仅是越来越多的参与者，还需要在世界舞台上拼刀法的撒手锏。

开源的自由与国界

关于深度学习框架的价值，还要从算法开始说起。

在人工智能的三要素中，如果说数据是燃料、算力是发动机，算法就是催化剂，直接决定着发动机对燃料的利用率，也是深度学习研究中的基本功。在深度学习的初级阶段，每位研究者都要花大量的时间写算法。

深度学习框架的出现，大大降低了开发者入门的门槛，不再需要从零开始写一套机器学习的算法，可以直接使用框架中已有的模型进行组装，或者在已有模型的基础上训练自己的模型，让算法的规模化生产成为可能。

打一个比方的话：优秀的深度学习框架给开发者的价值，可以让开发者在项目训练中告别手工时代，就像拖拉机之于农民，原先需要一锄头接着一锄头平整土地，自动化的拖拉机可以让一个人完成原来数十人的工作。

其实业界对深度学习框架的价值早已形成了共識，争议在于“开源”二字。无论是Google的TensorFlow，还是Facebook的PyTorch，无不披着开源的外衣，在“开源自由”的互联网世界里，中国是否有必要推崇所谓的“国产”？

长江商学院经济学教授、人工智能与制度研究中心主任许成钢，曾经分享过这样一组数据：中国关注人工智能开源软件包的人数在2017年秋就超过了美国，但93%的中国研究者使用的是TensorFlow等美国企业提供的开源框架。

某种程度上说，这是一组相当恐怖的数据，芯片和开源框架分别代表了算力和算法，在芯片已经被国外卡脖子的局面下，倘若继续高度依赖国外的开源框架，算力和算法两大基石都受制于人，等同于彻底把游戏规则的制定权交到了美国手中。一旦游戏规则掌握在别人手里，中国永远都是缺少话语权的弱者。

当然，国内仍然有不少理想主义者为开源唱赞歌，一群工程师、科学家、法学家为了开源自由对抗执法部门的故事，时常出现在国内的舆论场中。但现实终究拗不过强权，一向以开源社区自居的GitHub，屡屡传出封禁伊朗、俄罗斯等国籍开发者的消息，开源背后的国界意识也是不争的事实。

况且中国并不缺少过度信奉开源的教训，典型的例子就是华为。在美国政府的封杀下，谷歌虽然照旧向华为开源了AOSP项目，可配套的GMS服务却把华为拒之门外，直接影响了华为手机在海外市场的销量。

开源深度学习框架是否存在同样的隐忧？可能在枪响之前，我们永远都不知道下一个陷阱在哪里。

中国开源的冰与火

回到开源深度学习框架的话题上，在各种不确定风险的作用下，势必要燃起属于中国的星星之火。

从浅的层面来说，深度学习框架的自立是避险的需要，连亚马逊、苹果、微软等都在自主研发深度学习框架，避免被谷歌牵制的时候，中国的人工智能企业应该有最基本的风险意识，尽可能避免芯片产业的覆舟之戒。

进一步思考的话，创新通常不是靠砸钱、堆人就能发生的，最大的魅力还是创新的偶然性，可能发生在少数人身上。如果中国有越来越多的开发者、越开越多的企业参与到深度学习框架中来，创新的概率也将被提高。

但同时需要理性认识的是，虽然深度学习框架关乎人工智能赛道的制高点，可本质上还是一款“软件”，它的难度并不在开发层面——伯克利、清华等一些顶级高校的博士生，往往也能开发出不错的深度学习框架。

开源深度学习框架的重心在于产业化和长期维护，能否建立起一套完整的开源体系，进入门槛远没有想象中低。

一个典型的例子，美国大大小小的开源深度学习框架有几十个，最终脱颖而出的却是谷歌、亚马逊、Facebook等巨头，除了自身过硬的实力外，还在于巨头们有充足资金进行技术、团队、社区等方面的建设。一些刚刚起步的创业型公司，常常因为资金、技术、人才等方面的压力而自缚手脚。

另一个层面来看，开源深度学习框架的用户是开发者，所追求的是框架的易用性。在人们的固有认知中，习惯倾向于信赖被大众认可的事物，在情感上更偏向于有巨头背景的开源深度学习框架。即使一些初创企业可以提供有亮点的产品和服务，开发者也会出于安全、稳定等考量选择抢先培养了用户习惯的产品。

中国开源深度学习框架的行业现状，也是如此。

一面是行业越来越热闹，来自清华大学计算机系图形实验室的计图、国内计算机视觉领域的独角兽旷视推出的天元，再到创业公司一流科技打造的OneFlow，已然呈现出一副百花齐放的景象。与2015年前后的美国市场如出一辙，短时间中涌现出了大大小小、各种各样的开源深度学习框架。

一面是开源生态的贫瘠，开源深度学习框架的核心价值在于生态，需要向下对接芯片，向上支撑各种应用，进而打造深度学习的标准，也就需要持续的资源投入。华为的MindSpore还处于婴儿状态，阿里、腾讯等互联网巨头没有太大的声音，深度介入上下游生态的还只有百度飞桨一家而已。

抓住产业的窗口期

然而在新基建的浪潮下，留给中国开源深度学习框架试错的时间已经不多。

诸如智慧医疗、智慧社区、智慧金融、智慧交通等市场需求的爆发，正倒逼中国的开源AI形成一个完整的闭环，加速人工智能的产业化。确切地说，深度学习框架已经不仅仅是个开源的问题，还是一个商业化问题。

毕竟开源的目的就是在商业化的过程中，以一个结构化的、开放的底层系统，同时兼容存量市场和新增需求，降低客户和合作伙伴的使用门槛，继而为开发者提供快速实现商业化落地的路径。

不少人尝试对飞桨、天元、计图等开源深度学习框架进行横向对比，试图找到最有吸引力的产品。或许并不需要复杂的对比，仅仅是这些开源框架在GitHub上的星级就能一较高下，百度飞桨的星数为12.5K，计图、OneFlow和天元分别为1.6K、1.7K和2.5K，浏览量和服务端的代码仓库克隆数上，飞桨也远远领先其他国内开源架构。

除了在GitHub上的绝对优势，百度飞桨还是近乎唯一有着大规模应用案例的一家。

百度飞桨的大规模分布式训练，被OPPO应用于应用商店、内容推荐、负一屏、广告等推荐场景，推荐场景效果提升了4%—5%；

普宙飞行器科技基于百度飞桨打造的一款无人机自主飞行平台，实现了大范围森林的自主巡逻、火情监测、非法入侵、森林树木砍伐监测等功能；

山东信通引入飞桨的模型压缩库PaddleSlim和端侧推理引擎Paddle Lite，打造出了一整套输电智能巡检方案……

之所以将不同的开源深度学习框架进行对比，并非是为了渲染“春秋战国”的对抗氣氛，而是当深度学习走向与产业结合的深水区，深度学习框架逐渐在产业智能化进程中扮演核心角色的时候，应该多探讨一下生态该怎么建设。

中国的开源深度学习框架需要的不仅是百花齐放，在加速应用落地、摆脱外部依赖的大背景下，还应该鼓励一枝争春。

比如重点扶持一两家开源深度学习框架，推动上下游产业的联动，就像百度飞桨与华为麒麟芯片的深度合作，尝试打造深度学习的中国标准；

再比如推动不同开源框架的兼容，一些创业公司和大学实验室不缺少天才程序员，也适合一些创新性的探索，而百度、华为等科技巨头则擅长开源生态的建设。至少从PyTorch引入TensorFlow的可视化来看，谷歌和Facebook已经开始了合作。

何况留待中国开源AI的核心挑战在于能否抓住产业化的窗口期，不同平台间合作的契机远大于商业上的冲突。

写在最后

百度CTO王海峰曾经这样形容深度学习框架的价值：在智能时代，深度学习框架起到承上启下的作用，下接芯片和大型计算机系统，上承各种业务模型与行业应用，是“智能时代的操作系统”。

假如中国无法在智能时代打造出属于自己的“操作系统”，被Windows、安卓卡脖子的故事将再次上演。想要在这场全球性的AI争夺战中胜出，中国企业势必要在基础和关键技术上下苦功，避免在沙滩上起高楼。

幸运的是，在无数有识之士的呼声奔走下，国内也有了自己的开源深度学习框架“天团”，既有百度飞桨这样在技术和应用上全面领先的C位担当，也有计图、天元、MindSpore、OneFlow等新兴势力。

只是就目前来看，从开源深度学习框架的遍地开花，到整个开源AI生态的持续繁荣，再到中国人工智能应用的行稳致远，还需要不同领域开发者的协同努力，以及在政策层面进行适当的引导。