AI底层平台级产品，或是独角兽突破、进化的利器

2020-04-02 07:08施然

财经 2020年6期

施然

芯片之外，AI底层框架的战争已经打响。继百度和华为之后，AI独角兽旷视科技也宣布开源自研的底层框架平台“天元”。

过去半年，旷视科技备受瞩目，2019年8月25日，旷视提交港股招股书，被认为将成为“AI第一股”。据知情人士获悉，旷视已通过聆讯且上市进程仍在正常推进中。

在中美贸易战背景下，外界普遍认为，将核心技术掌握在自己手里很有必要，在AI领域，芯片和底层框架是基础设施，分别提供算力和算法。但这是一件有门槛的事情。首先不是所有公司都有能力从0到1地做底层框架，其次也不是谁都有能力开源。“BATH有需求也有必要做，其他公司可以选择在已有平台上做修改，或是做一个可供自己使用的底层框架。”华创资本创始合伙人熊伟铭告诉笔者。

多位AI行业人士和关注AI领域的投资人告诉笔者，底层框架是大公司的游戏，因为投入巨大，且短期内并不能直接带来商业价值，所以真正的AI平台级的技术和产品还未出现。“一方面，想要做底层框架平台是持久性研发投入，必须要有足够的现金流支持。另一方面，底层技术和平台产品的专业门槛决定了，不是有资金和资源的大公司都可以做这件事情。”一位知名机构投资人说道。

截至2019年6月30日，旷视的研发团队共计1400多人，于2016年、2017年、2018年及截至2019年6月30日止六个月，旷视的研发投入分别为人民币78.2百万元、人民币205.4百万元、人民币612.9百万元及人民币468.3百万元。

旷视表示，底层的研发投入是在旷视创立之初便延续下来的战略，布局AI底层框架和技术平台是从2014年就开始一直在做的事情，而选择在这个时间节点进行开源是战略的延续动作而不是新项目。

“AI+”已经成为新的趋势，越来越多的传统行业希望融入新兴技术，这也推动了AI产业的快速发展。第三方分析机构CBInsights发布的《2019年AI趋势报告》中指出，从行业采用度和市场优势两个分析维度来看，开源底层的深度学习框架都是趋势的核心，已具备极高的行业采用度，且市场会越来越大。

对于开发者来说，是否开源和什么时候开源不是最重要的，最重要的是开源系统所具备能力是否真的好用，是否能够帮助他们解决问题，以及开源社区的活跃度，和能够持续更新升级的能力。

对于另一些企业用户来说，他们只需要能降本增效的产品和服务。这就好比消费者想要购买的是一台好用的手机，而不一定对某个操作系统有明确要求。

曠视的野心：从自用到开源

旷视成立于2011年，成立之初就专注于计算机视觉技术。一开始技术人员们用Theano框架写模型代码，训练神经网络，跑一次训练要编译好几个小时。

AI能够实现从技术到应用，需要算法、算力和数据的支持，算力取决于芯片/显卡的性能，算法则需要底层框架的验证，也就是行业人士常说的“跑算法”。就像是道士“炼丹”的过程，要炼好一颗解决行业问题的“AI灵丹”，需要将各种“金木水火土”的海量数据，灌入到底层框架的“炼丹炉”当中，等待结果，而炼丹炉的性能和效率就决定了这颗丹灵还是不灵。早期的框架是完全手工的，需要研究员一层层写配置文件，很不灵活。

随着网络越来越复杂，旷视认为Theano已经不能满足需求，开始在这些初代框架上简单包一层代码，解决代码冗长的问题。但训练效率仍旧满足不了快速变化的需求，一套“炼丹”程序可能需要3周-5周才能得到验证。

2014年初，旷视研究院几名实习生开始尝试研发原创底层框架，不到半年的时间，旷视自研的初版深度学习框架MegEngine诞生。接下来，研究院与业务团队深入沟通，了解一线需求，并复现业务所需神经网络，之后旷视研究院又用了半年时间，在2015年中完成了自研框架与内部所有业务的接轨，业务线上的模型全部换成了自研框架训练出来的版本，解决了算法训练效率的问题。

与此同时，旷视也提出了一个新的设想：如果要长期发展，就要构建一套能够统筹数据、算法和算力的AI平台级产品，也就是一套专门服务AI的“Visual Studio”。于是，旷视在2014年同步构建了提供算力调度支持的深度学习云计算平台MegCompute，以及数据管理平台MegData。与MegEngine共同构成了旷视自有的AI生产力平台Brain++。

2015年11月9日，谷歌开源底层学习框架TensorFlow，旷视内部随即掀起一场激烈争论。一些人认为，大厂已经开源了，直接用大厂的就可以;另一些人认为，底层技术是需要与前端业务相匹配的，还是有继续做的价值。

最重要的一次讨论持续24小时，最后大家决定，做一次规模化演练，深度对比Tensorflow和MegEngine的性能，结果是TensorFlow的响应速度竟然比MegEngine慢了10倍，这让旷视内部统一了思想，坚定了继续自研底层框架的想法，持续对AI底层生产力平台的投入也成为公司的长期战略。

对于旷视来说，自研底层框架，一是可以更好地和业务相结合，让割裂的算法生产与方案形成升级为一体式全栈解决方案;二是能减少人员成本。旷视发现，在具体的技术落地过程中，很多公司都还要再组建一个AI研究团队，培养AI人才的成本非常高，最后带来的收益，还不够养活这支团队的费用。

旷视认为，新一代框架的出现，可以让AI去“成本中心化”，对于算法生产者来说，一站式开发工具的效率就像联合收割机，原来需要十个人手工收割一块地，有了这样的框架后，一个人可以收割十块地。

如果有更多可供选择的开源平台，或许可以帮助更多企业，尤其是传统企业，解决AI应用的人力成本问题。带着这样的想法，旷视决定将自研的底层框架开源。

旷视研究院内部有多年研发经验的开发者称，相比市面主流深度学习框架，旷视天元（MegEngine）上手更快，学习成本和迁移成本都更低。

世界主流深度学习框架包括蒙特利尔理工学院2008年推出的Theano、加州大学伯克利2013年推出的Caffe、旷视2014年内部开始研发的MegEngine、Amazon 2015年底开源的MXNet、Facebook 2017年开源的PyTorch，还有百度2016年开源的PaddlePaddle，华为也计划在今年一季度开源AI计算框架MindSpore。值得注意的是，所有开源框架的企业中，旷视是唯一一家以AI解决方案为本业的新型公司。

目前中国AI领域分成三个梯队，以BATH为代表的巨头公司、以AI四小龙为代表的AI独角兽，以及大量中小型创业公司。不同公司做底层框架开源的目的不同，一些向下，发展基建;一些向上，发展产业。比如谷歌开源其机器学习平台，背后意图可能是让更多用户使用TPU和谷歌云;旷视则称，打造自研框架，本质上是希望提供更低成本的AI解决方案，吸引更多用户，而选择对外开源是考虑只有激活更多的场景，才能把整个AI市场做大。

巨头在前，独角兽如何突围

目前用户量最大的开源平台是谷歌推出的Tensorflow，一位Tensorflow的用户告诉笔者，他并不想更换其他平台，因为Tensorflow已经能满足他的工作需求。

中科院自动化所高级工程师吴军宁告诉笔者，目前工业界和学术界使用最多的开源平台是Tensorflow和PyTorch，“开源平台最重要的指标就是活跃度，用的人越多，越能吸引新用户”。

另一位AI行业人士告诉笔者，Tensorflow推出时，可供选择的开源平台并不多，到今天，不少AI应用都是在Tensorflow的基础上长出来的，“已经形成了紧密联系”。

面对这些有先发优势的巨头们，旷视的应对策略是避其锋芒，选择技术实力相对薄弱的传统行业入手。旷视称，互联网公司大多已经具备AI能力，但很多传统行业公司，尤其是中小型公司，对AI技术可望而不可即。“要吸引它们，底层框架不重要，重要的是在这個底层框架上长出的应用可以实质性地让它们获益。”旷视副总裁谢忆楠表示。

旷视认为，此前传统行业在进行AI化改造时，都是技术提供方来定义，使用者参与，效能有限。应该反过来，让使用者有能力定义生产，即使提供者参与辅助，因此，传统企业应该拥有一套可满足定制化需求的算法生产力平台。

但传统企业是否真的需要这样的平台，还有待验证。对于企业来说，做AI化改造的预算来自整体的IT预算。“如果我不能确定这个平台能否带来价值，暂时不会考虑，我们希望采购的是能够解决具体问题的工具和软件。但如果可以，当然OK。”一家环保公司总经理告诉笔者。

对于大多数企业来说，AI开源平台起到的是锦上添花的作用，而非雪中送炭，此外，他们考虑的并不是AI公司的技术有多先进。“更好的技术不意味着能产生更好的效果，解决不同问题的技术路径是不一样的。”一位参与投资多家AI公司的投资人对笔者说道。

这位投资人还提到，很多AI公司喜欢和大厂做性能对比，“性能不代表商业价值，对于刚刚起步的公司来说，首先要做的是找到标杆客户，形成标杆案例”。这也是旷视目前正在突破的着力点，并已经有了一些进展。

2020年初，新冠肺炎疫情暴发，更高效地进行体温检测成为刚需，基于旷视自研算法平台，旷视在2天内完成了算法模型的训练和部署，并用了不到10天时间，完成了AI测温系统的开发和上线，并在北京市海淀区多个场所展开试点应用。

旷视的另一个标杆案例来自一家从事工业电气的典型客户。传统制造产线上，工厂在配电产品生产过程中经常面临配件颜色搭配错误、字符印刷残缺等质量问题，而靠人工目检费时费力，传统机器视觉的精度较差，也难以完成有效的质量检测。

针对这些问题，旷视基于自研的AI生产力平台Brain++为客户提供了智能制造解决方案，并针对不同产品线开发定制化算法，且能够在本地实现数据采集和模型的再训练。其中包括通过数据管理平台MegData的数据增广技术不断扩充合成训练数据，降低工厂数据生产成本，同时用深度学习框架MegEngine的训练、推理和部署一体化的能力，实现产线所需算法模型的快速选型、优化和封装。

这家电气厂商通过Brain++实现的智能质检算法有效地降低了生产线中颜色错误、字符残缺漏检率和误检率，极大地提升了工厂的生产效率。

前述投资人表示，类似这样的案例，AI平台企业需要花很多时间和精力在前期不计成本地深入客户的业务流程中，做定制化服务。“怎么能够快速复制这些案例，让更多的企业和开发者能够快速上手，是留给AI底层平台建设企业的问题，所以真正AI级平台产品的包容性和易用性、可视化和一站式尤为重要。”

AI底层框架的竞争才刚刚开始，很难预测未来的发展方向，是会在各个细分领域都有不同的底层框架，还是一家独大，都未可知。也正是在市场格局还未完全确定时，为独角兽提供了与巨头抗衡的黄金窗口。