朱丽琨
图/视觉中国
中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解将近40年的科学家,也有已经功成名就的前创业者,还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。这个十字路口甚至是物理的——就是清华大学东门外的那个十字路口。这些公司地理位置上也紧挨着彼此,最近的仅仅隔着几层楼板。
搜狐网络大厦在十字路口的一侧。它可能是国内大模型人才密度最高的写字楼。王慧文的光年之外在三层。孵化自清华计算机系的智谱AI租下七层到十一层,九层以上都还空着,保留着搜狗在这里办公时的痕迹,楼道贴着“搜狗大事记”。搜狗创始人王小川在第二层的一个会议室里开了媒体沟通会,宣布开始大模型创业,成立新公司百川智能,但他准备在附近园区选址,“我不跟他们在这里卷”。这些公司忍受着比北京CBD均价还贵的写字楼租金,只为物理上“接近中国最顶尖的AI人才”。
路的另一侧有“清华系”代表团队聆心智能和深言科技。前者由清华大学计算机系副教授黄民烈创办,自2021年底开始自研“超拟人大模型”,后者创始团队几乎全部来自清华NLP实验室,实验室的学术带头人孙茂松教授担任公司的首席科学家。创始人兼CEO(首席执行官)岂凡超想和教授交流时,只用走几百米回学校。
他们的创业契机不相同。智谱AI于2019年成立,是其中最早起步的公司。创业初期,公司基于谷歌2018年推出的BERT大模型做应用。光年之外2023年4月初正式启动。王慧文年初看到大模型的机会,“几天之内就做完决策”,决定再次创业。
他们都被ChatGPT显示出的“才能”震撼。一位大模型创业者让ChatGPT用动态规划方法列出从北京到上海的最短路径,每条路的里程数要被3整除。一位资深科技投资人让ChatGPT翻译日本唱片介绍。ChatGPT可以把“N响”准确地翻译成“NHK交响乐团”,这是相当资深的古典音乐发烧友才知道的“黑话”。一位AI创业公司的科学家请ChatGPT写人类和AI的故事,不断要求加入新角色,比如一只哈士奇,不断涌出的字词还是自然地组织起来。
真格基金设计了300多个问题,包含“香蕉的平方根是多少”,以及要求大模型模拟抽塔罗牌占卜。3月中旬,刚发布几天的GPT4回答准确率超过70%,同期已发布的国产大模型平均准确率20%。5月,国产大模型的平均准确率已经追到50%以上。
被大模型能力震撼的创业者们将其比作“下一代计算机”“火的发明”“人类创造的上帝”;动用各式比喻来解释他们预计的变化量级,“寒武纪”“工业革命”“文艺复兴”“大航海”“苹果微软时刻”“黑莓时代”等等。
质变从2020年面市的GPT-3开始。这款模型参数量和预训练数据量比上一代增大百倍以上,展示出更强的语言理解和预测能力。OpenAI的设想被印证:当数据规模足够大,模型就能学到其中包含的翻译、算数、编程等各种任务的例子,因此变得更通用。ChatGPT沿着这条路更进一步。IDEA研究院认知计算与自然语言讲席科学家张家兴在一次活动上,引用《三体》里著名的那句“物理学不存在了”,在现场感叹,“传统的NLP(自然语言处理)技术不存在了”。
“大模型重点在数据、模型、可以规模化实施的算法,传统NLP研究重点在模型上做很多精巧的设计,但很多在大数据大模型上就不再有效了。”黄民烈解释。
原本就在AI领域的创业者也活跃起来。商汤、第四范式、科大讯飞等公司相继推出大模型。AI创业公司出门问问CEO李志飞感叹,“大模型的供给比想象中多多了。”他最初认为大模型的资金和技术门槛高,能做的国内公司最多两三家。一个半月之后,他预感大模型的市场竞争可能比上一波AI热潮更激烈。
怎么理解OpenAI的成功,部分意味着这些创业者将怎么对待他们的竞赛。李志飞认为OpenAI的成功是“把研究范式切换为产品驱动”。澜舟科技创始人、前微软亚研院副院长周明认为,这家公司把数据清洗、训练速度等各方面做到极致,并且集成所有能力,包括优秀的算法、工程甚至PR。而王慧文认为OpenAI的成功是“正确的使命、愿景、价值观,正确的组织方法的成功”。
创业者们对大模型的终极目标AGI(通用人工智能)的看法,从定义到理解都有很大差异。
王小川只跟ChatGPT简单聊了几轮,就确信“AGI已经来了”。他认为ChatGPT印证了他六七年前的判断:当机器掌握了语言,强人工智能就到来了。在一个小范围分享会上,几位AI领域创业者仅从功能上定义ChatGPT的进步。
“大家把这件事想小了。”王小川说。他会后接到一个在场者的电话,对方问,“小川,你是不是又在装?”几天后,那人又打来电话:“这次你又说对了。”
王慧文认为,“对AGI的认知,随着对事实的掌握和结果的展开,可能会翻转很多次的。”
共同点在于,他们都确信大模型技术变革比他们经历过的任何一次变化都大,而他们站在这场可能长达几十年的变革浪潮的起点。
“这次AI的浪潮应该是一个持续几十年,由多个小浪潮波次构成的大浪潮。它不会一个波次就完成,会在不同的波次里出现不同的创新。”王慧文说。
他认同美国投资人埃拉德·吉尔(Elad Gil)的观点:在部分科技浪潮中,所有的价值都可以由初创企业捕获,而在另外的浪潮中,大部分价值会归成熟企业所有,或者会在初创企业和成熟企业之间分配。王慧文认为,AGI浪潮属于后者,因为大模型技术跟过去的技术差异化足够大,导致了市场的不可预测性,創业公司因此有了发展空间。
2022年10月,多个美国投资人跟李志飞提到一款叫Jasper的AIGC应用很赚钱。当时Jasper仅仅成立18个月,估值15亿美元。Jasper基于GPT-3模型,针对市场营销场景做了精调,靠生成营销文案打开市场,2022年ARR(衡量SaaS或订阅业务的收入指标)约8000万美元。
“看到它的那一刻,我真觉得自己是傻子。”李志飞说。
一位美国红杉的投资人跟李志飞说:“你的时代来了。”对方还提到美国红杉的管理合伙人只讨论AIGC项目,别的都不看。当时,投资界的关注点更多在应用而非底层的大模型。
Jasper解决了李志飞两年前就开始思考的问题:GPT-3到底适合应用在什么场景?李志飞想过文案场景,但只“答对”一半。“过去我们做的是纠错、润色、改写,没想到完全生成一篇内容”。他2020年做过一款基于自研大模型UCLAI的辅助写作应用,因为没想到好的商业前景,最终没有上市推广。
AI创业公司第四范式也有类似的尝试。第四范式副总裁兼主任科学家涂威威带领百人团队,负责研究全球最前沿AI技术并提前投入。2018年谷歌推出BERT大模型,各方面性能显著提升,涂威威和同行当时都以为,“那就是NLP的拐点”。他接到越来越多辅助写作的需求。其中一些客户很坦白地说,希望AI帮忙生成“八股文”式的汇报材料,“AI都能下棋,这还写不了”?
涂威威团队尝试基于BERT和GPT系列模型做辅助写作应用,但只能实现续写两三句,准确性还不高,最终没有对外发布。
创业公司算力资源有限,注定向投入产出比更高的主营业务倾斜。这些先行者的大模型实验当时也很难得到外部支持。2020年6月,GPT-3推出,Google科学家出身的李志飞看到了大模型更通用的能力。他和工程师结成研究组,“像上瘾一样”读论文。
几个月后,在一个科技企业家的登山活动上,李志飞花一小时跟同行的人解释大模型是什么。他讲得兴奋,别人“只是当故事听”,并且不断质疑:“So what?怎么商业化?”其中一位企業家委婉地说:“志飞,你就适合当科学家,不适合创业。”李志飞意识到,“不可能有人投资你做这个”。他们研发的中文大模型最终停在60亿参数量,没有足够的资本支持它走到能力“涌现”那一刻——如今从业者普遍认为400亿-500亿参数量级是模型能力“涌现”的门槛。
创投界此时还没意识到GPT-3背后的商业空间。真格基金管理合伙人戴雨森在2021年就接触过两家大模型创业团队,他们也想做类似Grammarly的AI辅助写作或小说续写。戴雨森当时并不看好,认为应用场景比较局限。
企业客户更现实。周明在2020年底开始创业,拜访上百家客户,得到的反馈往往是:“你做大模型,我们也用不起。”周明公司的客户大多是央国企,为了数据私有化,得把大模型部署到本地,至少得投入上千万元的训练成本。即使不做训练,只做本地部署推理,成本也在一两百万元。客户认为不合算。
直到2023年1月,ChatGPT教育了国内市场。李志飞此时已重启自研大模型三个多月,他发现有“看起来跟大模型毫不相干”的人,也来问他得花多少钱、招什么人能做。涂威威接触到各行各业咨询大模型合作的客户,甚至包括“农林牧副渔”行业。
2月10日,一条“人工智能宣言”流传开。“5000万美元,带资入组,不在意岗位、薪资和title,求组队。”三天后,宣言变成传播度更高的AI“英雄榜”。王慧文公告了他的决心:打造中国OpenAI。
他的下场加剧了这一轮AI装备竞赛的激烈程度。一位大模型创业公司的员工说,“老王这么投入”让他意识到,这个赛道的火热程度远超想象。算力资源明显紧张起来,一位创业者抱怨,“求爹告娘才搞到一些机器”。
2月7日开始,王慧文给他认为适合大模型创业的人一个个地打电话。他总在问“你怎么看……”再问“你要不要干”?
听到的回答经常是否定的,“太烧钱了”
“这是巨头的事”……一周后,他决定自己下场。“大家往往低估了看到大变化立刻冲进去的重要性。”王慧文说。
美团到家事业群总裁王莆中评价王慧文“人才识别能力超强”。因此,被王慧文联系过的大模型人才也受到其他竞争者的关注。深言科技CEO岂凡超就是其中一位。他在清华NLP实验室读博期间,参与研发智源研究院“悟道”大模型,在国际顶级刊物发表30多篇论文,和同学研发产品“Want Words反向词典”,吸引超过500万用户。在一位深言科技员工眼中,岂凡超是难得的兼备技术和产品能力的人才,他的创新意识驱动他做科研、做产品,“他不愿意做跟别人一样的事”。
GPT4发布后的一个月,创投圈氛围逐渐升至沸点。各公司开发布会,展示大模型如何在办公、营销等场景落地,如何跟医疗、智慧交通等行业结合。投资机构开闭门会,要求被投公司跟紧变化,避免被颠覆。一年前被派去新加坡看web3项目的投资人回来“猛学AI”,不少投资经理开始攻读技术论文。奇绩创坛创始人兼CEO陆奇让团队的人做“大模型日报”来同步最新信息,感慨新出的论文多到他“实在是跟不上”。
王小川提问ChatGPT:我想做好这次创业,招更多合伙人和优秀的领军人物,应该做些什么?得到的建议之一是:你应该先把你的想法告诉外界。他听取了ChatGPT的建议,召开媒体沟通会,第一次宣告成立百川智能,计划年底发布对标GPT-3.5的大模型。
钱迅速涌入。王小川刚和朋友透露创业想法,就被问“能不能加个亲友股”。百川智能启动资金5000万美元均来自他个人及好友的支持。王兴以个人身份投资王慧文的光年之外,宿华则投资了多家生成式AI相关公司。
目前,国内估值最高的两家创业公司是光年之外和MiniMax。
真格基金是最早认投光年之外的投资机构之一。戴雨森认为,大模型技术产品化这个过程很难由科学家完成,需要一个有商业思维的人。同时,大模型资金门槛高,需要创业者有“融几亿美金并且有效地花出去”的经验。
MiniMax公司名字取自一种算法,人们对它还不熟悉,但它的合作方有不少知名公司:4月18日,火山引擎总裁谭待在发布会上专门提到“火山引擎上跑了抖音,也跑了MiniMax”;同一天,金山办公发布WPSAI,CEO章庆元介绍其底层大模型由MiniMax提供。
MiniMax于2021年12月成立,已有文本、语音、视觉三个模态的自研基础模型。2023年3月,MiniMax推出面向企业用户的API开放平台,支持文本和语音模型的服务调用。
联合创始人杨斌曾任职于UberAI研究院,获得过英伟达2018年先锋研究奖和微软2021全球博士奖学金。MiniMax团队成员大多出生在1990年代。多位创投人士认为,开始大模型创业的最佳年龄在35岁以下。他们认为大模型技术更新速度“以天计算”,年轻人能更快迭代认知,并且知识结构不陈旧。
云启资本是2021年底唯一参与了MiniMax天使轮投资的早期投资机构。云启资本合伙人陈昱学计算机出身,他指出机器学习领域近年有两个里程碑式进展:2012年CNN架构爆发,2017年“所有人一边倒地去搞Transformer架构”,GPT、BERT、LLaMa等主流大模型都基于Transformer。“一个人在不同年份开始接触机器学习,知识结构完全不一样。”他认为新技术已经覆盖和超越传统NLP技术,“早年的知识不是经验,而是累赘”。
MiniMax团队有一种活泼的面貌,自驱力强。他们内部最初给大模型起的昵称叫“ABAB”,因为刚开始做语言能力训练时,模型只能像婴儿那样“啊巴啊巴”。现在公司创立近18个月,他们自信模型能力国内领先。MiniMax的企业文化受到SpaceX启发,创始团队常把做大模型比作造火箭,希望用不走捷径的方式实现AGI。
现在,国内更多组织把AGI作为愿景,从零开始搭团队、争取资源。一位大模型创业团队成员形容此刻的局面,所有人都在“边登月边修螺丝”。
创业者们基于各自的经验,探索“技术——产品——商业化”的不同路径。
战略层面,多位创业者同时做大模型和商业化应用。周明称之为“边炼边用”。周明是国内最早出发的大模型创业者之一,他认为澜舟科技的模型和应用之间已经形成“反馈链”,有先发优势。王慧文将“双轮驱动”定为光年之外的战略。他认为,只做应用和只注重做模型都有战略风险。前者风险在于模型能力不断进化,很多应用场景可能被完全覆盖。后者风险在于市场被注重商业化的对手抢占、研发后期难以衡量模型好坏,以及无法通过应用收集更多数据。
李志飞认为,OpenAI比Google等对手更早“见到真实用户数据”,是OpenAI坚定研发方向、形成壁垒的重要原因。他提出AI应用数据分为三个阶段:上线前,研发者假设的用户数据;上线初期收集到的大量“假数据”,比如每天流入流出的新用户,留下无意义的互动。“绝大部分产品跨越不了这个阶段。如果你不警惕,你会误以为这就是用户真实的需求。”而OpenAI的应用已经走到第三阶段,有留存用户、付费用户,数据更接近真实。
产品路线也各不相同。周明坚定选择2B,做针对特定领域的专用大模型,“节奏慢但是更务实”。他认为2C像是一条“不归路”。2C需要把语言理解能力和做各种任务的能力放在一个模型里,相应的模型参数规模必须大,未来会进入参数规模、数据量和算力的军备竞赛。
周明认为2B和2C是完全不同的两条路,打算两者都做的创业者属于“没想明白”。而MiniMax和深言科技都认为,现阶段大模型可以在通用场景发挥价值,2B和2C的市场需求都能满足,不会刻意区分。
李志飞选的方向是to“professional consumer”(专业消费者),用户是“产消者”。他们希望为创造某些内容而消费的个体提供AIGC工具。
出门问问曾以AI识别为重点,但这个方向困难重重。做2C的语音助手时,李志飞发现很难满足用户的期望。尽管语音识别、语音合成等基础技术很成熟,但一个语音助手产品包括自然语言理解、对话、数据查询等八个环节。在上一代AI技术条件下,每一步都有可能出差错——这也是Siri们总被调侃是“人工智障”的原因。他也做2B业务,但“没法第一天就有商业模式”,往往是客户免费试用半年,再打磨产品,才有可能收到钱。大公司也在抢同样的客户,有些产品还免费。
李志飞处在一种苦闷的状态里,直到他在2020年的CES国际消费电子展得到启发。那是在三星的展台,他突然听到背后有说话声,“毛骨悚然的感觉”。他回过头,看到和他一样高的屏幕上,用极高画质渲染出来的数字人Neon。他第一次被AI生成的体验震撼。回去后,他调整研发重点,带团队开始投入生成式AI。
2023年4月28日,第六届数字中国建设成果展览会上,“智慧家庭”体验区吸引观众体验。图/中新
不久后,他带团队研发的AI配音平台“魔音工坊”带来让他惊喜的利润。2023年4月,出门问问发布基于自研大模型发布AI写作应用“奇妙文”“魔音工坊”等应用也开始与大模型整合。他乐在其中,生成了一位数字人李志飞,代替他本人参加活动。
不同的产品路径,有一些共同的问题亟待解决。比如,怎么让大模型避免胡说八道?一种实践是引入专家知识去干预。对于2C产品,这帮助它们和人的价值观对齐——这也是陆奇近期演讲提到的“OpenAI现在优先级最高的工作”。黄民烈介绍了他们设计的一个重要规则:当他们的情感陪伴类产品识别出用户有危险行为时,机器能以符合专业干预技术的方式施行紧急援助。
对于2B产品,引入专家知识和规则帮助它们表现得更准确。第四范式于4月底首次公布“以生成式AI重构企业软件(AIGS)”战略,提出企业级Copilot(助手)的进阶“Copilot+知识库”。涂威威解释,这可以理解为第四范式“培养”出大模型的基础能力,等它进入企业后,接上内部知识库就能“自学”,更准确地理解任务、知道什么工作该调用什么资源,输出结果也能溯源,“像一位董秘”。
多位创业者认为,考虑2C商业模式、监管等因素,ChatGPT在国内并不是最适合的产品形态。王慧文愿意尝试“Chat”这个已经被充分验证的机会,但他更强调“keepopen-minded”,别在起跑时就笃定哪一条路是正确的。
他计划组织一支产品团队,每天探索不同方向。“我们尝试的时候可能起点很低,”王慧文说,“要勇于从别人看不见、看不起的东西着手去尝试。不断收集信息,不怕low。”
戴雨森把ChatGPT比作新大陆刚挖出的黄金,前往新大陆的探险者们“去了可能发现棉花价值更大”。
陆奇在近期演讲中,给出中国大模型发展第一阶段的标准:谁先达到GPT-3.5水平,谁将能进入第一梯队。在此之前,許多事要从零做起。
戴雨森认为“中国几乎没有人有做万卡并行训练的经验”。而缺少工程经验会带来各种意想不到的难题。一位创业者说,刚把算力加上去,机房电不够了。他认为目前市面上绝大部分机房的电量配置,都满足不了大模型的训练需求。
面对算力“卡脖子”的现状,李志飞尽量让自己乐观:“真正有意思的是你在有限的资源下做出别人做不到的事情。”他用精打细算的方式练模型,经常埋在论文里研究半天,只为了找到最合适训练大模型某项能力的框架或超参数。他所说的合适意味着,“虽然冒一定风险但可以大幅降低成本”。
数据工程也需要一点点摸索。黄民烈介绍,聆心智能制定了包括数据搜集来源、清洗加工等各环节的标准流程,建立起相对高效的数据工程,数据体系趋于成熟用了一年。他认为初创团队做数据工程的“脏活累活”需要的时间,不会因为技术快速发展而减少很多。
更核心的难题在于找到真正的人才。一位有技术背景的大模型项目的投资人在2月、3月密集地和50多位国内顶尖的从业者交流,他认为真正拥有前沿洞察的人不超过五位。
王慧文希望找到这样的人:真正向往伟大事业、对工作有主人翁精神、理解不同职能和技术,足够聪明、足够自信……他认为,吸引越多具备这些特质的人才,团队才能形成多种组织能力,不同职能之间有效合作。但他也承认,这样的人才非常稀少。
定下双轮驱动的战略后,王慧文认为最大的挑战来自组织能力。AGI是执行属性和探索属性都很强的业务,链条也很长,这种事情对组织的要求很高,它比单独探索和单独执行,难度都高很多。
“比移动互联网更大的机会”激励着每一位投身大模型的人。同时,他们也面临比移动互联网初期更严苛的监管环境。全球政府都更早介入监管。4月11日,网信办发布《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知。同日,美国商务部下属的国家电信和信息管理局(NTIA)宣布征求公众意见,关于如何制定人工智能问责措施。NTIA负责人艾伦·戴维森(AlanDavidson)对《卫报》表示,美国立法者2021年提出100多项人工智能相关法案,“这跟社交媒体、云计算甚至互联网早期有很大不同”。当地时间5月16日,OpenAI CEO山姆·阿尔特曼(Sam Altman)首次参加美国国会听证,呼吁政府制定监管AI的措施。
创业者也将面临来自大公司的激烈竞争。移动互联网时代的巨头比PC时代更难颠覆。它们不仅在算力、资金、某些垂直领域数据有优势,也渗透进更多应用场景,有高度成熟的商业变现体系。
王小川认为,现有的大公司虽然有资源优势,但定目标“想象力不足”,需要跟已有业务配合,“老板不会把AGI当作公司的总目标”。大公司复杂的组织结构,还容易导致个人目标和公司目标产生偏差。他认为大模型时代相对互联网时代将发生三个重要变化:交互方式从连接改为陪伴,信息服务变为知识服务,免费模式变为付费订阅模式。
他相信一定是新的组织引领这些变化,“两到三年会看到一批新的巨头”。
相比与创业公司竞争,李志飞说,“我唯一怕的是巨头。”他创业超过十年,2017年他在做智能音箱,赶上“百箱大战”,和大公司正面遭遇过。那是他第一次深刻意识到,“竞争是很残酷的”。最近他去硅谷跟人交流时会被问:“你怎么了?你是受了多少折磨?”他才意识到自己一直在谈竞争,不像过去在Google当科学家时那样畅聊技术。
“创业很痛苦,如果没有乐趣坚持不下去。”他说。2020年,AI市场继续下行叠加疫情,他郁闷难解。研究GPT-3的论文成了他的精神支撑。
如今,自研大模型让他找回了乐趣。他经常跟他和团队自研的大模型“序列猴子”聊到凌晨一两点。最初,他像辅导功课的家长,反复教“序列猴子”做算术题:一个苹果2元,一个梨子3元。我买三个苹果,五个梨子总共花多少钱?“序列猴子”总是列不对方程式。他发现,大模型就像有自己的脾气,有时坚持不改错,有时会立刻改。
随着研究深入,李志飞理解,这不是机器产生了意识,而是大模型在各信息之间权衡,什么是更有可能正确的答案。
4月中旬的一个晚上,他和朋友吃饭时收到同事的消息:“序列猴子”有了一个还不错的新版本,让他试试。他随意问了几道地理题,比如“湖北和湖南两个省的省会人口哪个更多?”从简单到复杂的问题,“序列猴子”都很好地对答。而这些看似简单的问题与结论,实际上需要机器先理解问题中的概念,再作比较。李志飞感到惊喜,“序列猴子”可能拥有了二阶逻辑推导的能力,而他们并没有刻意训练过。
那一刻,他非常兴奋,匆匆结束饭局跑回家,从对话、数学、多步推理等各个方面又测试了几个小时。他发现“序列猴子”跟过去他做的所有AI系统都不一样。过去,他明确知道机器能做什么、不能做什么。现在,他意识到“序列猴子”能听懂问题,还不时给他意料之外的答案。
“序列猴子”在努力理解人类的语言,李志飞在努力理解大模型——这是创业中他最珍视的部分。“也许我永远不能完全理解它,就像真相只能逼近。但我还是想知道why(为什么),提出假设,做各种实验。”
“我认为今天是非常伟大的一个时间点。”王慧文说,他认为起步年代意味着未来能打开的空间大小。“在这个时间点起步的公司,有希望形成研发能力与商业能力的正循环”。
他把这次变化的节点类比于20世纪80年代左右,个人数字设备起步的时间点。苹果和微软两家公司在那个时候启动,建立了研发和商业的正循环,成为人类数字科技进步浪潮的主要推动者,当浪潮由别人推动时,它们也有能力跟进。
不止一位创业者会从科技史、商业史的角度打量过去浪潮中诞生的创业公司,从它们的故事中寻找规律,以它们的历程激励自己前进。中国的大模型创业者们的竞赛刚刚开始。肯定的是,竞争将十分激烈,环境将十分严苛,赛程将十分漫长。