中国AIGC产业峰会脑力激荡：“你好，新应用！”

2024-05-12 17:08:01勒川

中关村 2024年4期

勒川

4月17日，由量子位主办的中国AIGC产业峰会在北京举行。此次峰会聚集了领域内的产学研投代表，分享探讨了以生成式AI引领的应用新范式、产业数字化转型等在内的热议话题与趋势。同时，中国AIGC产业全景报告以及“2024年值得关注的AIGC企业&产品”榜单正式发布。

本届中国AIGC产业峰会以“你好，新应用”为主题，从技术、产业落地、投资、产品等多维度，从应用层、模型层、基础设施层等产业链玩家，以及最前沿技术、产业洞察的主题演讲和圆桌讨论等形式，全方位探讨和分享中国AIGC产业现状、机遇和未来。

来自AIGC底层基础设施、模型层、应用层的企业玩家，以及来自市场学术界的洞察者，畅谈大模型落地元年这个万亿市场的机遇与挑战。

AIGC模型层：

微软阿里高通等玩家谈落地

李冕：AI应用已进入新阶段，微软助力企业级应用全球落地

微软大中华区Azure云事业部总经理李冕分享了微软Copilot与Azure AI平台如何助力企业级应用的全球落地。

李冕认为，过去12个月AI经历了数次迭代，现在AI应用已进入到一个新的阶段。企业如何打造自己的应用？怎么实现AI带来的真正价值？可以从四个方面来考虑应用落地：提升员工生产力，重塑与用户的互动关系，重塑企业内部流，加强产品和服务。他强调了在企业打造自己的应用时微软可以为企业提供的一系列支持。

AI模型层面，李冕展开介绍了Azure平台支持的三类模型，分别是OpenAI系列模型、第三方开源模型和企业自研模型（BYOM）。同时，也讲述了小模型（SLM）在特定场景下的应用前景。

对于开发工具，李冕提到Azure提供低代码、无代码的Microsoft Copilot Studio工作台以及针对深度定制的Azure AI Studio，方便企业快速开发AI应用。考虑到企业级应用需求，李冕还表示微软不仅在最上面的模型层为企业提供支持，还提供下面的调度层、硬件层、云数据中心等的一系列配套服务。

李冕在演讲最后重申了微软在数据隐私安全方面的承诺：“客户的数据就是客户的数据，客户的数据不会被用来训练其他模型，所有客户数据均有企业级防护，受到全面的企业合规和安全控制的保护。”

方汉：天工SkyMusic音乐大模型将大大降低音乐创作的门槛和成本

昆仑万维董事长兼CEO方汉分享了“天工多模态大模型的演进落地”。大会当天，昆仑万维发布了“天工3.0”，这是中国音乐AIGC领域首个实现SOTA水平的模型。同时，他还宣布“天工3.0”基座大模型与“天工SkyMusic”音乐大模型正式开启公测。

“天工3.0”拥有4000亿参数，超越了3140亿参数的Grok-1，是全球最大的开源MoE大模型。在MMbench和MMbench-CN测试集上，“天工3.0”性能指标全面超越GPT-4V。通过专项的Agent训练，目前大模型可以做到“能搜能写能读能聊能说能画能听能唱”，应对多种复杂的内容创作需求。例如，它可以准确识别“成都迪士尼”是个梗，并给出游玩攻略；可以自动总结文献，生成大纲、PPT和脑图；还可以通过非代码方式生成智能体。

方汉特别介绍了“天工SkyMusic”音乐大模型，得益于2000万首音乐的训练数据和独特的模型架构，“天工SkyMusic”在人声识别度、音质等方面已经超越Sora。“天工SkyMusic”支持根据音源和歌手特点生成音乐，并支持多种方言合成，大大降低了音乐创作的门槛和成本——各行各业使用的歌曲都能通过AI生成，成本迅速从几万块钱降到几分钱。

方汉分享了昆仑万维的愿景：“实现通用人工智能，让每个人更好地塑造和表达自我。”他认为，大模型的演进终将实现AGI，而AIGC能力普及则有助于打破强势文化的垄断，实现文化平权。作为一家全球化互联网企业，昆仑万维希望用AI技术为全球用户赋能。

林俊旸：智能模型应融入对视觉/语音的理解

阿里通义千问开源负责人林俊旸，在现场分享了阿里通义千问大模型为“走向通用大模型”做出的努力。林俊旸表示，自开源以来，通义千问Qwen系列模型受到了国内外开发者的广泛关注。

从去年8月开始，通义千问Qwen系列模型陆续开源上新。从7B、14B参数规模大小开始，直到开源了72B参数版本；最新动作，阿里通义千问家族还有一名“小成员”，是14B参数的MoE模型。而开发者社区的迫切需求，促使阿里快速开源了32B模型——这个模型的表现与72B参数模型表现接近，并且在某些方面相比，比MoE模型还具有优势。

林俊旸强调，阿里通义千问同时十分专注打造大模型使用生态。首先，通义千问的代码已经官方融入了抱抱脸的代码库，开发者可以更方便地使用通义千问的模型；其次，通义千问在第三方框架支持方面有不少进展，包括ollama在内的平台，都能一键使用Qwen系列模型。

多语言、长序列、Post-training、Agent、多模态等能力相关问题，林俊旸也在现场做了分享。

万卫星：具有异构计算系统的高通AI引擎可以充分满足生成式AI的多样性要求

高通公司AI产品技术中国区负责人万卫星在演讲中表示，作为芯片厂商，高通正通过提供领先的产品和解决方案，推动AIGC相关产业的规模化扩展。他指出，高通认为终端侧生成式AI的时代已经到来。

高通在去年10月发布的第三代骁龙8和骁龙X Elite两款产品中，已经将大语言模型完整搬到了端侧，赋能了众多AI手机和AI PC。多模态趋势下，今年2月，高通也把多模態大模型完整地搬移到端侧。在发布的骁龙X Elite这款产品上，高通也演示了全球首个在Windows PC上运行的音频推理多模态大模型。

万卫星表示，不同领域的生成式AI用例具有多样化的要求，背后所需的AI模型也是千差万别，很难有一种处理器可以完美适用所有用例。在这方面，高通推出了具有异构计算系统的高通AI引擎，包含多种处理器组件，可以充分满足生成式AI的多样性要求。其中重点讲了NPU。基于用户需求和终端用例的多年演进，高通NPU不断升级。第三代骁龙8的Hexagon NPU还集成了专门为生成式AI打造的Transformer加速模块，以及微架构升级、独立供电轨道、微切片推理等先进AI技术。

万卫星总结了高通在AI方面的优势，在于“无与伦比的硬件设计、顶尖的异构计算能力、可扩展的AI软件工具以及广泛的生态系统和模型支持”。

李建国：超70%代码问题单纯靠基座模型是解决不了的

“超70%的问题需要端到端代码生成能力解决，目前单纯靠基座模型还远远不能满足。”在中国AIGC产业峰会上，蚂蚁代码大模型CodeFuse负责人李建国这样说道，他还指出，当前代码大模型虽然在基座模型和应用产品上演进飞速，但要在企业中真正实现研发效率的大幅提升，仍面临诸多挑战。

从软件研发全生命周期来看，从最初的需求设计到编码开发、测试构建、发布运维、数据洞察等环节，写代码可能只占1/5甚至更少的工作量。

李建国表示，蚂蚁集团希望打造一个“研发智能体”，通过智能Agents实现任务分发与衔接，将各环节连接起来，全面提升研发效能。

CodeFuse刚发布时，就明确提出“要做全生命周期的代码大模型”。CodeFuse目前已开源13个仓库，覆盖代码训练、测试、DevOps运维、程序分析、评测等8大软件开发领域。李建国表示，这是全方位的开源。再来看整个领域，结合外部统计与蚂蚁实践，基座模型在实际运用过程中只能解决大约30%的问题，剩下70%的问题还需要端到端代码生成能力。除此之外，在Agent推理能力、需求拆解、跨模态交互等方面还需要持续演进。

李建国还重点提到，垂直场景中，比如金融场景，生成代码的安全、可信、可靠的要求，这也是蚂蚁正在重点攻克的难题。虽然挑战不少，但李建国认为，蚂蚁将携手开源社区一起努力，在万物摩尔定律的牵引下，未来两三年可以一定程度解决这个问题。

徐元春：市场真正的运营主体是非常朴素的

小冰公司联合创始人兼首席运营官、人工智能创造力实验室负责人徐元春的演讲主题是“数字人+大模型：打造商业应用新场景”。“作为一家算法公司怎么挣钱和作为一家AIGC产业公司怎么赚钱，这是最后要回答的问题。最先要回答的问题是，大家用这个东西怎么赚钱？”徐元春这样讲。

他通过几个特别具体的例子，展现了小冰是如何让大家赚到钱的。第一个是一个美装美业个体博主，她利用小冰虚拟人和大模型平台，创作出了自己的数字人，在短视频平台用数字人分身分享创作服装穿搭内容。仅用40多天，她的单条视频播放量就达到200万，日均为线下门店引流6—8个意向客户。而这，已经能让她的生意更好地发展起来。

第二个是一家中小型的企业，一开始是做软件开发、技术赋能、后台的支持，现在使用小冰的技术平台做转型，成为AI服务商，4个月内为云南300家中小企业提供了AI赋能服务。

第三个是更大的行业领军企业，他们将小冰的数字人与大模型技术深度整合到了自家各类硬件产品中，实现“开箱即用”，每一个有屏的硬件设备都可以变成一个全新的交互载体。

在徐元春看来，真正能把产业化应用做得越来越深，不在于庙堂之高，而是在江湖之远：“你发现真正市场在运行的主体、市场从业者对AI没有那么多复杂的想法，他们非常朴素。”他进一步补充道，小冰将大模型和数字人更加深入地植入到了企业的工作流和任务系统中，数字员工相当于有了集合企业知识和数据闭环的大脑，可以让业务流程和客户沟通更加顺畅。

AIGC应用层：

普通人可以怎么AI？

吴欣鸿：基于垂直场景的大模型应用创新，窗口期只有两年

美图公司创始人、董事长兼CEO吴欣鸿分享了美图视频大模型的探索之路。美图作为影像工具起家，经过16年的发展，现在主要聚焦在影像和设计产品，形成了图像、视频和设计三大AI产品品类。

吴欣鸿现场展示了一个仅用半天时间制作的60秒AI短片，运用了开拍、WHEE、Wink等一系列AI工具，相比传统动画工作流，大幅降低了制作门槛，提升了效率。

吴欣鸿预计今年下半年，将会有很多的国产Sora扎堆上市，美图也是其中一家。“我们认为越来越激烈的竞争有三个点非常关键：第一，创意超越现实；第二，工作流的整合；第三，垂直场景的能力。”其中基于垂直模型的大模型应用创新，吴欣鸿认为有两年窗口期。

展望未來，吴欣鸿认为，视频大模型的标配除了文生视频，还将涌现图生视频、视频生视频、音频生视频等更多生成方式，应用场景非常广阔。

今年，以Sora为代表的视频生成只是个开始。随着视频大模型对物理世界理解的加深，有望实现剧情设计、分镜、转场等更专业的能力，与视频制作工作流深度结合，后续可以生成1—5分钟视频。

姚冬：WPS已不再是一个文档编辑器

金山办公副总裁、研发中台事业部总经理姚冬在本次大会上分享了金山办公在拥抱AI浪潮中的思考与实践。作为一家办公软件公司，金山办公最近五年将“多屏、内容、云、协作、AI”作为战略重点，在AIGC浪潮下，最近两年尤其注重AI和协作这两点的发展。

姚冬表示，当前的WPS已经不再是一个文档的编辑器，而是包含企业数据协作、知识管理、通信以及各种跟算法相关的模型服务等多种功能于一体的办公平台。在最近WPS 365发布中，其包含的WPS AI企业版聚焦为客户打造企业大脑，主打三大类能力：AI Hub、AI Docs和Copilot Pro。

其中，AI Hub是企业使用AI能力的基座，提供了一个兼容市面上各种大模型的统一接口和开发体系，让企业可以灵活选择和切换适合自己的模型。

“员工每天都在写文档，这些其实是企业非常重要的知识。但过去一直有个问题，这类知识无法再利用，因为非结构化。”传统的关键词搜索很难准确命中文档中的知识，而基于大模型和多模态技术，WPS 365实现了对企业内部各种格式文档的智能化阅读理解、搜索问答，并严格遵循文档权限管控。

Copilot Pro则是通过AI驱动自然语言交互式办公。比如做数据分析，传统方式需要写脚本、设计公式、绘制图表等，门槛很高。在Copilot Pro中，用户只需用自然语言表达需求，让AI自动执行全流程。

姚冬强调，文档数据在人和人之间没有传播其实一个数据孤岛，而今天的办公不再只是简单写写文档分析数據，更重要的是人和人、人和AI之间的协作。

唐毅：AI驱动的“第二大脑”，既给用户自由，又降低信息管理焦虑

印象笔记董事长兼CEO唐毅，有科技创业、跨国企业管理以及投融资领域的丰富经验。他带领的印象笔记，2018年成立印象研究院，开启了对AIGC的探索，去年3月起，利用自研印象大模型驱动“印象AI”产品和服务，落地赋能旗下全线软件和智能硬件产品。

唐毅的分享聚焦“知识管理”领域。在他看来，AIGC的发展仍处于早期繁荣阶段，挑战和机遇并存。他认为，相比算力、数据集和模型规模的快速扩大，模型算法的进展则相对缓慢，且算力的投入和收益不成比例。此外，目前而言，随着模型训练对人类公共领域数据的穷尽，越来越多合成数据的加入也会导致模型输出效果下降。与此同时，在实践和竞争中发现，特定数据驱动的模型能力的增长在不断加强，模型的小型化和高效化趋势也日益突出。

谈及印象笔记的大模型及产品进化方向，唐毅表示将从复合AI系统（Compound AI System）角度出发，提升自研印象大模型的能力，同时发挥用户、数据、场景、载体、交互等方面优势，打造真正的AI超级应用。

在AI驱动下，印象笔记将帮助用户智能汇聚信息、高效阅读吸收、辅助灵感记录与创作、自动完成知识整理与提炼，成为用户真正的、智能的“第二大脑”。

张力：人形机器人未来将实现平台化应用

通用机器人初创公司逐际动力的联合创始人兼COO张力，在中国AIGC产业峰会现场分享了关于人形机器人发展及其与AGI关系的深刻见解。

目前，人形机器人的双腿移动能力已经有了实质性突破，而操作能力仍然受限，是因为AI还不能完全根据多模态场景形成自己的行为，如何利用多模态大模型生成机器人自主的运动和控制，是产业界和学术界都在追赶和研究的部分。在硬件和软件算法方面，尤其是大脑和小脑的协同上，人形机器人仍需取得更多突破。

张力畅想，未来的人形机器人可以实现平台化的应用，就像今天的iPhone+APP一样。机器人通过安装不同的应用程序，利用自身的运动控制能力，执行对应的各种任务，从而极大地扩展应用范围。

从本质来讲，机器人就是一个类似或者超越人的运动能力、计算能力和感知能力的机电系统。技术方面，事先规划好的运动控制是相对传统的技术；而如果需要跟外界产生更多的交互，如环境认知感知、物体检测、接触反馈等，就需要新的技术。在这方面，AGI对于机器人的影响非常大。

在不断研发迭代产品的过程中，逐际动力形成了通过模仿学习、深度强化学习以及基于感知的运动控制等关键的新技术，推出了人形机器人、双足机器人以及四轮足机器人。

张力分享了他对人形机器人市场前景的看法：“无论tob还是toc，具身智能在未来有非常大的应用场景。在技术边界不断扩大的过程中，如何通过沿途下蛋，把相对成熟的技术和产品实现商业化；形成自主的移动能力和移动操作能力是关键；机器人与AGI、AIGC打通，加强场景的认知、理解，实现任务的分解，更好完成规划决策，这些都非常重要。”

快刀青衣：AI给了很多人一个突破自己的机会

得到联合创始人、AI学习圈主理人快刀青衣的演讲主题是“六边形战士，AI 驱动下的个人能力革命”。

首先，快刀青衣认为，AI创新的源泉可以从四个方面考虑：你自己也想用的产品、一个困扰你很久的痛点、你熟悉行业能预见到的巨大变化、你对它充满热情而又具有挑战性的事情。

“如果四项占两项就可以干，占三项就非常值得你花很多时间去研究它。”以此为出发点，快刀青衣介绍了得到自主研发的AI陪练小程序“开始练练”，用来给员工进行AI实战陪练，收到AI的反馈。如此一来，练习后的员工再面对真人客户时就能轻松解答客户的问题。

接着他分享了开发这款小程序的初衷。一开始是想让自己公司的程序员用，后来程序员们都表示自己不是靠沟通干活的，是靠写代码。一个连锁美容院的老板发现这对他们一线美容师介绍产品特别管用……

快刀青衣由此感慨，“最初那个起点可能跟你想象得不一样，过程中可能会有很多不一样的东西”。此外，他还强调了企业专有知识库、专有数据的重要性，并表示自己在做这个AI项目时给团队设置了几个限制：团队不超过3人，缺的能力用AI补；不碰硬件，不训大模型；只做提升用户能力的培训场景。

快刀青衣引用了乔丹的一句话：“我可以接受失败，但不能接受不去尝试。”

AIGC基建层：

如何支撑产业数字化转型？

王晓野：四个要点让企业抓住生成式AI机遇

“生成式AI这个时代已经开始，它并不是未来将发生的事情。”亚马逊云科技大中华区产品部技术总监王晓野在演讲中表示，生成式AI将在18个月内颠覆所有产业，为全球带来高达4.4万亿美元的巨大市场商机。

对于企业如何抓住生成式AI机遇，王晓野总结了四大要点：选对场景、选对工具和合作伙伴、重视数据这一企业核心竞争力、关注人才培养与AI相关的监管与治理。生成式AI在跨语言沟通、商业决策以及洞察、智能服务和营销素材的生成、整体运营效率提升等六大场景大有可为。

王晓野指出，得益于模型能力和成本的优化，生成式AI正在从局限的文生图、营销、聊天机器人等初级应用，进化到更广泛的领域。比如在Claude等大模型支持下，语言翻译、情感陪伴、游戏内容审核等更多场景的落地正在悄然发生。他强调多模态交互将是大模型发展的重要趋势。

在助力企业应用生成式AI方面，亚马逊云科技提出了“三层原子能力”：底层基础设施加速层、利用基础模型构建生成式AI应用的工具比如Amazon Bedrock、顶层开箱即用的生成式AI应用。

从电商到云计算，亚马逊一直在用技术和AI颠覆和创新原有产业。王晓野最后表示，下一个亚马逊正在构建并且持续投入的地方，就是生成式AI的三层原子能力，希望能与客户共赢生成式AI时代。

楊帆：打造AI基础设施生态是降低AI应用门槛的关键

“中国AI应用正在变得越来越多，越来越多新的场景被打开，今年下半年或是明年上半年，我们将看到中国生成式AI市场的爆发。”商汤科技联合创始人、大装置事业群总裁杨帆在大会上作出了这样的判断。

杨帆分析道，当前尺度定律仍在主导AI的技术迭代，AI产业发展的核心问题在于“产业端的投入产出比不够好”。随着AI生产和应用成本的提高，用降低成本的方式降低使用门槛其实是必然趋势，而AI基础设施的建设，正是破解这一难题的关键。

关于商汤在这方面的投入，杨帆先是介绍了商汤在临港投建的智算中心的最新进展：截至去年底，包括临港在内已经建成七八个节点形成连接，还有很多新的节点在建。连接算力超过12000P，领先单点算力接近10000P。同时，商汤在芯片层面也与产业链展开了广泛合作，临港智算中心已有超15%的国产芯片算力。

夯实算力基础之外，杨帆还讲述了商汤推出的不同层级的软件产品和服务体系，其中提到了降低模型调用成本的全套解决方案。

他还分享了商汤自家大模型的发展，除了去年看到比较多的语言类的任务，现在更多在图像、视频、三维重建不同领域提供不同基础模型的方案。总的来讲，商汤还是更希望以基础设施平台化能力支撑更加繁荣的场景生态。

AIGC洞察者：

Scaling Laws是关键

袁粒：大模型幻觉问题，我们几乎是公开最早提出检索增强来解决

北京大学深圳研究生院助理教授袁粒在大会上分享了他们团队在多模态模型垂直领域应用的实践经验。他表示，用来闲聊的玩具并不能满足用户真正的需求，AI必须转化为实实在在的生产力，而生产力则是由垂直领域来转化。

“检索增强这一做法当时我们也是业内最早做出来的，只是我们没有把这个概念提出来，让大模型做大模型的事情，让检索做检索的事情。”

袁粒介绍了他们同北大校友企业兔展智能联合发起的Sora复现开源计划Open-Sora Plan，目标是实现一个视觉版LLaMA。该项目分为三个技术部分：视频编解码器、Diffusion Transformer和条件注入。

目前已经开源了第一版预训练模型和CausalVideoVAE，在开源社区引起广泛关注，在GitHub上获得近万星。该框架最大特点是能够生成较长视频，得益于训练时压缩喂入的长视频片段。

接下来，该项目将分三个阶段实现更高的复现目标：第一阶段已开源；第二阶段争取开源支持20秒720P视频生成的模型；第三阶段希望借助产业界算力实现超越原版Sora的性能。

袁粒表示，开源推动了AI的繁荣，他们也希望通过开源回馈社区，让学术界和产业界都能共享技术成果。

张璐：初创企业在现阶段都可走“鸡尾酒”模式

作为长期关注和布局AI领域的顶级投资人，硅谷Fusion Fund创始合伙人、斯坦福大学客座讲师张璐分享了她对全球尤其是硅谷AI技术与产业发展的深度洞察。张璐指出，AI正在成为一项全产业的数字化转型工具，而海量高质量数据的涌现为AI的大规模应用奠定了基础。

初创企业要想在AI浪潮中抓住先机，必须找准自身的创新切入点，充分利用大公司搭建的生态平台实现共同发展。现阶段，初创企业基本上都可以做“鸡尾酒”模式，即调动最前沿大模型的API，在上面配套使用开源模型，再自己做些修改进行模型调优。

“在这个优化过程中，很快会发现两个特点。”张璐说，第一个特点是数据的质量比数据的数量更重要；第二是不需要一个模型去解决所有的问题。

在投资方向上，张璐表示，Fusion Fund聚焦AI的应用层和基础设施两个维度。其中，应用层主要关注医疗、金融保险、机器人、太空等拥有海量高质量数据和广阔应用前景的领域；基础设施层则布局从芯片到云端的各个技术节点，旨在突破算力、能耗、隐私等AI发展的关键瓶颈。

张璐在演讲中谈到，随着开源社区的蓬勃发展，小模型、行业专属模型也将成为AI应用的重要趋势。她强调，对于创业者而言，高质量数据的获取与应用比海量数据更为关键，定制化的小模型在特定场景下的效能甚至可以与通用大模型相媲美。

卢志武：有算力就有超越Sora的可能

中国人民大学高瓴人工智能学院教授卢志武分享主题为《VDT：基于Transformer的通用扩散视频生成》。

VDT是Video Diffusion Transformer的缩写。这是卢志武带队的项目，去年5月发布在arXiv上，并已被顶会ICLR接收。它的创新之处是将Transformer应用于视频生成——这远在OpenAI发布Sora之前，以及在模型中引入统一的时空掩码建模。

卢志武表示，Transformer模型具有捕捉长期或不规则时间依赖性的优势，这在视频领域尤为重要；而Transformer模型的参数量可以根据需要增加，这为提高模型性能提供了灵活性。

在演讲中，卢志武提到了VDT模型中关键的时空Transformer block，并解释了其与现有模型如SOTA的细微差别。他指出，由于算力限制，团队在设计时采取了空间和时间分开的处理方法，以提高效率。那VDT与Sora这样的模型相比如何？卢志武分析，两者在时空Attention处理上有所不同，但差别并不本质。

“我们推测Sora强大的物理世界模拟能力，主要来自统一的时空token化和Attention机制。”卢志武在最后表示，团队通过实验发现，VDT模型效果只和消耗的算力有关，这与OpenAI的图像生成模型DiT的结论一致。

“算力越大效果越好。拿到更多算力，超越Sora也不是不可能。”