黎坤 张书琛 张毅
哪怕是AI从业者都没料到的行业的春天会来得这么快。
踩在巨人肩膀上的人工智能对话机器人ChatGPT自公开以来就成了绝对破圈的热点:上线短短两月已获1亿月度活跃用户,成为史上增长最快的面向消费者应用。和前辈微软小冰、苹果Siri不同,ChatGPT的智能程度超乎想象:不仅可以用来写代码、找bug、写诗、写小说,还能完成过去被认为只能属于人类的创造性工作,比如图片再创作、论文写作、法律服务等等。
在学术界,ChatGPT已经引发“混乱”。有加拿大研究生将其用于语言学专业的论文写作,结果成功瞒过教授获得了B等评价,教授甚至评论其撰写的论文背景介绍“相当于毕业论文水平”;在美国康奈尔大学学生的实验下,ChatGPT已经可以通过律师执业资格考试,这让学术界大为震惊。
尽管ChatGPT还远远算不上完美,但不可否认,它所包含的模型训练已经实现了突破性的进步,足以让此前一度沉寂的AIGC(AIGeneratedContent,人工智能生成内容)产业再度振奋。在技术迭代与资本市场的大浪淘沙中,我们也试图解码这一现象:为什么AIGC能够产出质量远超以往的内容?这一技术突破将如何改变互联网?又会如何影响普通人的生活?
互联网内容的未来不再“以人为本”?
最近的十年,是互联网技术发展速度最快的十年,你很难想象十年前才刚刚在智能手机上首发的指纹识别,现在都已经被淘汰了。十年前4G牌照才刚刚发放,微信朋友圈功能才刚刚上线一年,既没有抖音也没有王者荣耀,微博还是大家喜闻乐见的社交平台,而内容生产的任务依然掌握在各大门户的手里……而随着互联网技术的不断演进,有创意的玩家用户开始成为内容生产者,“鬼畜”视频就是最经典的代表,2014年Bilibili首次为“鬼畜”单独设立分区,由“鬼畜”视频衍生出的网络热词,比如雷军的“AreyouOK?”,诸葛亮的“从未见过如此厚颜无耻之人”都不胫而走,在年轻人群体中迅速扩散,这其实也是UGC,也就是User-GeneratedContent,用户生产内容的代表。
而隨着抖音等短视频平台从2017年开始迅速铺开,更多各行各业的专业人士迅速跟进,开始在短视频赛道生产内容,比如许多知名医疗专家都开设了抖音账号,科普医学常识,形成了以专业人士为创作主体的方式,也就是所谓的PGC,Professional-GeneratedContent,专家生产内容模式。和UGC相比,PGC往往是团队协作完成,从形式到内容都明显更优质,免去了用户自己筛选甄别内容质量的麻烦,更受用户欢迎。
既然生产方式从个人变成了团队,就意味着非专业用户也能通过抱团的形式来进行内容输出,进而就诞生了OGC,Occupationally-GeneratedContent,职业生产内容的模式。这些职业内容生产者大多以文体娱乐内容为主,比如各类探店网红、车评人等等,而OGC和PGC的最大不同就是后者本身就是自行业的专家,不依赖互联网内容生存,而OGC因为基本就靠内容生存,所以更在意内容所带来的收益。
很明显,目前互联网的内容生产模式无论怎样变化,其核心都是人,而包括ChatGPT在内的人工智能创作平台之所以能如此火爆的关键原因,就是它打破了内容以人为核心的这个机制。你只需要给它一个描述,它就能生成相关的内容,虽然目前强如ChatGPT也还没有完全通过图灵测试的评估,但其在学术圈引发的“论文伦理问题”已经形如地震,它甚至还通过了谷歌的三级程序员面试和沃顿商学院的MBA考试,从内容质量来说单单以优质来形容已经显得有些词穷。
算法为王,ChatGPT为何有此神通
人工智能内容生成其实并不算什么新鲜产物,尤其是自2014年生成式对抗网络的兴起,深度学习算法有了明显的性能提升,AIGC就已经进入了新时代,2017年微软的人工智能助理“小冰”就写出了全世界第一部完全由人工智能创作的诗集《阳光失了玻璃窗》,它对中国1920年以来的519位现代诗人的上千首诗词进行了一万次迭代学习,在学习100小时后就获得了现代诗的创作能力,并用27个化名在多个网络诗词讨论区中进行了发布,投稿并获得了多家媒体的录用,连诗集的名字也是小冰自己取的……
而到了2021年,OpenAI,也就是ChatGPT的研发组织推出了DALL-E-2,可以通过文本描述生成卡通、写实、抽象等风格的绘画作品,也成功在艺术圈引发了强烈争议,那么包括ChatGPT在内的AIGC为什么会如此生猛呢?
ChatGPT基于GPT系列模型,根据已公开的资料显示经历了三代模型的迭代,GPT-2时代就已经能生成以假乱真的新闻内容,导致很多新闻门户网站禁止编辑使用GPT-2来创作内容。而GPT-3模型最大的特点就是有着惊人的1750亿参数量,要知道当时排名第二的微软TuringNLG才170亿参数!通过结合情景学习方法,保证数据的有用性、真实性和无害性。而它最大的创新点就是为了强调对人类情感的拟合,输出的内容要尽量向人类喜欢的内容来进行对齐,以人工标注的形式,给那些涉及偏见的生成内容更低的奖励分,从而鼓励模型不去生成这些人类不喜欢的内容,以此指导强化学习模型的训练。
ChatGPT具体使用的模型其实OpenAI并未公开,坊间传闻为GPT-4的预热版本,所以它的效果真实性比GPT-3更强,无害性也有所提升,并且通过大量人工标注,进一步增强了它的编码能力,这也是它能够通过专业程序员测试的原因之一。
不过,虽然ChatGPT十分火爆,但它也不是没有缺点的,比如人工标注的介入使得团队需要提供更多的人力成本,目前ChatGPT有40人的標注团队,但从模型表现效果来看是远远不够的,因为基本上现在只能在语言模型任务上进行纠正,这个工作的介入程度是有限的,所以仍然会出现一些价值观有问题的输出,比如“AI如何毁灭人类”,ChatGPT也会给出相应的计划,而事实上这是GPT模型不允许的内容。
总体来说,ChatGPT对整个行业最大的启示是将强化学习和预训练模型巧妙结合,并通过人工标注进行反馈,但它也大幅增加了大模型人工智能的建设成本,不仅要比拼数据量和模型规模,更需要比拼人工介入的数量和质量,让AIGC产业趋向于中心化的方向,这也是值得大家思考的问题。
AIGC的高度,取决于芯片算力的强度
GPT-3的训练基于微软为OpenAI提供的计算机系统,而这套2020年的计算机系统采用了超过285000个CPU、10000个GPU和400Gbps的网络。显然,这已经不能被称为普通的计算机,而是一台足以跻身当时全球算力前五的超级计算机……换句话说,在AIGC的赛道,支撑算法效率的根基还是算力,而算力的来源就是芯片。根据OpenAI的研究,AI训练所需算力指数呈增长的态势,超越了传统的摩尔定律。从成本来看,GPT-3的单次训练就轻松超过了400万美元,总成本超过了1200万美元,微软超算中心构建成本更是5亿美元以上。所以,尽管AI模型几乎都会选择开源,但数据集和训练成果却属于商业数据,每个人工智能都需要母公司支撑自己的训练成本,随着AIGC在B端和C端的不断渗透,以算力芯片为核心的行业都将受益。
在去年年底,IDC与浪潮信息联合发布了《2022—2023中国人工智能计算力发展评估报告》,报告指出,2022年中国智能算力规模达到268百亿亿次/秒(EFLOPS),首次超过了通用算力规模,预计未来五年中国智能算力规模的年复合增长率将达52.3%。目前国家在八个地区启动建设国家算力枢纽节点,并规划了十个国家数据中心集群,协调区域平衡化发展,推进集约化、绿色节能、安全稳定的算力基础设施的建设。
落到实地来看,因为GPU具备良好的矩阵计算能力和并行计算优势,能满足深度学习等人工智能算法的处理需求,所以它是目前主流的云端人工智能芯片,国际上主流的型号是NVIDIAA100、H100等,但因为这些尖端型号出口受限,所以对我国人工智能行业发展来说,国产算力芯片就成了关键。
目前而言,我国已经有不少值得关注的国产芯片,比如中科寒武纪推出的第三代云端人工智能芯片思元370,其单精度FP32峰值算力已经不输NVIDIAA100,但不支持双精度FP64稍显遗憾。虽然专门做智能计算的人工智能芯片往往只要堆核心和频率就可以实现更快的计算速度,但这个性能优势往往只体现在低精度计算中,因为人工智能的算力需求也是分层的,相对简单的推理学习只需要半精度FP16甚至INT8等整数计算就能实现,这方面国产芯片往往可以做到很高水平,比如海思昇腾910的FP16峰值算力甚至可以达到320TFLOPS,但训练甚至模拟的学习则需要精度更高的FP32甚至FP64,如果某个计算目标既需要高精度计算又需要低精度计算,对芯片集群的设计要求就很高了,这种高低通吃的特性恰恰是目前国产人工智能算力芯片所欠缺的,NVIDIA甚至还有独家的TensorCore张量计算核心加持,算力均衡性的差距依然不容小觑。更何况这些7nm、12nm制程的芯片还可能受制于代工制造,所以人工智能算力芯片的国产化是一个与芯片整体大环境并行的话题。
数字内容生成器!AIGC推动元宇宙破局
元宇宙从通俗易懂的角度来说就是虚拟人生,可以视作我们人类物理生存空间的虚拟扩展。既然空间是虚拟的,那元宇宙里的内容也自然是虚拟的,需要有对应的工具来进行生产。以往我们需要大量人工来进行数字内容的设计和开发,但这个供需关系明显是需求远远大于供应,这个缺口甚至是单纯靠人力无法填补的。但现在有了生产效率超高的AIGC,这个明显的瓶颈自然得以消除,在元宇宙中的人物、头像、道具、场景、配音、动作、特效都能通过AIGC来生成,AIGC甚至可以扮演以假乱真的NPC角色。
最近MetaAI的研究人员就结合视频和三维生成模型的优势,提出了一个由文本到三维动画的自动生成系统:MAV3D。它将自然语言描述作为输入,并输出一个动态的三维场景,并且可以从任意的视角进行渲染,这也是史上第一个可以根据给定文本描述来生成三维动态场景的模型,为未来AIGC在元宇宙内的应用指出了一条道路。
根据红杉资本在最近的研究报告,预计到2030年左右,文本、代码、图像、视频、3D、游戏都可以通过AIGC生成,并且达到专业开发人员和设计师的水平,甚至像《流浪地球2》里图恒宇、图丫丫那样的数字永生都不是空谈。当然,元宇宙距离行业落地尚且遥远,这些想法更多是一种展望,在发展的过程中还会带来哪些变化仍是一个未知数。
根据中国信通院总结,AIGC本身是一种内容,也是一种内容生产方式,也可以理解为用于内容自动化生成的技术集合。而技术进步最重要的贡献就是降低了行業门槛。相比于对精准度要求极高的AI识别,AIGC的应用门槛降低,用户的要求也更低——AI生成的内容没有唯一的标准答案,因此在C端消费者层面更有落地的可能。
具体来看,AIGC分类十分多元,包括文字、对话、图片、数字虚拟人、搜索引擎等等;相应的,AIGC最终的商业落地场景也相当广泛,参与者除了躬身入局抢占高地的科技巨头,如百度、微软、谷歌,还有众多细分赛道的初创企业。对于科技企业来说,这已经是一个不进则退的战局。
1.AI文字生成
AI写作Jasper
成立于2021年的Jasper,是基于OpenAI研发的深度学习语言生成模型GPT3为用户提供AI写作服务的独角兽企业,用户可以通过网站轻松解决一些烧脑的重复性工作,比如生成文章标题,编写广告营销文本、电子邮件内容、电商产品介绍或者是创作MCN公司需要的视频脚本。
Jasper不是AI写作领域的先行者,但却是最先通过GPT3来优化用户体验的企业。在其成立当年,Jasper就已经收获7万名用户,并以类SAAS服务的模式进行收费,收费分为初级、高级和定制三种,去年全年营收预计超7500万美元。
C端消费并不稳定,吸引想要降低成本的B端企业才是Jasper得以发展的关键。除了GPT3,Jasper还融合了多种模型算法,包括NeoX、T5等,并在此基础上根据实际业务需求,人工调整出量身定制的学习模型,使AI产品更易于日常使用。如今Jasper的使用界面上提供了数百种垂直领域的模板,进一步帮助用户完成精准的输出,也吸引到了IBM、Airbnb这样的大客户。
夸克AI作文灵感生成器
国内AI文字生成技术在机器翻译和教育领域的应用较多,夸克的AI写作灵感“神器”就是其中之一。
作为阿里巴巴旗下的一款智能搜索工具,夸克曾靠极简的功能和没有广告的特性,一度被市场称为“搜索引擎内的一股清流”,并被认为是挑战百度搜索的一大劲敌。但在不断的迭代中,夸克也变得臃肿起来,尤其是在搭载了AI相机和AI应用之后。
这款AI作文生成器功能比较简单,用户给定一个题目和一句话,就可以帮用户续写下一句。不过局限也比较明显,因为是“作文灵感生成器”,所以只会自动生成相当随机的一句话,尽管有多个选择,但质量却十分不稳定。
2.聊天机器人
谷歌对话AI系统Bard于2月7日凌晨推出。
与ChatGPT相似,Bard同样基于大参数的语言模型。Bard的底层技术是谷歌两年前推出的对话应用程序语言模型(LanguageModelforDialogueApplications,LaMDA)。去年7月,一名谷歌工程师坚持宣告LaMDA有人类意识,令LaMDA出圈,该工程师后被谷歌开除。
不过现在发布的版本仅仅是Bard的“轻量级版本”,目的是缓解快速推广带来的计算负担。当然,Bard火速上线也是为了应对ChatGPT对于传统搜索引擎构成的降维打击。
据谷歌的演示,相比于传统搜索,接入Bard的谷歌搜索引擎可以针对复杂的问题提供个性化的答案。例如面对9岁的儿童的提问,Bard解释了韦伯太空望远镜的新发现,并列出了几行重点总结,语言更通俗易懂,如望远镜最新发现的星系外表“小小的、圆圆的、绿绿的”,所以被命名为“绿豌豆”,Bard还会补充解释常识信息和词语词根,以拓展儿童知识面。
但Bard在演示中的回答被物理学家指出并不准确,有事实性的错误。这种毛病在主打服务、陪伴的聊天机器人身上还能够原谅,但搭载到搜索引擎上之后,还一本正经“胡说八道”编造虚假信息,只能说明Bard上线之仓促。
3.文字-图片生成
百度文心一格
百度文心一格是依托文心大模型推出的首款“AI作畫”产品。
用户只需要输入一段文字或几个毫无逻辑的关键词,即可生成形似“原创”的画作,数据模型较为充足,支持多样风格。文心一格现在还没有完整的商业化构思,其付费版本现采用账号积分制,用户可以通过消耗积分生成不同品质的图片,不过也开放了一定范围内的商业使用。
万兴爱画
万兴科技旗下AI绘画产品万兴爱画(原名万兴AI绘画)已实现网页端、iOS、安卓、微信小程序多端覆盖,其产品可在1分钟内根据文字描述生成无版权图片,可广泛应用于图片创意领域。
不过鉴于目前所有模型训练数据均来自网络公开作品,AIGC的生成内容均是根据人类创作内容进行“二创”,万兴又如何保证生成作品为无版权作品?万兴爱画目前的商业模式是基于次数收费,用户每天享有3次免费创作机会,此外万兴爱画还提供5元10次、12元30次、20元100次的收费套餐。
万兴科技成立于2003年,主打视频剪辑工具和图表制作App,也销售PDF和数据恢复等工具软件。
“AI画师”DALLE2
OpenAI推出的DALLE2同样是一个可以通过文本描述生成图像的人工智能程序。DALLE2和ChatGPT一样,都是基于GPT3模型来理解自然语言输入并生成相应的图片,它既可以生成现实生活中存在的事物,也能够生成现实中不存在的对象。
值得注意的是,DALLE1和仅在15个月后公开的DALLE2在图片生成质量和复杂性上的差异是惊人的,这足以证明如今AI训练模型的力量。
2022年10月,与OpenAI合作三年多的微软已经将DALLE2融入修图软件“Designer”和必应图片生成器中。
4.搜索引擎
微软必应
2月8日,微软宣布推出经AI优化的新版必应(Bing)搜索引擎和Edge浏览器。新版必应开放桌面版有限预览,用户能尝试单次交互的示例查询,后续还需注册等待。
两个月前,在ChatGPT问世之际,OpenAI的CEO奥特曼(SamAltman)就曾直言,“几年后谷歌的搜索引擎产品将受到巨大挑战”。毕竟当人们可以得到一个用自然语言书写的简洁答案时,谁又会再转向海量的链接呢?
具体来看,新版必应在搜索结果页面右侧新增了一栏人工智能生成的内容摘要,用户无需滚动页面或点击链接便可得到答案总结。
摘要以分点的形式陈列,关键信息加粗,并引用所有内容的来源链接。不过这一功能仍未完全开放,只有部分问题可以得到解答。
为了增强交互和对话体验,微软还将ChatGPT融入必应,推出独立功能“聊天”,用户可以在对话框输入多达两千字符的问题,获得AI定制回答。
据发布会介绍,新版必应搭载了下一代OpenAI语言模型,比ChatGPT和GPT3.5更强大。为更好地兼容OpenAI模型,微软开发了一系列配套技术,统称为“普罗米修斯模型”(PrometheusModel),使答案呈现出更高相关性、准确性和安全性。微软还应用人工智能技术增强了核心搜索算法,称获得近二十年以来的最显著的改进。
另一点不同于ChatGPT的地方在于,更新后的必应可以回答有关时事的问题。必应使用的更新技术能够获取最新的信息,如新闻报道、火车时刻表和产品价格,还将能够提供链接,以证明其答案的来源。
5.小众赛道
AI建筑设计Autodesk
全球最大的二维和三维设计、工程与娱乐软件公司欧特克(Autodesk),一直被视为CAD(计算机辅助设计)界的微软。
欧特克将AI引入设计流程的初衷是希望设计师可以从研究、修改草图、计算机建模等繁重的工作流程中解放出来,专注于设计本身,加速设计流程。比如利用人工智能减轻设计师与负责建造的承包商之间的沟通成本。
欧特克相继与世界最大地理信息系统技术提供商Esri和国内AI领域的新贵科大讯飞建立战略合作伙伴关系,以期利用技术革新在工程和建筑领域实现数据化的精准设计和精准制造。据悉,目前欧特克在全球拥有16家研发中心,超过3000名研发人员,公司每年投入的研发费用基本维持在全球总收入的25%以上。
AI生成真人语音Murf
Murf是一家专攻AI语音合成技术的初创公司,主要功能是为内容创作者提供配音,它拥有一个涵盖20种语言的人工智能语音库。自2020年以来,Murf的ARR(AnnualRecurringRevenue,平均收益率)已经增长了26倍,合成了超过100万条配音。
具体来看,用户可以在没有昂贵的录音设备以及专业配音人员的情况下,直接在Murf上创建一个在线语音录制室,即可尝试各种声音素材。Murf可以为影视制造企业创作一整部电视剧的音频,基于作家的小说创造有声读物,也可以为视频平台网红创作说唱音频等,无论是个人内容创作者还是大企业都可以在平台上找到高质量人声配音服务。
现如今,AIGC的产品构成复杂,但能让消费者持续产生付费意愿的却不多。比如参与门槛最低的文字生成图片,其作品可以满足用户的好奇心也可以偶尔用作文学插画,但是还不能真正满足商业需求,和专业设计师差距极大。因为AI还不能真的明白哪一部分才是客户需要突出的重点,且版权风险极大。
此外,如何控制成本也是个问题。已经实现部分商业化的微软小冰,一天的对话量抵得上14个人一辈子的对话量;ChatGPT的算法成本就更高了,仅仅靠开通付费也难持平。未来除了在技术上追赶,玩家们也需要找到切实可行的商业落脚点。
中国科技互联网巨头无一缺席
ChatGPT类人的智能化表现火爆全网,不仅承包了新闻头条,也影响到股市的波动。方正证券研报称,AIGC(AIGeneratedContent)即人工智能自动生成内容,而ChatGPT则属于AIGC的一个典型应用。目前我国在自然语言理解及相关AI技术领域处于全球领先水平,国内AI大厂加大AIGC领域的投入,特别是NLP(NaturalLanguageProcessing,自然语言处理)头部厂商将率先受益,目前从受益顺序来看依次为技术提供商、内容供应商、AI芯片供应商,对此国内各家科技巨头表态不一。
2月8日晚间有报道称,阿里达摩院正在研发类ChatGPT的对话机器人,阿里巴巴可能将AI大模型技术与钉钉生产力工具深度结合。2月9日,本报记者向阿里相关人士求证,回应是:“确实在研发中,目前处于内测阶段。”
从此前发布来看,早在2021年阿里即开始在AI大模型领域加码投入。当年11月,达摩院的多模态大模型M6,参数规模从万亿跃迁至10万亿,规模超越海外公司发布的万亿级模型,成为全球最大的AI预训练模型。相比之前业界标杆大模型,M6实现同等参数规模,能耗仅为其1%,极大减少了超大模型训练所需算力。
2022年下半年,阿里巴巴达摩院发布“通义”大模型系列,核心模型通过“魔搭”社区向全球开发者开源开放,该动作降低了AI的应用门槛。通义打造了AI统一底座,构建了大小模型协同的层次化人工智能体系,为AI从感知智能迈向知识驱动的认知智能提供先进基础设施。
根据爱企查2月3日的公告,2020年3月腾讯科技(深圳)有限公司就申请了“人机对话方法、装置、设备及计算机可读存储介质”专利并获通过。摘要显示该方法包括:当人机对话被激活时,在预设文本库中获取用于进行人机对话的参考文本,这与ChatGPT的原理十分相似。
腾讯的混元AI大模型,覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业/领域模型,近年来先后在中文语言理解权威评测集合CLUE与VCR、MSR-VTT、MSVD等多个权威多模态数据集榜单中登顶。
据调查,HunYuan-NLP-1T大模型已成功落地,通过腾讯云平台赋能外部客户,其背后,离不开腾讯强大的底层算力和低成本高速网络基础设施、太极机器学习平台及公司内预训练研发力量的深度协同。
有意思的是,腾讯旗下的智能创作助手文涌(Effidit)在去年12月份更新到了2.0版本,新版文涌包含文本补全、智能纠错、文本润色、超级网典四个模块,其中文本补全和超级网典旨在帮助写作者在创作时开阔思路、提供弹药,而智能纠错和文本润色则是重在提升创作后的文本水平和质量,是不是看起来相当熟悉?
京东集团副总裁何晓冬回应,京东在ChatGPT领域拥有丰富的场景和高质量的数据,例如京东云言犀每天和用户进行1000万次的交互,使得算法能够及时地迭代更新。
何晓冬称,ChatGPT最大的创新在于文本内容生成,ChatGPT通过交互式对话来逐步理清用户的意图。尤其是一些比较复杂的意图,ChatGPT能够进行几轮的人机交互,让用户讲清楚诉求,ChatGPT也能完全理解用户意图并给出相应的回答,“整个交互体验流畅度非常好,再配合ChatGPT文本生成的高完整度,体验就达到了一个阈值,到了一个令人惊艳的水平”。
在具体落地方面,京东云旗下言犀人工智能平台,将依托自身十余年智能对话经验的积累,加上在京东零售、物流、金融、健康等各业务的多年实践,日均千万次智能交互,未来借助ChatGPT等相关技术成果,加速人工智能的应用落地。
百度ChatGPT项目的名称和内测时间均已确定,根据百度方面对媒体放出的消息,百度内部类似于聊天机器人ChatGPT的项目名字确定为“文心一言”,英文名ERNIEBot,将在3月份完成内测,面向公众开放,目前文心一言正在做上线前的冲刺。
去年9月,百度CEO李彦宏曾表示,人工智能发展在“技术层面和商业应用层面,都有方向性改变”。百度在人工智能四层架构中,有全栈布局。包括底层的芯片、深度学习框架、大模型以及最上层的应用(如搜索等),文心一言位于其中的模型层,百度方面表示,ChatGPT是人工智能里程碑,更是分水岭,这意味着AI技术发展到临界点,企业需要尽早布局。
AIGC赛道上的中国企业
ChatGPT并非凭空产生,AI技术无疑是其背后的依仗,而AIGC则成为其落地的方向,除正在被颠覆的互联网搜索模式外,随着AI写作、AI作图、AI底层建模、AI生成视频和动画技术逐渐成熟,AI有望进入新纪元,带来空前蓝海,同时对现有娱乐、传媒、新闻、建模等应用具有颠覆性的创新。在这样的大背景下,AI处理器厂商、AI商业算法落地的厂商以及AIGC相关技术储备的应用厂商不仅成为ChatGPT生态崛起红利的分享者,更是我国AI产业发展的基石。
科大讯飞:
2022年初正式发布“讯飞超脑2030计划”,其目的是向“全球人工智能产业领导者”的长期愿景迈进。该计划是公司的核心战略,目的是构建基于认知的人机协作、自我进化的复杂系统,即让机器人感官超越人类,具备自主进化的能力,打造可持续自主进化的复杂智能系统,助力机器人走进千家万户。其计划分为三个阶段性里程碑。
第一阶段(2022—2023):推出可养成的宠物玩具、仿生动物等软硬件一体机器人,同期推出专业数字虚拟人家族,担当老师、医生等角色;
第二阶段(2023—2025):推出自适应行走的外骨骼机器人和陪伴数字虚拟人家族,老人通过外骨骼机器人能够实现正常行走和运动,同期推出面向青少年的抑郁症筛查平台;
第三阶段(2025—2030):最终推出懂知识、会学习的陪伴机器人和自主学习虚拟人家族,全面进入家庭。
谈及ChatGPT产品时,科大讯飞回应道:“ChatGPT应用在C端是有价值的。例如面向个人和老师的学习机应用,汽车,以及将来医疗进家庭等。在对话系统的提升中,相关预训练模型对教育C端和医疗C端都有很好的促进作用。在将来面向元宇宙和数字经济虚拟人的消费类产品中,公司已经推出的虚拟人交互平台,实现多模感知、多维表达和情感贯穿,以及在消费类、听说各类产品都有望面临新机会。”
汉王科技:
截至2月9日下午,汉王科技连续多日涨停,报收35.42元/股。目前汉王科技已形成包括多模式识别、智能人机交互、自然语言理解、智能视频分析等人工智能产业链关键技术。据汉王科技首席数据技术官聂昱介绍:ChatGPT的出现极大地扩展了AI能力的边界,从而极大地扩展了AI技术的市场应用空间,对于整个人工智能相关行业是一个极大的鼓舞。
汉王科技董事会秘书、副总经理周英瑜曾在2月1日的特定对象调研活动中谈到,ChatGPT是一个通用的大模型,而生成式模型作为一个黑匣子,仍然具有结果不可控的特点。相对而言,公司基于自身在NLP技术领域的全面性以及长期在行业端的深耕,对不同行业客户的数据特点、业务需求的理解更为深刻,在项目磨炼中,已经形成自身独有的算法模型,更能为行业客户提供满足需求、输出结果更为专业精准的专业化模型。
云从科技:
云从科技是一家专注于提高人机操作系统和行业解决方案的人工智能企业,致力于推进人工智能产业化进程和各行業的转型升级。一方面公司通过业务、硬件设备、软件应用,为客户提供数字化、智能化的人工智能服务。另一方面,公司基于人机协同操作系统,赋能金融、出行、商业等场景。公司自主研发了融合人工智能技术的人机协同操作系统和部分AIoT设备。
云从科技对外表示,从技术角度看,目前视觉大模型、语音大模型跟自然语言理解大模型是分开的,尚且不存在一个通用的大模型解决全部问题,但ChatGPT在技术范式上给视觉、语音大模型的发展带来很大的能量。单独看NLP大模型,可以当成百科全书来用,在搜索引擎的场景对用户的帮助是很直接的,不过局限在线上。但在更远的2024、2025、2026年,我们会发现,把视觉、语音和NLP结合在一起,变成数字人,能打通线上和线下,结合实时与非实时,能够实现问答、伴随和托管等更多的人机协作模式,能够帮助到更多的场景。
无论成败,ChatGPT将催动新一轮产业迭代
记者调查中发现,国内短时间大量涌现一批名字中包含“ChatGPT”的微信公众号、小程序产品。随手点开微信搜索框就可以发现一系列与ChatGPT“沾亲带故”的产品,并以ChatGPT的官方图标为头像。这些账号中,有不少注册时间都是在ChatGPT“出圈”的今年。这些产品的服务方式大多是,先免费试用,一旦免费次数用尽就开始收取费用。以“ChatGPT在线”为例,它为用户提供4次免费对话额度,之后继续使用需充值,充值额度分别为9.99元/20次(三个月有效)、99.99元/1300次(半年有效)、199.99元/3000次(一年有效)、999.99元/无限次(一年内有效)。而另一款类似的服务“GPT深蓝”也显示有199元月度会员、399元季度会员、999元年度会员的ChatVIP充值机制,页面甚至还有“加入代理赚钱”的选项。
对于任何一个短时间爆发式增长的行业而言,乱象不可避免,但对于关注该领域的科技爱好者而言,一定要擦亮眼睛以免误入歧途。
Web3.0/元宇宙时代内容快速增长,依靠PGC/UGC的供给有限,低成本高效率的AIGC将成为重要的内容供给方式之一。当前ChatGPT、AI绘画的突出表现打开了人们对于AI生成式内容的想象空间,我们推演,AIGC的终极是以AI为内核,依场景需求借助一定的硬件形态呈现出来的垂类硬件,如特斯拉推出的人形机器人等。
在AIGC的广泛的应用场景中,以ChatGPT为代表,其在代码生成、纠正语法生成文本等方面表现出极强的能力,并凭借“对话式”搜索的强交互模式对现有的搜索引擎造成了较强的冲击,并影响了现有战略布局,谷歌内部拉响了红色警报,微软将ChatGPT整合入Bing搜索,以重塑现有业务体系。在此基础上,ChatGPT试点订阅制付费模式,将打破原有竞价搜索广告的商业模式,具有巨大的商业化潜力,同时也为AI行业的商业化路径做出了更多模式的探索。