1968年,美国科幻作家菲利普·迪克推出了他最负盛名的作品——《仿生人会梦见电子羊吗》,这也是经典科幻电影《银翼杀手》的小说原著。在小说中,作者通过讲述自然人与仿生人的博弈,对人性和伦理进行了探讨:当人工智能发展到一定程度,当机器人也会思考、睡觉、做梦的时候,我们该如何与人工智能相处?
自艾伦·图灵在1950年的《计算机器与智能》论文中提出“图灵测试”的概念以来,人工智能技术就成为人类社会对未来世界进行预想时最为常见的要素,与之相伴随的,则是对人工智能是否会超越、替代人类的探讨甚至是担忧。如今,人工智能正在展现出越来越逼近人类智能的水平,特别是2022年以来,AIGC(人工智能生产内容)在绘画、文字领域的应用,让人惊呼人工智能竟可以“像人一样”进行创作。
在2022年11月,美国人工智能研究机构OpenAI发布了全新聊天机器人模型ChatGPT,它不仅“能说会写”,还能自动修复bug,在发布后引发全民与人工智能的“疯狂”聊天。那么,以ChatGPT为代表的AIGC浪潮迭起的背后蕴含着哪些商机?
2022年11月30日,由马斯克、美国创业孵化器YCombinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立的美国人工智能研究实验室OpenAI发布了免费机器人对话模型ChatGPT,引发AIGC界的狂欢。
GPT(预训练模型)是当下备受关注的AIGC背后的人工智能模型。在2018年、2019年和2020年,OpenAI先后发布了GPT-1、GPT-2和GPT-3三代模型,每一代模型拥有的参数量都较前一代增长了超10倍,甚至是100倍。
其中,作为第一个基于Transformer的预训练模型,GPT-1采取了预训练+FineTuning两个阶段,以Transformer的decoder作为特征抽取器,共堆叠12层,拥有1.1亿参数。相比GPT-1,GPT-2使用了更多的网络参数与更大的数据集,其最大模型共计48层,参数量达15亿。GPT-3发布于2020年,结构和GPT-2一样,其模型上到了96层,模型参数约为GPT-2的100倍。可以看到,三代模型所用到的参数量都在大幅增长。
而此次发布的ChatGPT属于GPT-3.5阶段,ChatGPT首次采用RLHF(从人类反馈中强化学习)方式,开始具备联想能力和记忆能力,对人类语言的理解能力更强。用户可以与ChatGPT开展聊天、信息咨询、撰写文章、修改代码等互动。一时间,网络上出现了各种使用ChatGPT的“体验帖”。从写邮件、写文案到写代码,ChatGPT受到了大规模的围观。马斯克甚至向ChatGPT提问如何设计推特,并将对话在推特上贴出。
自上线以来,ChatGPT已经拥有超过100万名用户。作为基于GPT-3.5的对话式AI,ChatGPT最大的特点即是能够“理解”对话者的语义,能进行更为有效的反馈和连续对话。基于对超大规模数据的深度学习,ChatGPT在文本生成领域几乎能“以假乱真”,让使用者觉得它真的拥有了意识。
不过ChatGPT也并非目前的完美模型,根据OpenAI研发团队在推出ChatGPT时给出的提醒以及全球网民们的反复试探后发现,ChatGPT至少存在三个方面的问题:其一是ChatGPT背后的大型语言模型的训练集最近数据截止于2021年底,这也就意味着,发生在2022年的事情,它并不能给出准确答案;其二,ChatGPT的回答的质量和准确度并不稳定;其三,提问者输入的问题描述会影响ChatGPT回答的准确性。
事实上,以GPT为代表的AIGC在今年以来在全球风靡。在元宇宙、Web3等概念火热的大背景下,AIGC也乘势崛起。所谓AIGC是对应于互联网的PGC(专业生产内容)、UGC(用户生成内容)、PUGC(专业用户生成内容)等概念,AIGC就是通过人工智能技术来自动或辅助生成内容。
2022年以来,人工智能漫画全网火热,海内外涌现出多个应用软件,包括2022年2月由谷歌推出的DiscoDiffusion,2022年4月OpenAI的DALL·E2和2022年7月Meta的Make-AScene等。
其中,DALL·E是OpenAI于2021年1月6日发布的新模型,可以根据文本生成图像,一年多后发布了升级版本——DALL·E2。与DALL·E相比,DALL·E2在生成用户描述的图像时具有更高的分辨率和更低的延迟,新版本还增添了比如对原始图像进行编辑等新的功能。DiscoDiffusion是在2022年2月初开始流行的一个人工智能图像生成程序,它可以根据描述场景的关键词渲染出对应的图像,可以在GoogleDrive直接运行,也可以部署到本地运行。
眼下火热的人工智能绘画最早可以追溯到OpenAI成立前的2014年,人工智能专家伊恩·古德费洛在这一年提出了算法模型生成式对抗网络。基于深度卷积神经网络,生成式对抗网络将两个神经网络进行对抗,即生成器与鉴别器。其中,生成器用于生成“造假数据”,鉴别器用于判断数据的真伪。而两者也在对抗中逐渐演化出强大的“造假能力”,这种造假能力则用于图像的合成。2015年开始,生成式对抗网络开始被投入应用,成为人工智能生成图像、处理图像任务里最常见的算法模型。
过去几年,AIGC领域也涌现出越来越多的玩家。在OpenAI的GPT-3推出后的两年内,也有如GoogleBERT等类似的大型语言模型涌现,不过GPT-3的地位依然无法撼动。2021年,GPT-3也被《麻省理工科技评论》评选为“全球十大突破性技术”,认为这种学习自然语言的大型计算机模型,正朝着构建可理解人类、并与人类世界互动的AI迈出一大步。
无论是AI作画还是AI聊天、写作、修代码,人工智能无疑在变得越来越有创造性。2022年国际研究机构Gartner就将AIGC评定为“本年度五大影响力技术之一”。
这样一个现象级技术应用的出现,自然逃不过嗅觉敏锐的资本家的双眼。客观来看,现阶段各类AIGC应用虽然打得火热,但距离大规模应用或商业化仍需时日,不过,这并不妨碍资本在AIGC领域的大力投入。目前,已有多家AIGC企业获得资本加持。
2022年10月,主打文字生成的人工智能独角兽公司Jasper.AI宣布完成1.25亿美元的A轮融资,融资后估值达15亿美元;StabilityAI亦宣布获得1.01亿美元融资,成为身价估值超10亿的独角兽,该公司表示会继续研发用于生成图片、语言、视频的AI生成模型。资本的涌入也在不断推高AIGC相关企业的估值。例如大数据加人工智能公司Databricks估值已经达380亿美元,而OpenAI估值在今年10月也已经超过200亿美元。
在我国,目前也涌出了多个AIGC应用,其中不乏互联网巨头企业的身影,比如,百度推出的人工智能艺术和创意辅助作画平台文心一格;腾讯打造的写稿机器人“梦幻写手”;阿里巴巴旗下的人工智能在线设计平台Lubanner,帮助营销人员生产Banner。Gartne预计到2025年,生成式人工智能生成的数据将占所有数据的10%。
可以看到,人工智能技术正在快速“进化”,其在人类社会发展道路上的分量也越来越重,随之而来的,人类与人工智能的和谐共处也成为科技精英关注的议题,就如同马斯克在谈及OpenAI的创始初衷所说:“我们要怎样做才能保证人工智能带给我们的未来是友好的?”这个问题的答案或许就藏在每个科学家的努力之中。