赵觉珵
全班第一的论文是它写出来的、89%的美国学生用它来完成作业、2个月内超过1亿用户向它提问……最近一段时间,对话式人工智能(AI)机器人ChatGPT火遍全球,它以强大的语言处理能力、海量的数据积累等特点让用户感到惊讶甚至震撼。比尔•盖茨称赞,ChatGPT的诞生有着重大历史意义,不亚于互联网或个人电脑的诞生。在接受《环球时报》记者采访时,多名业内人士将ChatGPT的出现形容为“颠覆性”和“革命性”的,并预测其未来将有着更强大的能力,甚至可以取代一些基础性职业。但他们也提到,ChatGPT仍存在内容准确性不足、无法进行高级逻辑处理等局限,并且其在法律和伦理领域的潜在风险正在不断显现。
“上知天文下知地理”是如何炼成的
ChatGPT由美国初创公司OpenAI开发,于去年11月底发布上线。上线短短5天,ChatGPT用户量即超过百万,两个月后,月活用户突破1亿,是史上用户增长速度最快的消费级应用程序。ChatGPT的走红也引发全球科技巨头的入局,百度、谷歌等知名企业均宣布将推出类似服务。
之所以引发如此大规模的关注,很大程度上是因为ChatGPT展现出来的强大能力:它“上知天文下知地理”,几乎可以回答任何知识类问题;它还可以处理复杂问题,包括撰写代码、解数学题、写发言,稿等。令很多用户惊叹的是,ChatGPT在模仿某人口吻、谈论主观看法等感性问题的作答上也似乎处理得游刃有余,这就使得它比普通的人工智能机器人更加像“人”,与它的交流也更接近一场“人与人”的对话。
ChatGPT的基础是OpenAI公司开发的生成型预训练变换模型GPT-3.5。根据ChatGPT在问答过程中对自身的介绍,它是一个自然语言处理模型,通过读取大量文本内容异学习语言知识和语法来实现对人类语言的理解和生成。
美国《华尔街日报》介绍称,ChatGPT是根据从互联网上搜罗的土量文章;网站和社交媒体帖子以及用户与OpenAI雇用的人工雇员的实时英文对话进行训练的。ChatGPT学着模仿写作的语法和结构,并使用常用语。
事实上,这也是ChatGPT的主要特征之一。某跨国互联网企业工程师王泽对《环球时报》记者表示,ChatGPT引入了基于人类反馈的强化学习方式,大幅提升了AI在人机对话时的准确度和可控性,具有强大的语言理解能力和语言表达能力。
浙江大学国际联合商学院数字经济与金融创新研究中心联席主任盘和林也向《环球时报》分析,ChatGPT是通过和AI训练员对话来提升自己的自然语言处理能力的,尤其是提高回答的逻辑性,ChatGPT最大的特点就是会承认自己的局限性,通过人类对话细节给出人类可能想要的答案。未来ChatGPT的数据积累会越来越大,能够应对的事情也越来越多。
具有哪些技术突破
输入问题,得到回答,X机对话的交流模式并不是新鲜事物,但ChatGPT却依靠先进的模型、庞大的算力和海量的数据,向用户展示了一种不同的图景。据外媒报道,GPT-3.5的升级版GPT-4有望于近期发布,业界甚至传出该模型可以通过“图灵测试”的说法。
新智元创始人杨静在接受《环球时报》记者采访时称,ChatGPT是自然语言处理(NLP)的新突破,是将算法、算力和数据结合产生的强大AI引擎,是“颠覆性”的。王泽也认为,ChatGPT是一个AI由量变向质变发展的开端。
杨静表示,此前的聊天机器人大多只能进行单轮、一次性的对话,而且普通的客服机器人只会给予固定答复。而ChatGPT通过模型和大规模的语料训练,可以实现与用户的多轮对话,不仅能理解上下文,也可以根据用户特征不断适应新的需求。杨静认为,ChatGPT的背后是人类语言的庞大知识库,而它本身则是一个输出窗口。
盘和林对《环球时报》记者表示,ChatGPT作为AI的问答逻辑和性能非常优秀,证明AI已经摆脱了玩具定位,逐渐成为一款有用的工具。和之前技术的不同点在于,ChatGPT是一个大模型,其对上下文语义的理解比其他AI算法更强,且数据积累速度比其他AI更快,具备成长性和可用性。
另一名人工智能领域专家也对《环球时报》表示,相对于此前偏娱乐性质的人工智能机器人,ChatGPT能更好地理解对话语境,输出的文本不仅质量更高,而且更符合语言逻辑与人类价值观,拥有更强实用性和更广阔的应用场景。
IDC中国研究总监卢言霞告诉《环球时报》记者,ChatGPT不是唯一的语言模型。OpenAI自2020年6月发布GPT-3模型,在自然语言处理领域被业界广泛采用,同时也掀起预训练模型、大模型的浪潮・。全球主流人工智能厂商都发布了相应的大模型。
但接受记者采访的专家普遍认为,虽然ChatGPT在技术层面没有革命性的突破,但其在算法上的先进性、长期大规模数据训练的积累以及投入的强大算力,都是短时内难以复制和超越的。
将成“互联网传播错误信息的最强大工具”?
但ChatGPT距离“完美”依然有着不小的距离,用户反映最多的问题是它经常“一本正经地胡说八道”。《华尔街日报》称,AI聊天机器人和其他生成式AI程序能够像镜子一样反映“投喂给”它们的数据。它们对这些数据进行“反刍”并将其重新混合,有时结果令人惊艳,有时则一塌糊涂。
报道称,ChatGPT有时能正确回答一些问题,因为对于这类话题“摄入”了高质量的信息来源,并经常与人类训练员对话。而对于互联网上含有大量错误信息的话题,以及非英语语言,比如中文,它有时就会胡言乱语。事实上,ChatGPT自己也强调,“尽管我可以生成大量的信息,但我不是一个绝对可靠的信息来源,并且我的答案有时可能准确或不完整。”
据《纽约时报》8日报道,美国新闻可信度评估与研究机构NewsGuard对ChatGPT进行了测试,虚假信息的研究人员向ChatGPT提出充斥阴谋论和误导性叙述的问题,发现它能在几秒钟内改编信息,产生大量令人信服却无信源的内容。NewsGuard联合首席执行官克罗维茨形容称,ChatGPT将成为互联网传播错误信息的最强大工具。
此外,《环球时报》记者在使用ChatGPT时发现,其学习的数据截止到2021年,因此对于2022年及之后发生的事情难以进行准确回答。王泽表示,ChatGPT本身不具有和人一样的创新能力,它的能力来源于大规模学习而不是算法的革新。这也是ChatGPT的局限之一,即只能提供接受过训练的信息,无法准确回答训膝数据之外的问题。
卢言霞对《环球时报》记者表示,ChatGPT所提供的答案在准确性、广泛性方面仍存在局限,因此现阶段无法直接用于企业特定的场景中以替代之前的AI应用,短期不可能彻底颠覆搜索市场,也很难改变人工智能市场格局。▲