目前,大语言模型逐渐成为文学、法律、医学、自然科学研究等领域中不可或缺的工具。然而,在应用过程中,大语言模型常会出现 “幻觉”现象——可能生成看似合理但实际并不准确或不真实的信息。
英国牛津大学研究团队近日在国际学术期刊《自然》上发表论文,尝试解决大语言模型输出中的这种“幻觉”现象,从而提高输出的可信性。通过评估大语言模型在特定提示词下生成内容时的不确定性,可计算出该模型的困惑程度。作为一种警示,它提醒用户或模型自身采取额外的循证措施,以确保更准确地输出答案。
为了更准确衡量模型的困惑程度,该论文引入了“语义熵”概念来计算输出的不确定性。所谓语义熵,实际上是信息熵的一种,用于衡量一个物理系统中所包含的信息量。
为了简单理解“熵”所表示的意思,我们可以想象一个人在岔路口时作出判断的情形:如果这个人向左走或向右走的概率相同,那么这是“熵”的最大情况,代表信息不确定性的极大值,说明这个人对前方的路完全没有把握;而如果这个人总是选择向左走,从不选择向右走,则这是“熵”的最小情况,代表信息不确定性的极小值,说明这个人对前方的路完全有把握。
利用语义熵概念,研究人员对包括GPT-4和LLaMA2在内的多个大语言模型进行深入研究。结果显示,语义熵在所有模型和数据集上的表现都非常出色,是目前用于评估模型困惑程度的最佳方法,能有效识别出大语言模型是否在“胡言乱语”。另外,通过对大语言模型进行反复提问,我们可以有效地定量计算出它对问题答案的不确定程度,并通过拒绝回答不确定的问题来提高输出答案的整体准确度。
值得注意的是,大语言模型输出答案具有很低的语义熵,只意味着它在其已有的训练数据基础上确信自己答案是正确的。这表明大语言模型有极高概率生成单一语义的句子,但这些句子是否实际正确仍无法完全保证。
(据中新社讯)