这款名为SynthID的工具,是生成式人工智能输出水印工具家族的一部分。去年,谷歌公司推出了用于图像的水印,随后又推出了用于人工智能生成视频的水印。2024年5月,谷歌宣布在其Gemini应用和在线聊天机器人中使用SynthID,并在HuggingFace这一开放的人工智能数据集和模型库中免费提供。水印已成为帮助人们识别人工智能生成内容的重要工具,这有助于防范如虚假信息等的潜在危害。
“现在,其他生成式人工智能开发者可以使用这一技术,帮助他们检测文本输出是否来自自己的大语言模型,这将使更多开发者能够更负责任地构建人工智能。”谷歌DeepMind研究副总裁普什米特·科利说。
SynthID通过在人工智能模型生成文本时,直接在文本中加入一个不可见的水印。
大型语言模型通过将语言分解为“令牌”,然后预测哪个令牌最有可能接在前一个令牌之后来运作。一个令牌可以是单个字符、单词或短语的一部分,每个令牌都会得到一个百分比分数,表示其成为句子中下一个词的可能性。百分比越高,模型使用该令牌的可能性就越大。
“SynthID通过在生成的那一刻引入额外的信息来改变令牌生成的概率。”科利解释道。
要检测水印并确定文本是否由人工智能工具生成,SynthID通过比较带水印和不带水印文本中单词的预期概率分数来实现。
GoogleDeepMind发现,使用SynthID水印并未影响生成文本的质量、准确性、创造力或生成速度。这一结论来自SynthID在Gemini产品中的大规模实地测试,数百万人使用了带有水印的文本。Gemini允许用户对人工智能模型的回复进行评分,选择“赞”或“踩”。
科利和他的团队分析了约2000万条带水印和不带水印的聊天机器人回复的评分。他们发现,用户并未察觉两者在质量和实用性上有何差别。此次实验的结果详见最近发表在《自然》上的论文。目前,SynthID仅适用于谷歌的模型生成的内容,但开源这一工具的目的是希望扩大其兼容工具的范围。
然而,SynthID也存在一些局限性。水印在应对文本裁剪、轻度编辑或重写时具有一定的抗干扰能力,但当人工智能生成的文本被重写或翻译成另一种语言时,效果不如预期。在回答诸如“法国的首都是哪里”这种事实性问题时,水印的可靠性也较低。原因在于,在不改变事实的前提下,调整句子中下一个可能单词的概率空间更为有限。
“在生成式人工智能文本中实现可靠且不可察觉的水印是极具挑战性的,尤其是在输出结果接近确定性的场景中,例如事实性问题或代码生成任务。”马里兰大学副教授费兹说,他曾研究过人工智能水印的脆弱性。
费兹表示,GoogleDeepMind决定开源其水印方法,是对人工智能社区的一个积极信号。“这让社区可以测试这些检测器,并在不同的环境中评估其鲁棒性,从而更好地理解这些技术的局限性。”他补充道。
HuggingFace的机器学习工程师若昂指出,开源工具还有另一个好处,开源意味着任何人都可以使用代码,并无附加限制地将水印整合到他们的模型中。这将提升水印的隐私性,因为只有拥有者知道其加密秘密。
“随着可访问性的提升和功能的验证,我希望水印技术能成为标准,这有助于我们检测语言模型的恶意使用。”若昂说道。
但水印并非万能的解决方案,HuggingFace全球政策负责人索莱曼指出。“水印是保障模型安全的一部分,但整个生态系统还需要许多互补的安全措施。类似地,即便是人工生成的内容,事实核查的效果也因情境而异。”她表示。