AI检测背后的“猫鼠游戏”

2024-04-10 02:41ttt

青年文摘 2024年7期

ttt

过去一年，全世界的学生都恨上了一个名叫EdwardTian的人。他刚刚22岁，是美国普林斯顿大学计算机专业大四学生。恨意來自他的作品——一个叫“GPTZero”的软件，可以检测一段文本是否由AI生成。GPTZero发出来的第二天，Tian的手机就“爆炸”了，各种“咒骂”蜂拥而至——因为老师们以后会用GPTZero来检查学生作业是否由AI生成。而Tian则凭借该软件拿到了350万美元的风投基金，创办了同名公司GPTZero。

Tian在普林斯顿大学主修计算机，在写出GPTZero前，他在自然语言处理实验室研究了如何检测人工智能生成的文本，同时辅修了新闻。在BBC实习时，他很大一部分工作就是核实新闻的真实性——假新闻一直都存在，但AI能力的大幅提升，已经让假新闻越发泛滥。Tian说，这些经历都是他研发GPTZero的动力。

Tian并非反对AI：“这项技术令人难以置信，我相信这就是未来。但与此同时，就像打开了潘多拉魔盒，我们需要采取安全措施，以负责任的方式来用它。”实际上，以他目前取得的成就来说，他也是AI风潮的受益者。

GPTZero本身就是一种人工智能，在开发过程中，Tian也借助了基于GPT-3的编程辅助软件的帮助。GPTZero宣称对AI文本判断的准确率为85%，对人类文本判断的准确率高达99%。如果从原理来理解GPTZero，“困惑性”和“突发性”是两项关键指标。

“困惑性”指的是文本中语句的随机程度。毕竟相比混乱的人类而言，接受过大量文本训练的AI已经形成了产生文本的范式。假如GPTZero接收到了它不熟悉的文本，产生“困惑”的GPTZero就更有可能判定这是人类生成的。举个例子，“你好，我是一个AI……”，如果这个句子后面接的是“助手”，那GPTZero就不会产生困惑。但如果接的是“土豆”，GPTZero就会更有可能判定，这个句子是人类写的。

以数百字的文本长度来说，GPTZero会分别计算出“文字总困惑度”“所有句子的平均困惑度”和“每个句子的困惑度”，得出一个综合分数。当这个分数大于85时，那这段文本就很有可能是人类写的。

另一个关键指标“突发性”，则指的是某个句子、词在文本中突然出现的现象。这是一个衡量文本全文句子长度和结构变化的参数。人类往往会有比较动态的写作风格，由此产生的文本结构相对参差，而AI会更倾向于使用一致的结构生成文本。同时，大模型也会使用相同的规则来预测下一次单词，由此导致低突发性。

不过，Tian自己也承认，GPTZero会出现错误。比如，对于经过人工编辑的AI文本，GPTZero还不具备检测能力。

有做AI检测的，就有做反AI检测的。在GPTZero发出后，就有一些学生把攻略放到网上去，比如，用西里尔字母替换掉英文字母，就骗过了AI检测……不过，Tian之后修补了这一漏洞。

一个斯坦福大学新生做了一个App——WorkNinja。这个App可以生成文本，你拿去GPTZero检测后如果发现被判定为“AI生成”，就再返回去按“Rephrase（修改措辞）”按键，文本会被改写（比如，同义词替换）。

AI的背后是人类，只要人类还存在，这场猫鼠游戏就不会停止。

（摘自“果壳”微信公众号，本刊有删节，魏克图）