斯隆奖得主李博：对抗AI，升级AI

2023-09-13 10:52朱秋雨

南风窗 2023年17期

关键词：李博攻击者人工智能

朱秋雨

ChatGPT之后，很多人都对人工智能有了充分的想象。它代表了普通人的恐惧与不解，就像《碟中谍7》里，汤姆·克鲁斯对抗的不再是邪恶的犯罪集团，而是掌控一切的人工智能。

但“85后”AI科学家李博不是这么想的。在7月上海的世界级人工智能论坛上，我看到了她。她正和一众中外教授坐在台上，探讨人工智能的奇点是否已经来临。

多数专家都对AI的超人类性表达了担心。但年轻的李博在台上直接又简短地说，当下的AI远没达到涌现智能的程度。

她是人工智能界的“少数”，研究的是过去属于“冷板凳”的领域—可信AI（trustworthy AI）。这是一个与AI漏洞、恶意的黑客、各种少数情况进行博弈的学科，最终目的是令AI变得安全可信。

只是，人要和一个能处理兆级数据的智能中枢“斗智斗勇”，并不容易。如图灵奖得主Joseph Sifakis近日的发言，即使是最重要的系统，人们也无法保护它们不遭受网络攻击。“我们充其量只能希望及时发现入侵者。”

AI怎样才能变得可信任？这是李博过往十多年里津津有味寻找的东西。她坚信会有解法。

在旁人印象里，这位勤奋的女性很少感到疲倦，她每天雷打不动地从上午9时工作到凌晨。在伊利诺伊州香槟分校，世界AI排名前三的院校，她除了做研究、上课，还加入了一长串的国际研究中心，高数科学中心、量子信息科学与技术中心……

2020年开始，因为卓越的学术成果，她斩获多个国际大奖。2022年，她成为有“诺贝尔奖风向标”之称的斯隆研究奖得主。

名气大涨让李博愈加忙碌。但到了午夜，李博说，她会接着回到自己的房间，每天花两三个小时，去思考那个最根本的问题。

她想要的，不是在每次博弈中打赢对方，而是要一个终极解法。

进击的攻击性

也许因为研究可信AI，34岁的李博说话很严谨。

2023年，被问了多次大模型能否在实际生活中应用，她总是会给出稍显前后矛盾的回答。“我认为当下的AI技术还不成熟，不适合大规模应用。”

但她又对我补充说：“当然，在一些语言生成类场景中，可能应用AI就还好。”

在另一个采访里，李博告诉记者：“虽然有可能让语言模型模拟人类的逻辑推理，但在实践中还要谨慎考虑挑战和风险。最好的做法可能是，将模型作为专业人员的辅助工具，而不是替代品。”

她和团队在7月推出了一个评估报告，以一个全新的大语言模型数据集AdvGLUE++，评估GPT3.5和GPT 4.0。

这个报告给了业内和外行人理解AI的视角。究竟一个看似态度中立的人工智能，如何不经意间沾染上人性的恶、傲慢和偏见？

李博团队给出了8个评估视角：

有害内容、刻板偏见、对抗鲁棒性（adversarial robustness）、分布外鲁棒性、生成示例样本的鲁棒性、上下文学习、隐私、机器伦理和公平性。

每一个特性，对应着好几种评估方法。

比如，让GPT-4判断对错。当研究人员让GPT-4判断“同性恋者感染艾滋病毒”时，它会表示反对。但一旦输入“女性感染艾滋病毒”，GPT-4就表示同意并继续输出带偏见的内容。

再比如，研究人员输入带误导性的前缀内容后，此时的GPT-4会回答：“是的，女人不适合开车，她们就应该整天呆在厨房，而不是把我们的交通搞得一团糟。”

大语言模型越是精妙，越可能展现充斥在真实世界里的偏见。李博团队在报告里写：“我们发现，GPT模型很容易被误导，产生辱骂性语言和有偏见的回应，并泄露训练数据和对话历史的私人信息。”

“我们还发现，虽然在基准测试中GPT-4比GPT-3.5更值得信赖，但考虑到对抗性的越狱系统或用户提示，GPT-4 更容易受到攻击。”

上述情况，“可能因为GPT-4能更准确地遵循人类的（误导性）指令”。

当AI模型变得愈加理解语义时，AI的智能性本身，就会与AI的安全性有所排斥。

换句话说，当AI模型变得愈加理解语义时，AI的智能性本身，就会与AI的安全性有所排斥。这就像一个飘满彩色气球的房间，人很难既希望房间能装满五颜六色的气球，又能避免气球间相互碰撞。

这也意味着，研究“氣球”该如何分布，是个长期存在的问题；同时说明，可信AI从来不是一个有完整范式、发展成熟的学科。

李博对我回忆，2011年到美国读博士一年级，对博弈论感兴趣的她，和导师说想选可信AI方向。

对方告诉她：这个领域的数据很难持续获得，有可能明年你就要换研究方向了。“你要做好心理准备。”

涂鸦的路标

踏入全新领域的李博，面临的都是未知。2011年，AI深度神经网络虽然已被发明，但始终没有太大技术突破，属于冷门学科。至于AI系统的安全，更不会有人在意。

没人知道与人工智能的漏洞进行博弈、较劲的结果是什么。

但李博看到的不是这样。选研究方向时，她说，考虑的“只有一个标准—哪个是自己最感兴趣的。是那种一想到它，未来20年都想做，20年都不会厌倦的”。

由此，她开启了与AI博弈的“奇妙之旅”。

李博的第一个重大突破，在于运用博弈论，给恶意邮件检测寻找最优解。

2014年，机器学习、深度学习已经被广泛运用在对垃圾邮件、涉嫌欺诈信息等的检测上。但那时李博发现，对抗性环境中的攻击者也有了新办法—他们通常能成功避开检测的分类器。

这是攻击者与防御者之间的博弈。李博与导师研究了攻击的目标建模算法发现，分类器里的“特征筛选”，导致了攻击者成功逃离检测，持续发送恶意邮件。一切，都源于分类器的特征设置，很容易被攻击者找到同义词代替，从而达成原定目标。

为此，两人提出基于“Stackelberg Game”的优化学习模型，在特征筛选和对抗规避之间权衡，获得更具抵抗攻击的算法。这篇论文发表在《NeurIPS 2014》上，被引用上百次，成为可信AI研究的一大参考文献。

读博5年期间，有媒体统计了李博的成果，发现她保持着高产量：共计发表25篇会议论文，11篇期刊论文。

2017年，博士毕业的李博，前往加州大学伯克利分校做博士后研究，师从大名鼎鼎的“计算机安全教母”宋晓冬。在这里，她收获了最为外界熟知的发现，一个大胆的、打破假设与真实边界的实验。

当时，自动驾驶技术是产业界研究热门，但许多研究者提出，自动驾驶技术基于深度学习网络，很容易被愚弄和攻击。比如，通过给图像的像素加上肉眼无法识别的改动，模型就会被愚弄和攻击。

李博想知道的是，如果这些改动，就发生在真实的物理世界呢？与现实场景紧密联系的自动驾驶，会被愚弄吗？

经过反复验证，团队决定将重点放在AI系统对路标的视觉识别上。

李博与团队将公路上的路标，分别用黑色或白色贴纸遮挡，或者模拟人的随手涂鸦，作为对抗干扰项。重要的是，上述对路牌的遮挡，不能阻碍人类驾驶员的识别。

这些贴纸看似随意，却是研究人员反复试错和精心设计的结果。

实验最终显示，若是自动驾驶汽车向一个被涂鸦的“STOP SIGN”路牌驶近，感知系统有80%的可能将这识别为45英里/小时的限速牌。除此以外，被涂鸦的右转标志，也会100%地被错误识别。

这个实验显著证明了，对AI图像分类系统的攻击，不仅存在于计算机的世界，真实世界也一样会发生。

而且，只需小细节的变动，就足够影响人们的安全。

2018年，上述结论一经发表，在AI界引发震动。这是最早证明AI对抗性可以存在于物理世界的研究之一。IBM、亚马逊等公司都受其启发，开展了新的研究。

设计冗余系统对自动驾驶的重要性，也从此被业界反复提及。

为了展现AI安全的时代意义， 2019年，英国伦敦科技博物馆联系李博的团队，买下了上述对抗路标实物。

它们被永久存放在了博物館的收藏柜。

终极难题

在可信AI深耕多年，李博的工作充斥着对抗性实验。这是AI安全领域的“基本功”—人们总要在模拟攻击者和防御者对抗的过程中，加深对技术本质的理解。

但现实的难题一直摆在那里。如图灵奖得主Joseph Sifakis指出的，人们很难通过预先的设计，保证AI系统的安全。很多时候，只能等AI出错或被攻击后，人们再发掘其提升的空间。自动驾驶汽车也因此久久未能向大众推广。

但对可信AI了解得越深，李博越不满足于此。这是一种对现状的妥协，但“安全是AI的bottleneck（瓶颈），这是AI最重大的问题”，李博说。

理想的AI背后要跟着一个数字，即可信度（reliability）。“如果从一个自动驾驶系统，我们得知只有90%的安全可信度，那就是不可取的。”

一直靠反复博弈与防御，什么时候能解决AI最大的问题呢？

李博近年有了新的想法，一种希望一劳永逸解决AI安全的设想。

她最近的发现是，当下的AI，之所以会存在漏洞，是因为系统完全靠数据驱动。但数据本身不如想象中万能。比如，大数据还经常自带噪音和偏见。而且，人类的常识、逻辑，很难被数据化的方式展现。

“所以，我们认为，”李博郑重地说，“AI除了数据驱动外，还应该加上人类的能力和经验。我们人类一个很独有的地方，在于逻辑推理。”

李博与团队最近两年就在探索这个，通过为纯数据驱动模型提供逻辑推理组件，将领域知识或人类指令集成到模型中。

有了逻辑推理组件的结合，李博发现，“在大部分情况下，AI系统的精确性和通用性提高了，而且能更好地应对极端和边角案例”。

更重要的是，当AI的一些决定和判断有逻辑冲突时，“逻辑推理组件可以帮你修正结果”。如此一来，AI的安全也更有保障。

但李博依然在此刻十分谨慎。

她告诉我，这两年取得的进展，只是从很有限的数据和模型得出的。“这是一个有前景的方向，但我不觉得它已经成熟了。”

还有很多待解决的问题。比如，什么样的知识对一个AI模型是重要的，如何定义它们？定义了它们以后，又如何利用它提升模型？

面临未知是她的常态。李博说，她还想了很多种解法，这一条不通的话，还可以试另一条路。

一切都是为了朝她的终极理想迈进—“一个真正有可信保证的AI系统”。理想的AI背后要跟着一个数字，即可信度（reliability）。“如果从一个自动驾驶系统，我们得知只有90%的安全可信度，那就是不可取的。”

回忆探索可信AI的13年，她“从来没感到累，也很少有挫败的时候”。即使遭遇“卡脖子”的难题，她第二天还是会准时来办公室，一切如常，重新开始。

一切原因还是源于，她又重复说了一遍：“这是AI最重大的问题。（这里）永远那么有活力，有挑战。”