编译 李军平
传统观点认为,尖端人工智能依赖大量数据方可发展成熟。因此,数据是一种关键的战略资源,国家(或公司)获取的数据量被视为人工智能领域进步的关键指标之一。数据的确对人工智能发展起到了极为关键的作用,目前许多人工智能系统正在使用大量数据。但是,如果政策制定者相信数据是实现所有人工智能系统的永恒真理,就会误入歧途。过分强调数据将忽略并低估其他实现人工智能方法的潜力,而这些方法并不需要大量数据集,也无需从实际交互方式上收集数据。在本文中,我们将之称为“小数据”方法。
我们所称的“小数据”不是一个明确的类别,因此并没有统一、正式的定义。学术人士在讨论应用领域的小数据时,通常将其与样本的大小相关联,例如千字节、兆字节或兆兆字节。很多媒体文章指出了小数据与各种因素的关系,如数据可用性和人类对数据的理解程度、数据的数量以及需要哪些格式使之更易于获取、承载更多的信息和更便于操作(对于商业决策尤为重要)。许多人通常将其视为一种全能的资源。然而,数据并非全能,构建不同领域的人工智能系统,需要不同类型的数据和方法。
有人指出,政府机构只有推行数字化并清理和标记大量数据,才能从人工智能革命中受益。虽然这一观点颇为中肯,但人工智能的进步并非完全取决于这些条件。这种观点掩盖的事实是:人工智能的未来不仅仅取决于大数据,即便不进行大规模的大数据基础设施投资,政府部门(以及更广泛的社会)仍有可能实现人工智能创新。
“小数据”方法大致可分为五类:a)迁移学习b)数据标记c)人工数据生成d)贝叶斯方法e)强化学习。这些类别(将在下文详述)其实并不完全。在研究人工智能和机器学习时,会结合许多不同的方法、途径和范例,解决多种不同类型的问题,因此并不容易分类。下文介绍这些类别的目的,旨在让读者大致了解在没有预先标记大数据集的情况下训练人工智能系统的粗略概念方法。我们使用的类别并不是完全彼此独立的,它们之间并不相互排斥,也并非总体全面的方法。
迁移学习的工作原理是:首先学习如何在数据丰富的环境中执行任务,之后将所学知识“迁移”至可用数据匮乏的任务中。这在“只有少量标记数据可用于处理感兴趣的问题,但有大量标记数据可用于相关问题的设置”中非常有用。
数据标记方法适用于已标记数据很少、未标记数据很多的环境。这类方法通常使用多种方式去理解未标记数据,例如自动生成标签(自动标记)或识别标签能够发挥作用的数据点(主动学习)。
人工数据生成是指通过创建新的数据点或其他相关技术,力求从少量数据中最大限度地提取信息。这类方法应用范围较广,既包括对现有数据进行小规模变更(例如,裁剪或旋转图像以分类集中数据图像)这种简单的方法,也包括研究可用数据的底层结构并进行推断演绎这种复杂的方法。
贝叶斯方法借鉴了机器学习和统计学的方法,并具有两大特点。第一,将问题的架构信息(所谓的“先验”信息)纳入问题的解决方法中。这与大多数其他机器学习方法形成鲜明对比,后者倾向于对问题做出最少的假设。贝叶斯方法可在根据可用数据进行后续改进之前纳入这种“先验”信息,因此更适合于一些数据匮乏的环境,而且可以通过数学方式列述问题信息。第二,贝叶斯方法可对预测的不确定性做出更好的修正。这在可用数据匮乏的情况下很有帮助,因为贝叶斯方法可以减少不确定性,因此可更容易地识别相关数据点。
强化学习是一个广义的机器学习方法术语,指智能体(计算机系统)通过试错方式来学习如何与环境交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车领域。
如果实现人工智能的方法不依赖于大量预先收集和标记的数据,小数据方法将具有许多优势。
减少大型和小型实体间的能力差距大型数据集对许多人工智能应用程序变得日益重要,因而人们对小型实体能否妥善收集、存储和处理数据忧心忡忡。拥有人工智能能力的大型实体可能拉开与其他公司的差距。如果迁移学习、自动标记、贝叶斯等方法能够在数据较少的情况下应用人工智能,则小型实体在数据方面的准入门槛将会降低,进而缩小不同实体之间的人工智能能力差距。
减少收集大量个人数据的动机调查表明,大多数美国人认为人工智能将严重损害个人隐私权利。这种担忧源自大型科技公司为了训练人工智能算法,持续收集与个人身份相关的消费者数据的想法。而小数据方法可减少为训练机器学习模型而收集实际数据的需求,进而减轻上述担忧。比如,使用人工数据生成方法(如人工数据合成)或使用模拟训练算法的方法。这两种方法并不依赖于个人数据,也可通过合成数据的方式消除个人身份中的敏感信息。虽然这并不意味着所有隐私问题都将得到解决,但通过减少收集大量实际数据的需求,可降低人们对大规模收集、使用或曝光消费者个人数据的担忧。
促进数据匮乏领域的发展近期许多人工智能的进步都是通过可用数据的爆炸式增长得以实现的。然而,对于许多重要的问题,却几乎没有任何可以输入人工智能系统的数据进行分析。没有相关数据,就无法为缺乏电子病例的人士建立预测疾病风险的算法,也难以预测火山再次爆发的可能性。小数据方法可以使我们按照一定的规则去处理此种缺乏数据的情况。例如,可利用已标记和未标记的数据,将所学知识从相关任务“迁移”至数据匮乏的任务;也可以利用现有的少量数据点来创建更多的数据点,凭借有关领域的先验知识,或通过构建模拟编码和结构假设去探索新的领域。
规避“脏数据”问题小数据方法可使大型机构脱离“脏数据”困扰,这些机构虽然拥有许多数据,但数据不够干净、架构不够清晰且不便于分析。例如,由于各个数据基础设施独立且系统落后,美国国防部就存在大量“脏数据”,需要付出大量时间和人力成本进行数据清理、标记和重组。小数据方法中的“数据标记”方法可通过自动生成标签来降低处理大量未标记数据的难度。迁移学习、贝叶斯方法或人工数据方法可缩减需要清理的数据量(只需通过相关数据集、结构化模型和合成数据等),显著减少“脏数据”的规模。
总而言之,我们认为人工智能领域的决策者必须清楚了解数据在人工智能发展中扮演的角色。虽然上述观点(不使用大量的个人数据)并不适用于本文所述所有方法——比如,强化学习确实需要大量数据——但这些数据是在训练过程中(例如,人工智能系统移动机械臂或在虚拟环境中导航)生成,而非预先收集的。
为了探索小数据方法的研究进展情况,我们使用了美国安全与新兴技术中心(CSET)的研究集群数据集来确定哪些研究属于上述五个类别(迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习)。研究集群是指通过提供引用链接而建立的科研论文群组,研究人员可以通过这一方式交流其使用的想法、方法、结果,或其参考的其他研究成果。
最终确定,在735个人工智能研究集群中,有150个研究集群属于上述5个类别之一。150个研究集群涵盖了80 324篇来自CSET合并学术文献汇编的论文,占全球相关学术成果的90%以上。为了确定哪些论文属于“小数据”类别,我们与技术专家合作,定义了一组与这5个类别相关的关键词,之后搜索各个集群,确定其论文是否存在关键词。最后,我们手工排除了与小数据明显无关的集群。在我们确定了150个属于五个类别之一的集群后,将这些研究集群中的所有论文视为相应的类别。在此过程中,虽然我们试图平衡准确性和包容性,但很有可能会因作者引用不足的问题而遗漏一些论文,也有可能引用一些仅仅与某个集群相关,但可能没有直接涉及主题的研究论文。因此,以下分析结论仅供参考,并不具有决定性意义。
上文介绍了一系列“小数据”人工智能方法,我们根据研究结果提出以下结论:
人工智能不等于大数据,也不是大型、预先标记的数据集的代名词。大数据在过去十年的人工智能热潮中发挥了巨大作用,但如果把大规模数据收集和标记视作发展人工智能的先决条件,这很可能将政策制定者引入歧途。可在不同环境下、以不同方式使用多种替代方法。如果现有问题的数据十分匮乏,但相关问题的数据相当丰富,可使用迁移学习方法。如果可提供一个模拟或真实的环境,以便智能体通过试错、而非预先收集的数据来学习,最终解决问题,则可使用强化学习方法。
迁移学习的研究发展尤其迅速——甚至比规模更大、更广为人知的强化学习领域发展更快。因此,这种方法在未来可能会得到更广泛的应用。寻求确定相关数据集,并将其作为迁移学习方法的基础,将有助于面临利益问题数据缺乏的决策者。
根据我们的研究集群方法,在这5个类别中,美国和中国在小数据方法领域竞争激烈,也是在该领域最为领先的两个国家(根据研究论文数量)。虽然美国在两种规模最大的类别(强化学习和贝叶斯方法)中更为突出,但中国在迁移学习这一增长最快的类别中也取得小幅领先。
目前来看,美国政府可以在迁移学习领域加大资助力度。相对于整个人工智能领域的投资规模,美国政府在小数据方法领域投入并不大。这可能是因为此类领域的研究没有得到美国政府足够的重视,也可能是因为美国私营部门对小数据方法的研究资金期望过高。无论如何,鉴于迁移学习正在快速崛起,其有望从美国政府方面获得更多的资助机会。
资料来源 CSET