人工智能的计量校准

2021-04-11 21:56梁志国姜延欢

计量学报 2021年1期

梁志国，姜延欢

(北京长城计量测试技术研究所计量与校准技术重点实验室，北京 100095)

1 概述

人工智能(AI，artificial intelligence)的思想，自从1956年在达特茅斯(Dartmouth)被麦卡赛(John McCarthy)、明斯基(Marvin Minsky)、罗切斯特(Rochester)和香农(Shannon)等提出，经过60余年的发展变化，时至今日，已经形成为一个热点和前沿方向的代名词。

由此导致全世界的技术发展都在向智能化方向飞速挺进[1～11]，智能机器人、智能翻译机、智能身份识别、智能诊断、智能网络、智能社区、智能制造、智能材料、智能武器、智能弹药、智能战士、智能飞机、智能机器、智能手表、智能交通、智能家电等等，几乎人类生活的所有方面，都无处不在体现智能化发展和智能化趋势。而且，在可以预见的将来，这种趋势将继续持续发展下去，并且更加深入持久地渗透和影响到人们的生产、生活的各个方面。

远在20世纪70年代，人工智能就与空间技术、能源技术並称为20世纪的3大尖端技术，进入新世纪后，人工智能又与纳米科学、基因工程並称为21世纪的3大尖端技术。各大工业化国家，为了抢占未来的科技制高点，在新一轮科技竞争中占得先机，纷纷投入重兵，开启自身的有关方向的各类计划与研究。

2018年4月16日，英国议会下属的人工智能特别委员会发布《英国人工智能发展的计划、能力与志向》(AI in the UK: Ready, willing and able?)报告[12]，从其概念、设计、研发和其对工作、生活、医疗等领域的影响以及应对人工智能威胁、塑造人工智能未来等层面进行了系统阐述。

欧盟委员会发布了由人工智能高级专家组(AI HLEG)编制的《人工智能道德准则》(AI Ethics Guidelines)草案[13]，指出AI的发展方向应该是「可信赖AI」，即确保这一技术的目的合乎道德，技术足够稳健可靠，从而发挥其最大的优势并将风险降到最低。旨在为AI系统的具体实施和操作提供指导。

2019年2月11日，美国总统Trump签署了《美国人工智能倡议》(American AI initiative)行政令[14]，将美国人工智能技术发展上升到了国家级战略的高度。这份倡议有5大核心要点：一是重新定向资金，要求联邦资助机构优先考虑人工智能投资；二是提供资源，为人工智能研究人员提供联邦数据、计算机模型和计算资源；三是建立标准，要求美国国家标准与技术研究院制定标准，以促进“可靠、强大、安全、可移植和可交互操作的人工智能系统”的发展；四是建立人才队伍，要求各机构优先考虑学徒、技能计划和奖学金，为美国培育能够研发和利用新型人工智能技术的研发人才；五是加强国际化参与，呼吁制定国际合作战略，确保人工智能的开发符合美国的“价值观和利益”。

为抓住人工智能发展的重大战略机遇，构筑我国人工智能发展的先发优势，加快建设创新型国家和世界科技强国，2017年7月20日，国务院印发了《新一代人工智能发展规划》[15]。提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施，为我国人工智能的进一步加速发展奠定了重要基础。

2018年1月18日，我国国家标准化管理委员会在北京宣布成立国家人工智能标准化总体组和专家咨询组，负责全面统筹规划和协调管理我国人工智能标准化工作。

2019年3月4日，第十三届全国人大二次会议举行新闻发布会，已将与人工智能密切相关的立法项目列入立法规划。2019年6月17日，国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》[16]，提出了人工智能治理的框架和行动指南。

在智能制造领域，德国首先提出了人工智能特色鲜明的工业4.0；相应地，美国提出了再工业化；中国也提出了中国制造2025，站在历史的新高度，从全局战略出发，明确我国实施制造强国战略的第一个十年的行动计划，将高档数控机床和机器人作为重点推动领域之一。日本韩国也都将机器人和人工智能列为国家重大战略。

人工智能的意义、价值、重要性，由此可见一斑。这也表明，人工智能已经上升为国家战略。相应地，人工智能的计量校准面临重大行业需求。

与科技界、工业界等轰轰烈烈的人工智能运动相比，在计量测试行业一直没有明显的应对措施，人们所从事和所规划的，仍然是几何量、热学、力学、电磁学、无线电电子学、时间频率、光学、声学、化学、电离辐射等10大传统方向的物理量值计量校准，另外附加了有关生物量值、医学量值等新兴领域的量值计量，正在进行工作的展开和专业的深化。所有这些，目前都与人工智能相去甚远。现阶段提及人工智能的计量，人们甚至都不知道该计量校准什么，以及用什么样的量值和定义来衡量人工智能，更谈不上如何实现这些量值的计量校准了。

然而，人工智能若被作为一门科学加以研究和发展，就需要探索其中的定义、范畴、领域、规律、规划，并对其进行符合性量化、差异性评估。没有计量手段介入，将无法细化和深化，很难进步和发展。若其被作为一种技术加以应用，其质量比较、完善程度、水平高低、效率高低、能力大小等，依然需要计量手段的衡量，以定量方式进行量化评估。如此才能给其应用提供指导、借鉴、参考和依据。

由此可见，不论是否艰难，以及距离当今的工作有多遥远，人工智能的计量校准一直是一个典型的客观需求。在未来的计量科学发展中，应该是主流方向之一。目前，还远未达到这一地步，仅停留在功能展示、竞技博弈、人机博弈等粗浅层面。例如：

1997年5月，IBM公司研制的深蓝(DEEP BLUE)计算机人工智能系统战胜了国际象棋大师卡斯帕洛夫(Kasparov)[17]。2016年以来，AlphaGo成为第一个战胜围棋世界冠军的人工智能机器人[18]。

2019年10月25至27日，中国智能机器人格斗大赛在杭州梦想小镇举办[19]，场面的热烈与火爆，恰恰说明了计量校准的缺失。

本文后续内容，将主要讨论人工智能的校准问题，试图将计量校准理念引入人工智能的计量评价中，从而寻求技术解决方式。

2 智能的有关阐述

智能，是智力和能力的总称[20]。其中，“智”是指进行认识活动的某些心理特点；“能”则是指进行实践活动的某些心理特点。可以认为，智是指认知世界的能力，而能是指改造世界的能力。

智能是一种多维度的范畴概念，哈佛大学的霍华德加德纳(Howard Gardner)的多元智能理论将其分为7个范畴：语言智能、数理逻辑智能、空间智能、肢体运动智能、音乐智能、人际关系智能、内省智能[21]。

其中，语言智能指能有效利用音(语言)、像(文字、手势、动作、图形)等表达自己的思想，并确切理解他人思想表述的能力，以及灵活掌握语音、语义、语法、语气，具备语言思维、语言表达、语言欣赏，并灵活运用语言的能力。

数理逻辑智能指可有效计算、测量、推理、归纳、分类，并综合运用的能力。其包括逻辑方式和关系、陈述和主张、功能及其它相关抽象概念的敏感性。

空间智能，指准确感知听觉、嗅觉、触觉、视觉空间及周围事物，并能将感觉到的形象以三维空间坐标图型方式表达出来的能力。其中包括对色彩、线条、形状、形式、气味、声音等的空间关系的敏感能力。

运动智能，指善于用全部或局部身体表述思想和情感，以及灵活制作或操作物体的能力。包括平衡、协调、敏捷、力量、弹性、速度、触觉等方面的能力。

音乐智能，指敏锐感知、识别和表达音调、旋律、节奏、音色及其变化的能力。该项智能强调的对节奏、音调、旋律或音色的敏感性，称为音乐天赋，包括表演、创作及思考音乐的能力。

人际关系智能，指能良好理解他人并与之交往的能力。包括觉察他人情绪情感、体会他人感觉感受、辨别他人暗示、以及做出相应反应的能力。

内省智能也表现为自认知能力，包括自我认知和自然认知。自我认知是指有自知之明，并据此进行行为规范的能力。包括自身的长处和短处、爱好、情绪、意向、脾气、自尊、独立思考的能力。

自然认知是指对自然界中各种事物的观察、体察、辨别、分类的能力。包括好奇心、求知欲、敏锐观察力、体会细微差别的能力。

从上述有关智能的7个范畴来看，目前的计量校准工作中，仅仅在声学计量的部分工作与语言智能有一些关联，几何量计量的工作与空间智能有一定关系。有关智能的计量校准，基本上呈现空白状态。其根本原因，是智能从总体上说，仍然属于潜在的能力，尚未形成任何实体或状态。而计量校准则一直面对的是能够看得见、摸得着、或感受得到的实体和状态，对于未能形成任何实体状态的潜在能力，无法使用计量校准手段进行直接计量评价。若想对其进行计量评价，则必须通过具体实体的变化，将其潜在的能力进行释放，然后，根据潜在能力释放的效果对其进行计量评价。

人工智能计量校准的工作之一，就应该是寻找出合适的各种状态变化的标准，并将其施加给相应的人工智能系统，以其对于不同智能范畴的标准状态变化的响应情况，定量评价其相应的智能水平。

3 人工智能的发展

人工智能是研究开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，是计算机科学的一个分支。它试图建造出一种能与人的智能相似的方式进行工作的机器。

典型的人工智能系统包括机器人系统、图像识别系统、语言识别系统、自然语言处理系统和各类专家系统等。它是一门交叉学科，是自然科学与社会科学的交叉。所涉及的学科包括哲学、数学、认知科学、心理学、计算机科学、神经生理学、信息论、控制论、方法论等[22～25]。

人工智能的研究范畴包括知识的定义、自然感知、智能搜索、机器学习、知识的获取、模式识别、知识的分类、知识的表述和管理、知识的组合调度、知识的运用，逻辑推理、规划、逻辑程序设计及计算，模糊管理、神经网络、遗传算法、复杂系统、人工生命等，以及计算机视觉、自然语言理解与交互、智能机器人等。

人工智能的本质被认为是对人的思维的信息过程的模拟。目前分为两个流派，一派为结构模拟，主攻仿人脑结构机制，希望构建出类人脑的智能机器。相应地，一些仿生算法、仿生研究属于此类。另外一派是功能模拟，不求内部结构和机理机制的相同，但求外特性相似，被称为工程学方法。它主要是通过一些形式逻辑原则，进行编程与推理计算实现，如文字识别、电脑下棋等，均属于该派别的成果。工程化方法要求逻辑严谨、推理正确、边界及全部条件已知或可控。故面对简单问题时效率很高，但面对复杂目标和任务时，程序复杂冗长，一旦考虑不周，则错误不可避免。仿生方法逻辑原则(即仿生原则)简单明确，通常就是逻辑加优化原则，边界条件和状态不必完全已知，但要经过长时间的结构及结构参数的学习优化确定，起点门槛较高，但后续维护成本较低，具有自学习、自适应、自完善特征。

人们也将人工智能分为强人工智能(Bottom-up AI)和弱人工智能(Top-down AI)两种。那些被认为有知觉和自我意识、并能真正推理和解决问题的智能机器系统，属于强人工智能范畴，也是人工智能的终极愿景。

弱人工智能观点则认为，机器永远不可能拥有人一样的自我知觉意识、推理和解决问题的能力，仅是表象看起来象而已。

例如，到目前为止，人工智能最重要的基础进展，是维纳(Norbert Wiener)从理论上证明了，所有智能行为都是反馈机制作用的结果[26]。其它方面，都是零散的、杂乱的。例如，人们开发出了机器视觉，用于指纹、人脸、虹膜等的识别；制造了机器手，用于抓取、搬运、移动物体；研发了语言识别系统、机器翻译系统，用于多种语言互译；研发了各类仿生算法，用于进行建模、推理、搜索和数据挖掘；发明了机器学习算法，用以进行知识和经验的积累。发明了具有自主运动控制系统功能的机器人系统，用以完成特定任务；研究了知识表示方法，并构建了常识知识库等。

尽管人工智能经过60余年的发展取得了很大进步，但仍然处于相对初级的阶段，与全面模拟人的智能的状态与水平相去甚远，多数情况下，仅仅是模仿人的某一方面的部分能力。纵观人工智能的发展历程，正是如此。

4 人工智能的计量评价

4.1 发展现状

由于人工智能所涉及的数理逻辑、机器翻译、智能控制、专家系统、语言和图像理解、自动程序设计等等，均属于计量范畴之外的事物，导致人工智能一直都游离于计量校准范畴之外，在人工智能中，人们需要计量校准什么？以及用哪些定量的指标来定量描述人工智能？均是尚无明确、统一共识的问题，此外，用哪些方法和手段计量校准人工智能的功能、性能、发展水平，是人们所极为关注的。

实际上，人们提到人工智能的计量校准，也是指对人工智能系统的计量校准，而非脱离了硬件系统之外的任何其它。

有关人工智能系统的计量校准，已经有了一些先期探索性的尝试。

美国国家标准技术研究院(NIST)于2019年5月30日举办了人工智能标准研讨会，讨论推动了联邦参与人工智能标准计划的制定，制定相应的开发技术标准和相关工具的计划，以支持AI技术的可靠发展。该类工作，将从定义和标准上推进人工智能的计量进程。

日本经济产业省的产业技术综合研究所在2015年5月新设立的人工智能研究中心AIRC(Artificial Intelligence Research Center)，研究范围包括AI算法(Algorithm)、大数据(Big Data)以及计算(Computing)，既涉及最基础的AI理论研究，也包括计算机视觉、自然语言处理等偏应用的研究，同时还有计算及设施的搭建。该类研究，将从公共基础方面推进人工智能的计量技术进步。

4.2 基础方式

由于人工智能的全部发展思想都是在模仿人的智能效果而展现的，其计量校准的基本方式，可以从人的智能的7个维度依次展开,即分别开展语言智能、数理逻辑智能、空间智能、肢体运动智能、音乐智能、人际关系智能、内省智能等的计量校准有关的定义、概念、指标体系、理论体系、方法体系、技术体系研究，设立终极愿景目标，以定量的计量结果和人工判据，给出计量结论。

针对语言智能的计量问题，定义和构建标准语言(语音、语气、语义、语法)知识库，建立标准指标体系，发展语言智能水平评价方法，以定量方式评价语言智能水平。

针对数理逻辑智能的定量计量评价，定义指标体系，确立逻辑运算法则，分类逻辑空间维度，发展数理逻辑智能水平评价方法，以定量量化方式评价数理逻辑智能水平。包括数据挖掘、知识积累、机器学习。

针对空间智能的定量计量评价，定义指标体系，分类空间维度，定义空间变换，展现空间变化态势与规律，发展空间智能水平评价方法，以定量量化方式评价空间智能水平。

针对肢体运动智能的定量计量评价，定义指标体系，确立肢体运动规则，分类肢体运动空间维度，展现肢体运动变化态势与规律，发展肢体运动智能水平评价方法，以定量量化方式评价肢体运动智能水平。

针对音乐智能的定量计量评价，定义指标体系，分类音乐维度，展现音调、旋律、节奏、音色及其变化态势与规律，确立评价准则，发展音乐智能水平评价方法，以定量量化方式评价音乐智能水平。

针对人际关系智能的定量计量评价，定义指标体系，分类人际关系维度，展现情绪情感、感觉感受、明示暗示、反应程度等变化态势与规律，发展人际关系智能水平评价方法，以定量量化方式评价人际关系智能水平。

针对认知智能的定量计量评价，定义指标体系，确立认知智能定量评价规则，分类认知智能空间维度，展现认知变化与规律。包括自身长处和短处、爱好、情绪、意向、脾气、自尊、独立思考的认知能力，好奇心、求知欲、观察力、细微差别识别能力。以及事物的观察、体察、辨别、分类能力。发展认知智能水平评价方法，以定量量化方式评价认知智能水平。

4.3 工程方式

由于人工智能的发展并非一蹴而就，而是由浅入深、由低到高的逐渐发展过程。相应地，其计量校准也可以遵循同样的规律进行，无需贪大求全，而是针对一个个具体的人工智能系统分别设计、构建、完善、发展。

例如，针对人工智能特征的机器手的计量校准，人们可以按照其愿景目标所涉及的指标，如抓握力值范围、空间移动范围及精度、移动速度及加速度、施放速度及加速度、运行轨迹及变化的复杂程度、自平衡性、自稳定性、复现能力、重复能力等不同方面的指标参数，以定量方式进行计量评价，最终给出总体结论。

针对具有行走智能的行走机器人的计量校准，人们可以按照愿景目标所涉及的指标，如走、跑、跳、翻腾，步幅、步速、步态，上下坡、上下楼梯、拐弯避障、崎岖路面等各种情况下的平衡性、速度及加速度、启停速度、稳定程度、摇摆角度、受干扰后的自我恢复能力、摔倒后自主恢复行走能力等各个方面性能，进行定量计量评价。

针对人机对弈这类人工智能系统，如深蓝(Deep Blue)、阿尔法狗(AlphaGo)，以数理逻辑推理见长，其计量评价工作，首先要评定和判断其是否适应和胜任目标工作，其次是在能胜任目标工作的前提下，针对确定任务目标完成所用的能效时间比，体现其智能水平高低。即在相同的时间下，计算所消耗的能量越少(运算步骤越少)，能效越高，智能水平越高；在能效相同的条件下，计算所用时间越短，智能水平越高。

针对机器视觉系统，以空间感知及表述为愿景目标，其计量评价工作，应首先使用一系列标准的模型，包括三维空间模型及场景，静、动态变化态势及规律。通过这些模型的识别及表述与真实状况的一致性及差异性，跟踪感知速度、加速度等，定量评价其智能水平。

针对各类目标明确而具体的专家系统，以其具体任务的愿景目标为特征对象，开展计量性研究，通过对其系统性技术指标体系，定量评价其智能水平。

5 总体计量

当存在两种以上智能时，人工智能变成了多元智能或多维智能，其计量校准将包括它们如何进行总体评价或综合评价问题。具体做法将包括不同智能的各自计量校准，以及面向不同具体目标任务时，不同维度智能的维度分类判别，加权合成，问题细化归类等各个方面。最后给出一个总体判断结果或总体结论性依据。即智能水平高低的单一化定量评估结果。最有可能的综合计量结果，将是针对某一具体目标任务时，在胜任目标任务情况下，其所花费的时间与能效之比。相同时间下，其能效越高，耗能越少，智能水平越高；相同能效水平下，所用时间越短，智能水平越高。

关于能效水平，对于具体任务目标的运算而言，使用折合成加法运算次数是一种可行的选择，运算次数多者显然能效水平低。

6 讨论

实际上，有关人工智能，一直存在几个有争议的问题：1) 人工智能能否被计量校准？2) 若能，则应校准哪些内容？3) 如何校准人工智能？何为标准？溯源到哪些基本量？4) 如何给出人工智能的校准结果？

首先，人工智能虽然称为智能，但也不是凭空存在的，一定需要一个载体。所以，人工智能的计量校准，实际上是指人工智能系统智能特性的计量校准。

斯坦福大学的Nils John Nilsson教授[27]曾经对人工智能做过一个定义：“人工智能是关于知识的学科——是怎样表示知识、怎样获得知识并使用知识的科学”[28]，是非常有道理的。怎样表示知识，包括进行一些基本概念的定义，一些基本的数学物理逻辑及其运算和演化法则，形成概念和数理逻辑法则库。另外有一些确切激励响应特性的因果关系模型，则作为知识被保留和表述，形成知识库。系统获得知识的渠道是从大量数据事件中分类、分析，筛选出具有明确因果关系的事件，并将其因果关系并入知识库，从而完成一次知识积累和智能系统学习成长过程。其知识库源于数据库，但又不等同于数据库。数据库庞大、原始、丰富，而知识库间接、小巧，便于高效快捷应用。知识的使用，主要是定义、知识库、数理逻辑的灵活运用。

人工智能系统的计量校准，既可以是针对明确而具体目标的外在激励响应特性的计量校准，也可以是上述内在特性的计量校准,包括其自身资源的计量评价：1) 主观自身的先天资源；如硬件资源，定义、概念资源，数理逻辑资源，因果关系知识库资源等；2) 通过学习获得并增加到因果关系知识库的累加资源；3) 综合、整合、应用知识资源的权重、法则、习惯、先进性评价；4) 主客观互动的适应性、应变能力(任务导航、制导特性，激励反馈特性)等的定量评价。这些内在特性，从内在方面体现了系统的人工智能水平。当然，其完整性实现难度更大些，更适合人工智能系统的研制者和生产厂家使用。其中，这些内在特性的计量评价，可能更需要首先对人工智能系统进行计量性设计才能实现[29]。

7 结论

综上所述可见，人工智能的计量校准主要指人工智能系统的计量校准，在良好的计量性设计前提下，可望通过人工智能的计量校准手段对其智能水平进行定量评价。除此以外，竞赛法则也是可行的评价方式之一，但不够全面和彻底，某一方面的单一优势即可能获得竞赛的优胜，但不能保证其它应用的效果良好。本文所述内容，是对于人工智能在计量技术发展的一种提示与期待，希冀适应AI的发展潮流，意在促进行业的发展和技术的进步。