学贯中西(10)：从RL领会如何与不确定性共舞

2022-05-30 10:48高焕堂

电子产品世界 2022年8期

高焕堂

1 前言

在上一期里，我们说明了当人类的慢想（创意）与AI的快思（直觉）互相平衡时，最能展现协同创造力。有了AI经验直觉来协助去芜存菁，人类更敢超越经验去进行大跨度的联想和探索。

这样的协同组织体系，非常适合与高度不确定的外在环境（Environment）互动，并从外在环境获取最大的回报。这是自然界生物（有机体系）的天赋学习本质，非常接近于AI强化学习（Reinforcement Learning，简称RL）机制。例如，AlphaGo Zero增添了RL，就具有更强大的探索能力，能够在不确定性极大的围棋上打败人类的顶尖高手，如图1。

本文就藉由RL来说明上述的协同创新力，如何表现于不确性环境里的决策，也进一步阐述其探索全局最优解（Global optimum）的思维过程。

2 认识强化学习

强化学习（RL）是机器学习（ML）的一种模型，它是来自于近似动态规划（approximate dynamic programming，ADP）的算法。它的主要特点是：能在探索（在未知的领域）和利用（现有知识）之间找到平衡。

探索（Exploration）就是：尝试以前从未做过的事情，以求获得更高的报酬。而利用（Exploitation）就是：做当前所知能产生最大回报的事情。

例如，假设您的住家周边有十个餐馆，而您只去过八家餐馆吃饭，而有两家还没去消费过。基于过去的经验，您了解这八家餐馆中的哪一家的是最实惠又好吃的。如果有一天，您的好朋友来访，您想请他去最棒的餐馆吃饭。那么，您会如何选择出最棒的餐馆呢？

此时，方案一是：利用。就是利用您既有的知识经验，从您经历过的八家餐馆中挑选出一家最棒的餐馆。另外，方案二是：探索。就是您选择没去过的两家（即第九家或第十家），一起去品尝新的滋味。

如果您采取方案一：带他去八家中最棒的餐馆吃饭。那么如果第九家或第十家比这八家都更棒，就失去最好的了。反之，如果采取方案二：带他去第九家或第十家餐馆。那么如果这两家并不如前八家好吃，就得不偿失了。

这是有趣的不确定性情境，就是通称的<探索-利用>困境（Exploration-Exploitation dilemma），我们该如何与他共舞，来做最具智慧的抉择呢？此时，强化学习将让“探索”和“利用”两者取得最佳的平衡。

3 “局部最优”与“全局最优”

“利用”就是：做当前所知能产生最大报酬的事情。例如，刚才提到的，从您经历过的八家餐馆中挑选出一家最棒的餐馆。这样的缺点是，常常受限于（现有知识），只能获得区域性最优（Local optima）方案。传统上，人类的学习偏重于“利用”所学的知识，去发挥所长，追求很有把握、很可能（Probable）的方案，并从中挑选一个最高报酬的解，如图2。

“探索”就是：尝试、探索以前从未做过的事情，以求获得可能的更高报酬。例如，刚才提到的，选择没去过的两家（即第九家或第十家）餐馆，可能比前八家更美味、好吃。然而，生物有机体系还有一种本能，去探索一些不太确定（Improbable）的方案，然后挑选具有更高报酬的解，如图3。

AI强化学习很接近这种生物学习的本质，在探索未知领域和利用现有知识，两者之间找到了最佳平衡，来获得全局最优（Global optima）方案，如图4。

目前，人类已经把这种“探索-利用”最佳平衡的技巧（算法）教给了AI机器，让AlphaGo Zero超越了人类的围棋顶尖高手。如果人类也能从AI强化学习得到启示，强化探索能力，则人人能探索更多可能（Possibility），得到更多机会（Opportunity）。

4 面对不确定性（Uncertainty）

不确定性的环境中，蕴含者各种可能性（Possibility），也将给探索者带来许多机会（Opportunity）。就如同西方的谚语：“When you focus on problems， you get problems. When you focus on possibilities， you have more opportunities.”（当你专注于问题时，会引来更多问题。当你专注于可能性时，你会有更多的机会。）

于是，我们就来关注可能性和机会。其中，“可能性”包括了：1）很可能（Probable）；2）不太确定（Improbable）。其中，“不太确定”又包括：2a）可能（Possible）；2b）很不可能（Impossible）。如图5所示。

对于所面对的不确定性环境中，所带来的可能性和机会，进行分门别类之后，就来采取“剪枝”策略、进行“去芜存菁”的动作，也就是：把不可能的部分删除掉，如图6。

这里的“去芜存菁”动作，可以大幅将低风险。因为懂得避风险，才敢大胆探索。AlphaGo也擅用“去芜存菁”策略，来缩小探索“空间”，提高探索效果。例如，AlphaGo的目标就是将获胜机率最大化放在第一位，它的奏效策略是搜索途径来实现最低风险下的获胜机会。AlphaGo常常会倾向为了取胜而放弃更多赢子数，其目的是为了降低不能取胜的风险，以便提高胜率。即使是很小的差距仍会纳入谨慎考虑。例如，当AlphaGo面对“赢3子，90%胜率”和“赢1/4子，95%胜率”两种情况时，它会倾向选择后者，力求降低风险。

去芜存菁之后，留下的部分，俗称为：甜心区（Sweet spot），如图7。

孙子兵法上也强调：不打没把握的仗。股市名家巴菲特也强调：不赔钱原则。都是说明面对不确定时，重视降低风险，来提高勝率。

5 与不确定性共舞（Living with uncertainty）

兹拿一个童话寓言故事，来综合前面所述的内涵。有一只小狮子肚子饿了，走到附近的草原上，依据成功经验和熟练的技技巧（战术）奋力去追小兔，填饱肚子。一日复一日，它发现捕获的兔子日渐减少（可能兔子变敏感了），有些困惑（心生不确定性），回到家就問妈妈。狮子妈妈就教这小狮子，妈妈说：“你肚子饿了，就眼睛闭着，睡大觉，不要乱跑。”

小狮子满脑困惑，不确定感急速上升，非常不安。但母命难违，只好勉强为之，果然耳朵变灵敏了，清晰听见兔子声音愈来愈近，然后猛然奔出一抓，轻易捕获，饱食一餐，继续睡大觉。君不见，身为野兽之王的雄狮母狮，常常看似想睡觉的表情。

然而，小狮子关注于肚子饿（focus on problems），却引来更多问题（more problems），如追累了，走不动，引来生命危险等。而狮子妈妈则教小狮子不要围绕问题，勇于抛掉无用的战术，力求与不确定性共舞。因而发现更多机会（more opportunities），如兔子自动送上门来。