李 琴, 韩永进
(天津大学 a.马克思主义学院; b.科学技术与社会研究中心, 天津 300072)
香农(Claude Shannon)[1]最早提出了信号传输博弈系统的概念. 学者对于信号传输博弈系统的研究较多集中在信号传输系统原理[2]、 意义的演化[3]以及复制动力学模型[4]等方面, 信号传输效率的研究相对较少. 刘易斯(David Lewis)的进化理论选择模型、 信号博弈模型、 强化学习模型[5]以及后期发展而来的演化动力学模型, 为信号传输博弈系统中信息破缺的存在, 提供了理论基础.
随着技术革命的发展, 信息传输方式发生了巨大变革. 互联网技术和人工智能的快速发展, 为人类提供更为稳定高效的信息传输方式. 然而, 信号传输博弈中仍存在信息破缺. 探讨信号传输博弈中, 信息破缺存在及减少的根本原因, 有利于进一步提高传输效率. 本文尝试以贝叶斯定理为基础, 对信号传输博弈系统进行研究, 为这一问题的解决寻找新思路.
信号是信号传输博弈系统必不可少的构成要素. 根据斯吉尔姆斯(Brian Skyrms)“信号携带信息”的推断, 信号是流动着的能量, 通过自然选择和信号博弈的作用, 逐步形成稳定的信号传输博弈系统[6]. 简单的信号传输系统包括状态、 信号、 行动、 信号发送者和信号接收者. 当信号发送者认知到自然界存在的状态, 发送携带信息的信号给接收者, 在信号博弈作用下, 接收者选择信号予以接收并且采取行动, 从而形成了简单的信号传输博弈系统. 随着生命体进化和信号博弈的演化, 发送者通过观察自然界存在的状态, 发出合适的信号并且进行编码操作, 形成约定形式. 然后, 接收者通过解码获得需要的信息, 进而采取合适的行动, 形成了包括状态、 信号、 编码、 解码、 行动、 信号发送者和信号接收者要素的复杂信号传输博弈系统. 简单信号传输博弈系统流程是状态—发送者—接收者—行动, 复杂信号传输博弈系统流程是状态—发送者—信号—编码—解码—接收者—行动.
信号传输博弈系统的传输效率可以按如下方式表示: 若一种行动对于一种状态是“完全适当的”, 则信号发送者和信号接收者得到报偿为1, “完全不适当”则为0, 不完全的情况在0~1之间游动. 当信号发送者将空间中存在的信号, 由一点传送到另一点, 两点之间信号的信息量、 内容量都按照一一对应的关系设计, 但在实践中不可能实现一对一的理想化目标. 因为两点间传播的信号, 不论技术系统如何完美, 也不可能将信号携带的信息的量和内容, 进行绝对一对一的传输. 即使是很先进的传输系统, 也不可能将信号携带信息的精度达到1. 而效率低下的传输系统, 其传输内容的精度也很难为0, 状态和行动的偏差被称为信息破缺. 据此, 信号传输系统存在着信息破缺, 其信号传输系统的效率是0~1的概率分布. 可靠性达到1的传输精度就像永动机一样, 是不可能完成的任务, 但尝试提高信号传输效率, 减少信息破缺的程度, 仍然是研究所追求的目标.
以往的研究发现, 动物种群在遇到不同捕食者时, 发送不同的报警信号, 其行为形成复杂信号传输博弈系统. 切尼(Dorothy Cheney)和塞法斯(Richard Seyfarth)[7]对安博塞利森林中的长尾黑额猴群的研究表明, 长尾黑额猴群面对不同类别的捕食者有不同的报警信号, 当其发现捕食者是鹰时, 发出一种“咳嗽”声; 当发现捕食者是豹时, 发出一种“咆哮”声; 当发现捕食者是蛇时, 发出一种“咔嚓”声. 而对于不同的捕食者会选择最佳的逃跑路线: 对于一只鹰, 他们会离开树, 隐藏在灌木丛中; 对于一只豹, 会选择上树, 躲到豹子追不到的地方; 对于一只蛇, 则站在高处, 扫视地面确定的蛇的位置, 以找到最佳的逃跑路线. 其策略组成内含发送者编码和接受者解码的过程, 非常接近复杂信号传输博弈模型, 如表1所示.
表1 策略组合
接下来, 通过控制变量法, 可以改变长尾黑额猴群所处的环境, 进而探究信息破缺所处的阶段和解决方案. 通过研究信息的选择、 传送和处理三个阶段, 分析信息破缺的存在性及信号传输效率提高的可能性. 第一个环节, 设置为信息的选择, 选取幼年的长尾黑额猴, 当出现报警警报时, 观察其所采取的行动; 第二个环节, 在信号传输系统的过程中, 研究信号博弈前提下信号传输系统形成的均衡状态; 第三个环节, 多次观察长尾黑额猴的行动措施, 观察信息破缺是否逐渐减少; 最后研究强化学习对信号传输效率的提高.
另一方面, 通过对长尾黑额猴群信号传输系统的研究, 可归纳出信号为咳嗽时, 信号接收者采取的行动是隐藏在灌木丛中. 但休谟指出, 归纳推理不能由归纳本身来辩护. 比如, 第一次长尾黑额猴群发送咳嗽信号给同伴时, 同伴采取隐藏到灌木丛中的习惯, 第二次仍是如此, 推理出所有时间长尾黑额猴群发送咳嗽声时, 信号接收者采取隐藏在灌木丛的行动, 其实只不过是一种心理认知, 归纳推理只不过是一切动物都具有的条件反射. 休谟认为, 研究不能从过去的成功来论证以后其还会成功, 因为这样的论证依据正是归纳本身. 尽管, 归纳推理的前提和结论不具有必然性, 但逻辑学家认识到他的前提和结论之间具有一定的概率. 当长尾黑额猴群采取正确的逃跑路线时, 逆推信息破缺程度对传输效率的影响, 符合以概率研究为中心的归纳逻辑分析思路. 其中, 贝叶斯定理分析方法, 是典型的由结果推原因的分析手段.
德雷斯科和斯吉尔姆斯均强调认识论应着重研究信息的流动问题. 斯吉尔姆斯研究发现, 信号携带信息的内容由自然选择和强化学习获得. 已有研究证明, 进化导致了信号传输博弈系统的形成. 通常, 在标准的动态进化下, 传输状态应以正概率形式进行演化. 但是, 通过自动力模型发现, 信号传输的状态是不完美的, 传输状态是一种区别于正态分布的不稳定随机事件.
刘易斯通过一个例子说明信号系统的建立: 假设你遇到了一片流沙, 你想要警告在你之后到来的那些人, 一个突出的信号就是放一个稻草人, 将稻草人的胸部插入到流沙中. 斯吉尔姆斯认为刘易斯关于稳定的信号传输系统的说法是不完全的, 并没有说明稳定的信号传输系统是如何形成的. 当我们说信号传输系统的信号时, 已经知道了他的意义, 因为比如稻草人的例子, 其已经暗示稻草人是我, 稻草人的下沉是潜在的我的下沉. 相反, 采用进化观点意味着, 我们不会调用任何常识、 知识来进行定义. 我们既不假设群体中的个体通过明确的协议达成约定, 也不假设他们具有预先存在的语言或博弈的常识. 实际上, 他们可能根本没有太多的知识. 自然界中无处不在的信号表明, 生命体的进化可能是造成信号传输系统形成的原因[8]. 进一步讲, 生命的进化和自然选择的过程, 其蕴含着信号的突变, 在动态选择的前提下, 信号传输博弈系统几乎很难形成完美的传输状态. 并且动力学研究也证明, 通信状态是不稳定的, 信号传输过程中信息破缺是信号传输系统中的持久缺陷. 因此, 在长尾黑额猴研究的信息选择的环节, 当出现报警警报时, 猴群起初是很难输出恰当的信号, 在进化和自然选择的过程中, 长尾黑额猴群逐渐形成信号, 通过信号流动进而形成信号传输系统.
信号博弈的过程, 是形成稳定信号传输博弈系统的必要环节. 信号传输博弈系统呈现映射现象. 假设信号1、 信号2映射行动1、 行动2, 当信号发送者发送信号1时, 信号接受者采取行动 1, 此时达到均衡状态(1, 1); 反之, 则为(0, 0). 信号发送者和信号接收者间存在信号博弈, 会出现信号多余, 信息破缺等情况, 其打破了信号和行动的映射状态[9]. 当信号多余的情况出现时, 一种行动可能对应多种信号, 假设多余的信号3对应行动1, 那么发送信号3时, 接收者采取行动1为最优策略选择.
当信号传输系统形成后, 信息在传输过程中, 信息破缺的问题又是如何减少?拉斐尔·阿吉诺托(Raffaele Argiento)指出了强化学习的作用. 罗斯(Alvin Roth)和埃里夫(Ido Erev)采用一种强化学习形式来解释受验者在实验中的实际行为[10]. 其思想可以追溯到心理学家赫尔斯坦(Richard Herrnstein), 基本模型的内容是, 选择一种行动的概率正比于从过去选择它所得到的累积总奖赏. 但同时也得出, 随着强化的累积, 个体试验能使概率发生的变化越来越小, 学习速度越来越放慢. 罗斯—埃里夫在信号传输系统中得到应用, 以双态、 双信号、 双行动为例, 100次实验后, 个体的成功率达到80%; 300次实验, 成功率达到90%. 学者对强化学习模型的研究集中在学习速度随迭代的增加, 但是在速度变化方面却忽略了, 尽管学习速度放缓, 其仍存在上升趋势的变化规律. 因此, 信号传输博弈系统在强化学习的作用下, 信息破缺问题逐渐降低, 传输效率逐渐由0趋近于1, 呈现出速度趋缓的上升趋势.
指数响应法则是改进的罗斯—埃里夫强化, 选择概率不再简单地正比于权数, 而是正比于Exp [λ*weight]. 其中常数λ控制响应概率中的噪声, 当λ接近0时, 噪声排除全部其他因素, 所有可能都是等概率的, 系统趋向于确定性选择的随机尝试; 当λ变大时, 指数响应法则倾向于挑选具有最大权数的选择; 当λ足够小时, 信号传输系统受噪声影响小, 容易形成稳定的信号传输系统. 对于这类型强化学习形式, 允许个体避免次最优均衡并获得高效的信息传递. 因此, 在信息传递过程中, 例如长尾黑额猴进行强化学习的过程, 能逐步提升行动的准确性, 有助于降低信息传递过程中存在的信息破缺, 从而提升信号传输效率.
在信号传输系统理论中, 现象是知觉的基础. 例如: 当第一次看到一个苹果, 首先认识到了这个苹果, 这是一种现象的展现. 当第二次再次看到苹果时, 动物以及人类对其有一定的印象, 感觉见过它, 这就是知觉. 然后, 将第二次的苹果与大脑中留存的苹果现象进行对比还原, 将其认定为苹果. 这便是在感觉和知觉的基础上形成的心智能力, 这也是信号传输系统形成的必然前提, 此时, 发送者以及接收者都对状态以及信号有一定的记忆、 判断能力. 信号传输系统的传输效率在0~1之间波动, 信号传输系统中信息的选择、 传送、 处理存在着信息破缺, 进化理论、 信号博弈理论、 强化学习模型, 为信号传输系统中不同阶段的信息破缺提供理论基础. 考虑到发送者与接收者选择信号与行动的概率具有一定的先验性, 以贝叶斯定理为代表的归纳逻辑分析方法, 利用先验信息分析信息破缺问题, 可以由结果推出原因, 即用逆推方式探究信息破缺对信号传输系统传输效率的影响.
贝叶斯推断统计与经典推断统计几乎同时诞生, 但贝叶斯推断统计是直到近100年才逐步发展起来. 贝叶斯推理问题是条件概率推理问题, 是关于条件概率的逆概率规则, 其中, 贝叶斯定理是贝叶斯推理的重要内容, 贝叶斯公式是贝叶斯定理的表现形式. 用贝叶斯定理研究信息破缺问题, 是一种由结果到原因的概率问题, 其可以分析信息破缺程度对信号传输博弈系统传输效率的影响.
贝叶斯派认为概率是认识主体对事件出现可能性大小的相信度, 反映了个体对某一事件出现的某种信念, 对任何事件的观察因为各自的先验知识而有各自先验概率. 因为信号传输系统涉及到信息的选择、 传送和处理, 如果结合生命演化过程中存在具有记忆与判断功能的心智能力, 对信号传输系统的传输效率分析引入贝叶斯定理, 那么增加了生命选择的合理性, 为形成稳定均衡、 经济高效信号传输系统的形成提供科学依据. 贝叶斯定理主要包含先验性概率和后验性概率, 侧重研究已有条件对未知结果的影响. 而经典概率分析传输效率问题忽略了动物以及人类存在的心智和记忆能力.
信号传输系统中, 利用贝叶斯定理进行分析的过程为: 在不考虑其他情况前提下, 假设信号传输博弈结果的效率均为99%. 也就是说, 当信号发送者发送正确信号, 信号接收者采取对应正确的行动的概率为99%. 而信号发送者发送错误的信号, 信号接收者采取错误的行为的概率为99%. 从博弈结果看, 信号传输博弈的最终结果是比较准确的, 但是贝叶斯定理的应用却可以揭示一个潜在的问题: 已有先验信息对信号传输博弈效率是否有必要影响?假设最初信号发送者发送正确信号的概率为1%, 那么, 采取正确行动的信号接收者, 接收到信号发送者发出的正确信号的概率又有多高呢. 信号发送者发送正确信号的概率, 对信号传输博弈效率的影响又如何呢?换句话说, 当稳定信号传输系统形成时, 信息破缺对传输效率影响如何?
此次研究只以信号与行动的关系研究为例, 令“D”为信号发送者发送正确信号事件, “N”为信号发送者发送错误信号事件, “+”为采取正确行动事件. 假设P(D)代表信号发送者发送正确信号的概率, 不考虑其他情况, 则该值为0.01. 因为预计信号发送者发送正确信号的概率为1%, 所以这个值就是D的先验概率. 假设P(N)代表信号发送者发送错误信号的概率, 显然, 该值为0.99, 也就是1-P(D). P(+/D)代表信号发送者发送正确信号, 信号接收者采取正确行动的概率, 这是一个条件概率, 由于信号发送者发送正确信号, 信号接收者采取正确行动的准确性为99%, 因此该值为0.99. P(+/N)代表信号发送者发送错误信号, 信号接收者采取正确行动, 也就是信号博弈过程中出错的概率, 该值为0.01. 因为对于信号发送者发送错误信号, 其信号接收者采取错误行动的概率为99%, 其信号接收者采取正确行动的概率为1%. P(+)代表不考虑其他因素影响的信号接收者采取正确行动的概率, 该值为1.98%. 推理过程如下:
(1)全概率公式:
P(+)=P(信号发送者发送正确信号时信号接收者采取正确行动)(1%×99%)+P(信号发送者发送错误信号时信号接收者采取正确行动)(99%×1%)=0.0198,
(2)信号接收者采取正确行动的先验概率:
P(+)=0.0198
(3)数学公式表示为:
P(+)=P(+/D)P(D)+P(+/N)P(N)
(4)根据上述描述, 我们可以计算信号接收者采取正确行动时, 信号发送者发送正确信号的条件概率:
P(D/+)=
尽管信号发送者发送正确信号, 接收者采取正确行动的概率很高, 但是我们只可以得出以下结论: 如果信号接收者采取正确行动, 那么此时信号发送者发送正确信号的概率只有50%, 也就是说信号发送者发送错误信号的可能性也比较大. 我们考察的条件(研究中指D, 信号发送者发送正确信号)越难发生, 发生误判的可能性越大. 但如果让信号发送者再次纳入研究, 相当P(D)=50%, 为信号发送者发送正确信号的概率, 替换了原先的1%, 再使用贝叶斯定理进行计算, 将得到信号接收者采取正确行动时, 信号发送者发送正确信号的概率为99%, 以此下去, P(D/+)=0.9999远远超过信号博弈的检测率.
从以上逻辑推理可以发现, 已有先验信息对信号传输博弈效率的提升有着显著的影响. 当最初信号发送者发送正确信号的概率越难发生, 那么, 采取正确行动的信号接收者, 接收到信号发送者发出的正确信号的概率就越低, 信息破缺概率也越大, 信号传输系统传输效率也越低. 同时, 提高信号发送者发送正确信号的概率, 可以提高信号传输博弈效率. 结合信号传输系统中信息破缺的理论基础, 包括贝叶斯定理以及罗斯—埃里夫强化学习理论和指数响应法的理论基础可知, 在动物存在心智能力的前提下, 重复性学习带来的先验知识以及强化学习形式, 可以有效地提高信号传输系统的效率. 进一步说明, 随着人类的发展, 先验知识和强化学习对信号传输博弈系统的影响越来越大, 为理解信号传输博弈系统的发展提供了新思路.
在信号传输博弈中, 信息的选择、 传送和处理存在信息破缺. 信息破缺严重影响信号传输效率. 进化理论、 信号博弈模型、 强化学习模型为信息的选择、 传送和处理存在的信息破缺提供理论基础. 以贝叶斯定理为代表的归纳逻辑, 可以结合动物的心智能力, 以结果倒推原因, 可以得出当信号发送者发送正确信号的概率越难发生时, 采取正确行动的信号接收者, 接收到信号发送者发出的正确信号的概率就越低的结论. 换句话说, 信息破缺的概率越大, 信号传输系统的传输效率越低. 据此, 重复性强化学习, 先验知识的获得, 对于提高信号传输系统的效率具有显著作用.
在信号传输博弈中, 如果使用电话或者视频通信技术, 两端的人充当着信号发送者和信号接收者, 此时信号传输的失误率已经降到了很低. 这既是技术进步, 也是对先验知识的进一步应用. 但是信号传输系统过程中的信息破缺不可避免, 通过强化学习以及充分利用先验信息, 可以有效地提高信号传输效率.