包研科,汪培庄,郭嗣琮
(辽宁工程技术大学 智能工程与数学研究院,辽宁 阜新 123000)
自1982年汪培庄[1]提出因素空间(factors space,FS)理论,时至今日,35年来理论与应用的发展,充分展示了FS理论在解释随机性根源和概率规律的数学实质,融合随机数学与模糊数学的技术方面思想的深刻性,奠定了FS理论作为知识工程的思想框架的地位。
FS理论的早期成果可见汪培庄文集[2]。1994年汪培庄、李洪兴合著[3]《知识表示的数学理论》一书系统地论述了FS理论在知识获取、知识表示、知识管理和知识利用方面的数学思想与原理。《模糊计算系统与模糊计算机》[4]及其相关的工程实践标志着FS理论与智能工程设计理念的完美结合,其中给出的概念内涵和外延相互转换的可操作方法,实现了决策树算法和粗糙集算法没有实现的“双向转换的目的”。其后,李洪兴[5]关于《因素空间理论与知识表示的数学框架》长达5年的系列讨论,不仅推进了FS理论的发展,也奠定了FS理论在知识发现与智能工程领域广泛应用的基础。袁学海[6-8]从范畴论的角度对FS的结构问题进行了深入讨论;在FS理论的应用方面,刘增良[9-13]在因素神经网络技术,军事信息战与网络战领域的研究成绩斐然。此外,基于FS理论的专家系统[14-15]、多传感器决策融合[16]、控制仿真[17-19]、模式识别[20-21]、安全科学[22-24]等应用领域的研究,体现了FS作为智能科学的数学空间理论的价值和发展前景。
在KDD问题的研究中,1998年何清[25]讨论了基于FS和模糊聚类的概念形成方法,2013年汪培庄发表《因素空间与因素库》一文[26],推动FS理论在KDD领域的应用。近年来,关于FS与数据科学的关系[27],基于FS理论的分类算法[28-29]、文本挖掘方法[30-31]等相关研究也有一定的进展。
FS理论生根于数学,反映认识论特点,是KDD和概念格生成的一种自然有效的数学方法。然而,早期奠基性工作建立在模糊数学的基础上,融合了随机数学和抽象代数的思想、方法和语言;FS理论的高起点在保证数学严谨性的同时,也为其普及推广树立了一道屏障。FS的经典定义可见文献[3],此后的理论与应用研究基本上遵循了这一定义的思想和描述。近年来,随着FS领域应用和教学的深入,出现了对FS定义的领域适应性描述和扩展[32-33]。2013年汪培庄在讨论FS在数据科学中的应用问题时,对FS的定义进行了修正[26]。
为能够相对通俗地诠释FS理论的基本思想和原理,2015年包研科[34]基于认知本体论原理,梳理了FS理论中的基本概念和术语,给出了有别于FS经典定义的描述。这一描述充分体现了汪培庄“因素是分析的维度,是变异的指标和变量名称,是矛盾的编码,是事物形成和描述的基因。以因素为轴所张成的坐标空间就是因素空间,它为事物描述和思维形式提供了普适性的坐标框架”[27]的论述精神。文献[34]对FS的定义,最大的变化是对因素的顺序关系、算符的意义给出了符合认知本体论原理的描述,形式上同经典定义有所不同,并再次触发了对FS结构问题的思考。
本文的工作是文献[34]的延续,进一步讨论FS的结构问题。
为方便对本文工作的理解,作为预备知识,简要介绍文献[34]中给出的原理、概念与术语、公理和关键命题,部分内容笔者根据近期研究予以必要的重述。复述与重述不做标识,有需要了解期间变化的读者可同文献[34]进行比对。
因素是认知工具,因素分析应遵循认知本体论原理,因素空间的结构应体现和摹写人类自身的认知结构与思维运动规律。
认知由概念表达,概念是人类思维体系中最基本的构筑单位。概念通常由内涵与外延两个逻辑术语表达。内涵往往采用“上位概念+本位属性”的逻辑形式描述,而外延则是概念所描述的事项的集合。
认知形成的标志是概念的形成,其间的思维运动,主要由分析和综合两种思维方法构成。分析的信息加工与处理技术是解析,实现方式是将事物拆分为更小的单元进行管理和研究,或者表述为“发现事物的个性特征”。综合的信息加工与处理技术是概括,实现方式是将一些具有相同属性的事物归纳为更大的单元进行管理和研究,或者表述为“对事物的一类属性进行综合”。
对一个概念的解析称为概念分化,是下位学习。对一些事物的共有属性进行概括,利用学习者已有的认知结构形成新的概念称为概念同化,是上位学习。
在认知科学的基本概念与原理的基础上,关于FS的认知本体论原理,本文吸收了冯嘉礼[35]关于《思维与智能科学中的性质论方法》的一些思想原理,参考了文献[36]的讨论。后续关于FS数学结构的讨论遵循下列认知本体论原理:
1) 一个因素总是特定论域上的因素,离开论域谈论因素是没有意义的。更进一步,一个因素总是特定论域上特定问题的因素,离开问题无从讨论因素的认知功能。论域、因素和由因素形成的关于问题的认知结果构成一个特定的思维空间。
2) 概念的分化与同化动态平衡。在概念形成过程中,思维在解析与概括的交替运用中发展。解析强化内涵知识,促进概念分化;概括丰富外延认知,促进概念同化。在这个过程中,内涵与外延存在反变关系,即内涵扩张必然减小外延,反之内涵缩减将导致外延扩张。一个概念的形成,是一定认知阶段上分化与同化的暂时平衡。
3) 概念的内涵与外延对合,即内涵与外延所描述的事项一致。在概念形成过程中,解析与概括之间的差异是思维的技术性差异,不同技术产生的信息在思维运动中以概念的内涵与外延对合为目标纠缠运动,辩证统一。
基于认知本体论原理的FS的基本概念、术语和符号约定如下:
1) 论域是一个关于问题的本体论研究对象的非空可列集合,记为。因素是定义在论域上的一个满映射,记为式中:集合称为的相空间(寓意必须考虑映射像的分布特征),描述论域上的一类本体论性态。
约定两个特殊因素:
差运算的目的是“从一个因素中排除另一个因素的干涉效应”,记为,定义为
约定如下两个公理:
在前述概念(定义)和两个公理的基础上,可以证明下列命题:
在不引起误会的场合,不必刻意区分FS和CIS的不同,即一个因素空间既是一个完备信息系统。
引进CFS的目的是方便描述结构化数据分析问题。文献[34]中讨论了因素概念的外延,随机变量是基本的数量化因素。若有限个二阶矩随机变量各自有不同的概率分布,则BF,于是就是一个结构化信息系统。CFS在结构化数据分析的应用中,只需将样本空间理解为论域,而代数等价于(S),相应概念的对应关系可作如下约定:
相应的,信息系统
CFS的概念有助于FS分析方法与技术体系的建构,有助于理解因素空间同概率空间、希尔伯特空间和张量空间的关系。
前述讨论是对因素空间宏观结构的一种公理化诠释,其意义在于为信息系统分析提供了一个统一的语境场。
通常认为,格是认知描述与形式概念分析理想的代数系统[2,36]。
本文引进格上的交错自同构变换和回旋格的概念,然后给出FS对偶回旋定理,构成对FS代数结构的新认知。
下面诠释格上交错自同构变换的几何意义。
若将式(1)理解为一条定宽的纸带,从左到右摹写式(1)中的格层与偏序关系,最左端为0,最右端为1。
记为
图 1 回旋格的几何构型Fig. 1 The geometry of convolution lattice
上述结论的建立,数学原理基于认知原理,遵循概念内涵与外延的对合性与反变关系原理,因素解析能力的大小主导因素的序关系,偏序格受顺序公理、对合定理、反变关系定理和排序定理的影响,同数学上经典的偏序格不尽相同。因此,在代数格中,虽然形式运算性质同数学经典的代数格描述一致,但内在运算机理有所不同。
1) 将因素大小的定义
变异为
2) 将顺序公理
变异为
在上述3个约定下,需要系统的修改、重述1.3节涉及序关系的命题,其他命题形式不变。修改后的相关命题如下:
认知本体论的解释:命题2’由命题2描述概念内涵与外延的反变关系转变为描述对外延的限制。
认知本体论的解释:命题7’和命题8’修改了序关系与代数运算的联系规则,将因素固有的概括功能从“隐性”表达转变为“显性”表达。
综上所述,得到下面的定理1。
因素是认知工具,FS是认知科学的数学模型。有别于Boole代数,FS的本质在于其回旋性,反映了概念形成过程中分化与同化的双向统一性,具体地讲:
1) FS的回旋性反映概念内涵与外延的对合性。在论域上,最小元形成完全概括性认知,最大元形成彻底的个性化认知。因此,在对论域形成的终极认知即“论域中的每一个对象都是不同的个体,同时所有对象又是一个整体”的意义上,因素和是等效的。在解析过程中,零因素是析运算的单位元,也是合运算的零元。反过来,在概括过程中,全因素是析运算的零元,也是合运算的单位元。当终极认知形成之时,必有。
2) FS的回旋性反映概念内涵与外延的反变关系。这种反变关系在实际的认知过程中,往往表现为概念的分化与同化的纠缠,对于理解一个事物而言,究竟是概念分化多一些好,还是同化多一些好?概念的分化与同化的纠缠,反映概念形成过程中因素的解析力和概括力交互作用的过程。从论域为一个整体的角度,解析导致“论域划分”,破坏整体性;从论域中对象的个体性出发,概括是在论域划分的基础上重构整体性。同理,从“属性限定”揭示一类事物共同特征的角度讲是概括;而从概念的结构、即“属性限定”为概念分化技术的角度讲是解析。在认知过程中,概括与解析各具所长,往往交互作用,殊途同归。由因素认知一个概念不外乎借助因素的解析力和概括力,辨识概念的内涵(属性限定),界定概念的外延(论域划分),并使两种过程形成同一认知。
在FS中,因素运算的认知性质由解析力主导,准确地揭示了概念的内涵与外延的反变关系。但是,概括力的隐化导致因素操作的代数性质同经典Boole代数理论中的部分运算性质形式不同。这种情况恰是FS的价值所在。由因素描述的认知过程中,概括和解析不是两种截然分开的过程,仅仅是间或性的哪个表现更强势一些,解析能力的提升(降低)导致概括能力的降低(提升),总合觉察力不变。
本文工作对文献[34]的核心概念进行梳理,简化了公理性约定,凝练并重述核心命题,承接前期工作的理论与思想。着眼因素空间的理论与方法在信息科学领域的应用,重述因素空间的定义,提出了自为因素、可基因素族、完备因素空间和正则因素空间的概念,初步地、明确勾勒出因素空间与信息系统之间的关系。
本文对FS理论的贡献在于交错自同构变换、回旋格和对偶回旋定理,突破了经典论述关于FS结构的认知,为认知科学讨论若干基本概念之间关系和思维运动的问题给出了可借鉴数学模型,为FS理论在人工智能领域的研究与应用提供了新的切入点。
据此,本文对FS理论与应用研究的展望如下:
1) 进一步构建FS理论“四位一体”的思想框架。在本文的讨论中,一个中心思想就是“人工智能是人类认知模式的数学重构”,在这个过程中,关于人工智能的数学思想、原理与算法必须同人的认知模式高度契合,理论研究的思想框架必须同人类问题解决过程中的思维场高度契合,并同机器实现的技术特征高度契合。这一思想暗涵于本文之中,可以想象在以(U)为顶点的四面体中,底面(U))表示因素分析理论,侧面(U))表示商空间理论,侧面(U))表示张量分析理论,侧面表示数据分析理论,每个棱表示两个顶点之间的双向信息通道。这个四面体构成完整的FS理论的思想框架。
2) 发展基于FS对偶回旋定理的因素分析技术体系。本文发现的FS对偶回旋定理,明确了因素空间中信息的运动过程存在麦比乌斯环特征。佩捷、王兰新在《从麦比乌斯到陈省身——麦比乌斯变换与麦比乌斯带》一书中,较为系统地介绍了在代数几何、拓扑学的研究中发现的麦比乌斯带有趣的性质。麦比乌斯带的存在源自实数域R的乘法群R*的不连通性,这一性质更深刻的等价描述如下[37]:
另外,格代数与麦比乌斯代数存在天然的联系[37-40]。
这表明,从纯数学的角度看,FS对偶回旋定理所描述的数学性质以不同的形式存在已久。但是,本文再发现的过程却贯通了认知科学与数学深刻的内在联系,巩固了FS理论作为人工智能研究的思想框架和认知科学研究的数学模型的地位。众多的文献给出了麦比乌斯变换群在其他数学分支,如数论、组合数学、微分几何、黎曼几何、罗巴切夫斯基几何、模与丛论中的应用,以及在图像处理领域、通信科学、密码学、量子物理学、遗传生物学、有机化学、乃至机械与工程领域中的应用,无不昭示着FS对偶回旋定理潜在的理论与应用价值。