大数据与人机对话:语必在言的集合里选取

2019-09-13 03:38邹晓辉王肖群邹顺鹏
计算机应用与软件 2019年9期
关键词:信息处理人机广义

邹晓辉 王肖群 邹顺鹏

1(中美塞尔研究中心学科组 北京 100871)2(北京大学教师教学发展中心 北京 100871)3(中美塞尔研究中心高教组 北京 100083)

0 引 言

本文的目的是介绍一种必须涵盖所有言语(话语或术语)的新方法。因此,人们学习说话的教育过程就像在语言的超级棋盘或形式化字符组成的单词矩阵中做出各种选择。

从背景知识来看,最接近大数据技术应用前沿和教育教学前沿的前沿科技可从最典型的应用实例[1-3]开始,这是普通教师和学生的捷径。我们不能从学术前沿的最新探索开始[4-9](否则大多数教师和学生将撤退),围棋软件击败人类的职业国际围棋选手(甚至横扫欧洲和世界冠军)仅依靠基于大数据的新一代人工智能,涵盖了基于统计的机器学习[10]和基于神经网络的深度学习[11]。对于普通人甚至大多数专家来说这些都是不可想象的。如何将这些大数据(前沿技术)与教育(日常教学)联系起来(制作出原创成果),对许多大学教师来说是一个巨大的挑战。因此,本文从最简单的算术二进制数和语言(仅以0和1两个单音节符号作为基本成员)开始,回到图灵机[12]、图灵测试[13]和塞尔中文屋[14-15],及最新的间接形式化方法和间接计算模型[16]。新近发现并且宣布的形式化理解模型的一系列基本原理[17],探讨适合不同学科知识背景的两大类形式化方略[18],是另一种方便的大数据处理方式(相当于流行的基于统计的机器学习),基于神经网络的深度学习,可以在这个干净的云平台上发挥更好的作用(例如,做大数据采集、存储和分类计算或统计,都更容易)。最重要的是,教师和学生能够尽早开始参与“教育、管理、学习和应用”结合的社会化系统工程[19]。比较围棋和数字化字符棋即双字棋的异同,这是本文选择实现其目标的方式。

1 大前提与大趋势

首先构建语言集合即字符棋盘或形式词汇表;然后,通过人机交互协作,生成大量的言语(话语或术语)大数据,涵盖代表知识本体的话语和术语;最后,通过机器学习和人机交互过程,比较、查询或重用这些话语或术语。它们共同遵循的基本原理和形式化理解模型,这是其大前提。上述三个步骤涉及的则是其一系列具体的小前提。

1.1 形式化理解模型

图1为三种形式化理解模型及各自的特点。模型A是在两个相同的图灵机之间建立全等关系,其统一的输出输入基础是二进制数及其变体均遵循序位逻辑而可物理实现的测序定位法则。模型B从数字系统扩展到符号系统(广义文本的基本单位),它们仍在两个相同的图灵机(数字计算机)之间运行,所不同的仅仅是广义文本的符号系统虽然也只是人机之间的转换,但是,其所遵循的规则增加了用户协议,至少涵盖两套形式信息和内容信息,在同意和不同意的理解方式之间由于主体的介入而存在差异。模型C只是对汉字系统进行间接正式化理解,可视为前者的收敛模型。必须特别说明的是三类模型都只是形式化理解模型(仅仅涉及棋法、棋盘和棋子的测序和定位、计算和统计,不涉及对“是什么”和“为什么”的解释,而只涉及怎么做暨形式化理解模型作为人机操作工具如何发挥其作用的特定角色含义,一句话,物理与数理一致)。

图1 ABC三类形式化理解模型

第一组选择是由一个用户(通常是专家)与系统交互过程中设订的(不排除基于统计的机器学习和基于神经网络的深度学习也介入其中)。随后可由机器识别进行相应的重复选择(其关键是:如何明确告诉机器如何为用户做出特定的选择)。机器可以进行基于统计的学习、分析和形式化理解和基于神经网络的深度学习。也就是说,可开发基于统计的机器学习软件以及基于神经网络的深度学习软件植入其中的相应部分,基本前提是拥有大数据和相应的计算资源及硬盘存储空间。该形式化理解模型有别于以前的现有信息处理范式,可以看作是大数据介入之后的新一代人工智能的形式化解释。为此,有必要回顾信息处理、人工智能和大数据以及它们之间的相互关系及其发展变化趋势[20]。

1.2 信息处理、人工智能和大数据的趋势分析

以下是以论文发表的主题信息处理、人工智能和大数据三方面做的三类可检验的调查结果及分析。

(1) 第一类可验证的结果及其分析。图2为信息处理(IP)主题研究的发展变化趋势。从标题包含信息处理这一主题词语而发表论文的数量及其发展变化趋势,以及每年发表的论文数量,可以看出1960年是一个起点,而2016年则是一个具有很大波动起伏的转折点。它究竟是怎么回事呢?如果孤立来看,是很难解释得通的。尽管如此,人们还是可从图2所示IP趋势及其对应的年份和发表的代表论著的研读来做判断。如果没有人工智能(AI)和大数据(BD)的相继发展,那么,人们也就只能根据图2所示IP趋势做与其相关的一系列研究了。但事实上,不仅有人工智能(AI),而且还有大数据(BD)的发展和相继伴随。

图2 信息处理(IP)发展变化的趋势

(2) 第二类可验证的结果及其分析。图3为人工智能(AI)主题研究的发展变化趋势。从标题包含人工智能这一主题词语而发表论文的数量及其发展变化趋势,以及每年发表的论文数量,可以看出1978年是一个起点,2016年则是一个十分明显而巨大的转折点。图3与图2的表现有巨大的反差。基于此,我们发现以往人工智能(AI)主题研究的发展变化曲线长期走低的可视化表现;还发现以往信息处理(IP)主题研究的发展变化曲线的一路逐渐高涨的可视化表现(虽然也有些许波动)。但是,令人费解的是:为什么IP曲线和AI曲线都在2016年不约而同地出现了大转折点?

图3 人工智能(AI)发展变化的趋势

(3) 第三类可验证的结果及其分析。图4为大数据(BD)主题研究的发展变化趋势。从标题包含大数据这一主题词语而发表论文的数量及其发展变化趋势,以及每年发表的论文数量,可以看出1985年是一个起点,2012至2016年出现了几个转折点。此时我们把BD曲线与前面的IP曲线和AI曲线放在一起来观察,可以发现2016年是一个大转折点,它在IP曲线、AI曲线和BD曲线的走势十分接近。

图4 大数据(BD)发展变化的趋势

1.3 大前提与大趋势的关系

只要认真观察IP曲线、AI曲线和BD曲线的走势变化就可发现它们的异同。回顾信息处理(IP)和人工智能(AI)及大数据(BD)这三大科技领域的发展历程,就不难发现相应的这三条发展变化曲线蕴含的深刻意义。

形式化理解模型与上述三方面的发展变化趋势有怎样的相互关系,是以往的科学范式及其配套的形式化技术忽略的。新的科学范式及其配套的形式化技术虽然已经公开,但是,其推广和普及还需要时间。

2 三个步骤的聚集

从图5可以看出,美国信息交换标准码(ASCII)是基于小字符集,而国际统一编码(Unicode)覆盖了采用统一字符编码标准(GB)的大字符集,对双字节字符进行编码,仅限于狭义的文本范围。本研究中的中国标准(Z)指广义文本(字符、公式、图形、表格、声音、图像、立体、活体)。因此,信息处理的新旧融合标准(Z-ASCII)是中美融合标准,它涵盖所有类型的狭义和广义的文本及其(直接和间接)形式化表达的元素。构建全球语言定位系统(GLPS)的广义文本语境是其最终目标,含跨&多学科(领域或行业)的全球知识定位系统(GKPS)。这就为形式化理解模型及其实际应用奠定了坚实的基础(特别是在人机交互智能系统的背景下)。

图5 信息处理新旧标准(Z-ASCII)[21]

用以下三个步骤的聚集可衔接GLPS与大小前提:

(1) 基于孪生图灵机(具有自动学习能力和形式化理解能力的新型智能机)的发现和发明,构建一对数字棋盘。例如:字符的智能化文本分析示例,英语的词形式组合的智能化文本分析示例。由此可显示人际和人机的双重形式化方略的协同机制。

这不仅揭示了语言学和语言哲学通过间接形式化途径如何进入语言科学殿堂的短程线,而且还发现了信息学和信息哲学通过间接形式化途径如何进入信息科学殿堂的短程线,甚至也发现了教育学和教育哲学通过间接形式化途径如何进入教育科学殿堂的短程线。

(2) 基于形式化理解模型而生成的大数据与过去旧范式获得方式生成的大数据,形成了鲜明对比。基于数字棋盘产生的大数据和基于网络爬虫所获取的大数据,虽然都是大数据,但是存在可控性的区别。例如,虽然都是基于美国标准信息交换代码的技术来调用字母符号,但是却不能直接调用笔画符号,更不能同时直接调用广义文本的所有符号(Z却可以)。

可以说同样是大数据,其效率却大不相同。例如:谷歌的围棋软件和深度学习的结合带来了快速发展;数字棋盘和文字棋盘结合构成的孪生图灵机却可发挥协同智能系统的作用。由于逻辑、数学和物理三方面存在秩序和位置的一致性,如{真,假}、{0,1}和{开,关},因此,它们只是纯形式的计算、统计和变换,棋盘、棋谱和棋法不受周期和概率的控制,棋理也一样。这对于人脑和电脑(好比硬件)用的软件、知识和语言而言,是一个更好的灵感。通过实际示例介绍棋理,可以发现人脑擅长的棋谱应用与电脑擅长的机器学习都是独一无二的。

(3) 机器的批处理和人机交互的启发式,在基于宽度的搜索和基于深度的搜索以及基于遗传算法的搜索中,都具有其自身特征。人机结合的意义和选择,仅在术语处理和学习方面有所不同(涉及:分析、比较、查询和重用)。受限于在间接形式化的数字和文本的双列表,人机双脑的协同操作,可实现人机协作甚至协同即有针对性的双脑大协作。

大数据与教育之间的关系反映了计算机第一步的优势;第二步反映人机交替的优势;第三步则展示了人机之间的(高度)分工与合作的双重优势。由此,才发现了其巨大的潜力。

3 棋盘示例

图6为可间接计算的双字棋盘示例。

图6 可间接计算的双字棋盘示例(英文版的)

从图6可以看见,文本是2017年2月19日星期日在AAAS科学年会上塞尔研究中心主任研究员邹晓辉在展览厅(Hynes会议中心)展示的论文方法的纯文本部分。文本框下方的数字和字符即词形式。

用户选出的术语是在双棋盘上调用的字符组合。示例如表1所示。

表1 在此三对知识模块由六组术语构成

将表1与图6结合可以看出两者的内在联系。图6英语文本的中文翻译如下:

基于数字和文本的双矩阵方法涉及以下步骤:

首先,亚里士多德基于语言的形式逻辑和弗雷格基于算术的数学逻辑,为基于序和位的广义双语逻辑奠定了基础。同时,图灵基于数字计算的强人工智能观点和塞尔基于自然语言的弱人工智能观点,为基础数字和文本双矩阵之间的联动函数关系奠定了基础。然后,在常识和跨学科、跨领域和跨行业的专业知识基础上建立另类双语,索绪尔普通语言观和乔姆斯基形式语言观结合,在英汉狭义双语的基础上,再结合广义双语,建立三类双语的广义翻译系统的基础。其特点是基于知识本体的广义翻译,与联动函数关系及序位逻辑结构一道,共同构成了人机双脑协作的基础。

图7为中文双字棋盘可间接计算的《弃》示例,可以看出,仅在汉字棋盘上选出“终、不、迷、胡”四个字即可起到画龙点睛的理解效果(在此内容与形式结合得很好)。

图7 中文双字棋盘可间接计算的《弃》示例

图8为示例《存》,就这首诗而言,一旦找出“已、真、待、巧”四个字,再说明要重构的“基因”不是生物的,而是文化的,即形式化广义文本的基因,几乎瞬间就可表达其特定的含义和用意。

图8 中文双字棋盘可间接计算的《存》示例

图7和图8的中文双字棋盘及其蕴涵的序位逻辑和联动函数结合广义翻译可将知识棋谱和原创棋魂代表的知识模块精加工示例与英文双字棋盘的术语即知识模块的示例揭示出语言棋盘蕴涵的深刻棋理。棋理在此具通用性,如二进制的围棋与多进制的双字棋。这样的广义文本的棋理可作为统一参照系统理解广义语言。将汉字版的双字棋盘作为统一参照系统,不仅可以从原文中得到更好的支持,而且,是智能化文本分析和知识模块精加工的工具。话语或术语的选取都可通过双语或多语转换以多种方式一系列的双字棋盘后台自动查询。

4 结 语

无论是双音节及多音节的语(汉语的字组)还是混音节的词语(不限于汉语的语),都是单音节的言(汉语的字)构成的超级棋盘或矩阵里被用户选用的(某种组合),它们都是形式化的[22-25]。

其意义在于该方法及结果不仅可用于创建大数据与人机对话环境,而且,还可用于智能化文本分析和知识模块精加工,从而,搭起大数据与知识大生产的桥梁。例如,基于课堂特定学科领域的知识本体建构过程中产生的大数据,不仅可通过传统技术处理,还可通过双字棋盘这样的创新技术处理。基于术语知识本体的智能系统可直接用于知识大生产。

形式化理解模型及其蕴含的三大原理(序位结构遵循的双语逻辑、联动函数遵循的P进制原理和三类双语示例蕴含的基于知识本体的广义翻译原理)和双字棋盘蕴涵的三类孪生图灵机原理,为基于洁净大数据协同智能系统的研究与应用奠定了基础。具体表现是:自然语言处理和形式化理解,专家知识获取和形式化表达,软件编程建模和形式化模拟,都可得到序位结构(逻辑)和联动函数(数学)在理解(知)上的支持,还可得到人工(标准化技术)和人类(个性化艺术)在操作(行)上的支持。

可视化的模式识别可先建模再模拟,软件工程和模式识别的许多问题及其解决方案也蕴涵在其中。

这种有益效果表明:过去语言、知识和软件三种工程技术,不仅可揭示其连贯的机理,而且还可获得意料之外理情之中的创新发展(语言、知识和软件的三大系统工程技术的发明创造,及信息、智能和数据三大科学原理的发现创新)。简而言之,它是对智能系统研究(科学)及其应用(技术)进一步发展的基础。

新方法有效的原因在于它充分发挥了人机合作的优势。其具体表现是:首先,不仅顶级人类专家的创造力已获得了优越的环境,而且教师和学生也获得了相同的环境。其次,不仅可以使用间接形式化方法和间接计算模型,还可建构并使用英语和其他语言的双字棋盘。最后,不仅间接形式化方法和字符间接计算模型很受欢迎,而且图形图像和各种类型的媒体也会流行。

这三方面的结合意味着在解决大数据和教育中的有趣问题时,不仅可讨论最新解决方案、科学的结果和方法,还可讨论人机之间分工和合作的可能性。这是最吸引人的。人机交互的优势互补和优化互动才是信息处理、人工智能和大数据发展之后最具竞争力的综合技术创新,即智能系统研究及其应用。由于教育最重要的作用是启迪智慧,而基于洁净大数据的智能系统的研究和应用则在教育、管理、学习和应用结合的社会化系统工程方面,与语言、知识、软件和硬件结合的形式化系统工程遥相呼应,且具有独特性。

猜你喜欢
信息处理人机广义
“毫米波雷达系统设计与信息处理技术”专题征文通知
大数据背景下会计信息处理智能化研究
基于Revit和Dynamo的施工BIM信息处理
从内到外,看懂无人机
The Last Lumberjacks
一类特别的广义积分
任意半环上正则元的广义逆
水下无人机:解锁钓鱼新姿势
“人机大战”人类智慧遭遇强敌
未来深空探测中的人机联合探测