知识表征研究

2021-11-05 11:42王志娟彭宣维

北京科技大学学报(社会科学版) 2021年5期

王志娟彭宣维

〔关键词〕知识;表征;学科;符号学;功能

知识（knowledge）指主体在认识主客观世界的过程中整合相关经验而生成的内容，是人类智力活动的产物;表征（representation）是“将实体概念化、可视化或物化为另一种形式或模式的转换”[1]，是一种认知方式，是知识呈现的主要途径[2];知识表征指知识通过不同符号系统，如语言、图像、模型、数学方程、手势等，得以体现的途径。总起来看，作为意识化、符号化和结构化的信息系统[3]，知识及其表征是一切学科领域的核心内容，在认知心理学、知识管理、人工智能、教育社会学、语言学等学科领域获得广泛关注。本文将集中概述该领域代表性研究成果，并指出其进一步发展方向。

一、知识的定义和分类

由于知识内涵丰富、外延宽广，前人根据不同标准、方法和维度，对知识的定义和分类进行过多种方式的表述。

最初，柏拉图在《泰阿泰德篇》中将知识定义为“得到证成的真信念”，并初步区分了命题性知识、专家知识和高级的理智能力[4]。亚里士多德把知识分为理论、实践和生产三部分，各部分又以学科为标准分为不同次类。理论部分有神学、物理学、形而上学和数学;实践部分包括伦理学和政治学;生产部分分为修辞学和诗学[3]142。上个世纪60 年代以来，随着葛梯尔问题[5] 的出现，即得到辩护的真信念一定就是知识吗？后续关于知识内涵的发展以对葛梯尔问题的反应为主线分为内在主义、外在主义[6]93和德性知识论[7]。内在主义关注确证的条件，认为信念的确证是由它与其他信念或理由之间的关系决定的，强调意识对信念之间关系的内在把握[8];外在主义则关注知识的条件，或用增加知识条件的做法来达到目的，或用完全替换知识条件的方法来解决问题[9];德性知识论运用伦理学概念解释规范性认识，认为“理智德性”是主体的认知能力，而知识是产生于该认知德性的真信念[9]。

波普尔[10] 认为认识论是关于科学知识的理论，并提出著名的“三个世界”理论，将其中的知识看作一个相对独立的世界。具体而言，世界一是关于物理世界和物理状态的世界;世界二指意识经验世界;世界三指书籍、图书馆、计算机贮存器以及诸如此类事物的逻辑内容。三个世界独立存在，但相互作用。为了论证世界三的存在，波普尔将知识区分为主观知识和客观知识。前者由生物体的倾向构成，称为生物体的知识;后者由理论、推测、猜想的逻辑内容构成[10]84。世界二的知识属于主观知识;世界三的知识属于客观知识，科学知识应归入第三个世界，属于客观理论、客观问题和客观论据的世界[10]126。

Polanyi[11] 将知识分为显性知识和隐性知识，前者能够以一定的符号系统（如语言、图表、手势、盲文等）得到完整表述，后者是个人的、受情景限制的、能够感知但难以表达的知识。显性知识具有客观性，隐性知识具有主观性[12]69。显性与隐性并非绝对二分，大部分知识两者兼具，唯程度不同，两者构成一个连续图谱[13]16，可以相互转化[14]：隐性知识可以通过比喻和类推等形象化的方法转化为显性知识;显性知识可以通过理解、消化和吸收转化成为隐性知识[15]39。隐性知识是知识管理的研究重点;该学科从知识的隐含性角度揭示知识功能的实践性和实用性[16]。

人工智能则依据知识实现或获取方式的不同，把它分为程序性知识和陈述性知识：两者属于同一种知识状态的两种方法[17]，是储存在计算机（人脑）记忆内的描述、技能和规则等信息[18]19–29。描述所表征的是关于外在世界中具体物体或地点的陈述或程序[18]104;规则由命题构成，用于描述世界中的物体和事件，包括人类专家的推理过程[18]32。认知神经科学则借用上述程序性和陈述性知识两个概念，通过基于双重分离的记忆力类型来给予区分。该学科认为程序性知识与命题无关，其知识内容是活动;陈述性知识内容是命题。认知心理学则认为知识是主体与客体相互作用过程中获取的信息，存储在大脑中，可由心理图像、文字或抽象命题表征，强调知识的认知结构[19]273。

综上所述，无论是哲学的认識论（或知识论）对知识概念的抽象性思考，知识管理学科对知识功能的实践性、实用性探究，还是学者们从不同学科或维度所做的界定和阐释，都拓展了知识的外延;不同种类的知识之间没有明确界限，可以通过一定方式转换，如难以表述的隐性知识可用人类的其他符号表达：用语言直接或间接表达隐性知识中的认知成分，用动作演示或示意图画等符号系统表征隐性知识的技术成分[20]111。可见，知识这一概念通过不同的符号系统得到了充分诠释。

二、不同学科领域的知识表征研究

作为一门交叉领域，知识表征得到了不同领域学者的广泛关注。

首先，哲学的认识论对知识表征的研究停留在知识的来源及其在人脑中的储存方式上，如柏拉图认为知识以理念的形式存在于人脑中，人通过后天回忆掌握知识;笛卡尔则认为人们关于外部世界的知识来自于表示外部事物的心理客体;波普尔等逻辑经验主义者认为科学知识来源于主体对世界的观察和经验，尤其是逻辑推理和分析。哲学视角的知识表征研究相对缺失，甚至有学者指出以往哲学认识论对知识的本质研究有一个致命弱点，那就是没有研究知识的表征问题[21]。

其次，认知心理学强调知识的心理表征，有两种主要理论：命题符号理论[22] 和知觉符号理论[23]。前者认为，主体与环境互动产生、并以文字或图像形式出现的感知经验，是以抽象的命题形式储存在大脑中的;命题与命题之间形成命题网络;命题网络随着新命题的出现以及对命题的不同操作不断更新、扩展、延伸，容量无限，解释力强。但该理论也受到诸多诟病：首先，相关实证研究在探究验证图片和文字概念符号的命题性时发现，本该只有认知特征，却出现了知觉特性[24]。其次，来自神经科学的学者则认为：归类知识涉及的知觉客体位于大脑感觉运动区，该区域特定部位受损会直接影响归类过程，这充分说明归类知识并不是命题性的[25]。再者，该理论无法准确描述知觉事物转换成命题的过程[26];对人为虚构的实验图片的心理表征解释力不足[19]286 等。为了克服上述这些问题，知觉符号理论应运而生。它认为，知识以知觉符号的形式体现，主体通过选择性注意把一部分知觉状态提取出来，并储存在长时记忆中;通过激活途径，知觉状态起到了代表外界事物的知觉符号的作用，大量知觉符号集合起来则形成认知表征。

认知心理学认为不同的知识类型，其表征方式有所不同。陈述性知识以命题网络或图式方式表征，程序性知识以产生式的方式表征。Gagne[27] 主张从知识表征的整体角度探究知识的本质，认为不同知识类型在处理不同问题时表达出不同的表征方式，但其中的产生式表征方式镶嵌在命题网络中，两者共同建构知识网络[21]。而作为更为广泛意义上的知识表征，大数据知识表征[28–30] 则彰显表征符号的多样性。它们既可以是客观的物理符号，也可以是主观的心理意象;既可以是静态事物，也可以是动态机制[31]，还可以同时实现对陈述性知识和程序性知识、显性知识和隐性知识的综合表征。

概念地图模型（concept maps）是另一种知识表征方式，由Novak 于1970 年在康奈尔大学提出，广泛应用于教育领域[32] 和知识管理。概念地图包括概念以及概念或命题之间的关系，彼此用连接线表示，连接线上用文字对概念或命题之间的关系做出说明[33]。它具有层级结构，最上层是最具包容性、最为一般性的概念;更具体的概念按层级结构以此往下排列。概念地图不同领域中概念之间的关系（命题）由“交叉连接”（cross-links）表示。概念图以地图的形式展示某个领域中命题或概念之间的关系，揭示特定领域的知识体系，以及知识之间的关联方式。实际上，这是把语言规划到图表中，即把语篇内小句中的概念或命题提取出来，用连接线和文字表示。这在很大程度上就是语篇的地图化。据此，概念地图并没有从本质上揭示概念之间的语义关系，即知识的本质，只是实现了语篇的地图形式化。

人工智能中的知识表征强调知识的计算表征。在通常情况下，它会建立一个表达抽象概念的本体论框架，进而根据逻辑规则执行各种表征程序，这些程序在各自的环境中适应性地进行表征与推理[34]。迄今，人工智能領域已研制开发出了多种知识表征方法。其中，命题逻辑（propositional logic）[35]、一阶（谓词）逻辑[first-order （predicate） logic][36]、二阶（谓词）逻辑[second-order（predicate）logic][37]属于经典逻辑方法。命题逻辑表征简单的陈述性知识;一阶逻辑扩展了命题逻辑，引入量词，量化个体;二阶逻辑扩展了一阶逻辑，引入全集概念，不仅可以量化个体，还可以量化性质，即个体的集，并不断演化为普通逻辑（common logic）[38]。

此外，规则（rules）、框架（frames）、语义网络（semantic framework）、产生式、面向对象语言（ object-oriented language）、Prolog、Java、SQL、Petri网和知识交换格式（Knowledge Interchange Format，KIF），也被认为是知识表征的技术或方法[39–40]。

描述逻辑（description logics）是一系列基于逻辑的知识表征语言，以结构化方式表示应用领域的术语知识[41]。它与之前的知识表征方法（如语义网络和框架）的区别在于：它具有形式化的、基于逻辑的语义内涵[42]135。概念图符模型（ conceptualgraph）是Sowa 在20 世纪80 年代基于人工智能语义网络和逻辑图提出来的知识表征方式，包括概念节点和关系节点：前者表示实体、属性、状态和事件，后者指概念之间的关系。作为一种二维逻辑形式，概念图符实际上是一种标准的逻辑谓词符号变体，包括标准的逻辑和计算程序。这是它与Novak概念地图的根本区别。

随着科学技术的发展，人们不再满足于计算机依靠特定程序算法处理数据、解决问题的功能，而是转向认知型计算机。认知型计算机具有人一样的思维，能在感知大数据的基础上更好地认知世界。Elbedwehy 等[43] 提出了认知型计算机的计算知识表征模型，其核心内容便是知识表征，分为四个阶段：原型形成（prototype formation）、辨别（discrimination）、概括化（generalization）和算法开发（algorithmdevelopment）。每一阶段都用实时过程代数（the real-time process algebra， RTPA）做数学的形式化表示。实际上，这四个阶段是进行计算概念化的过程，形成计算机可识别的概念及其系统;其中涉及的数学公式可以认为是程序执行所遵循的基本逻辑。

知识表征在人工智能与教育研究方面也有十分广泛的合作。Arevalillo-Herráez 等[44] 将数学应用题的数学结构以超图（hyper-graph）形式表征，进而建构出特定领域的知识表征模型与推理引擎，用于智能辅导系统。

系统功能语言学对知识表征研究做出了不可或缺的贡献[45]。历史地看，系统功能语言学的系统语法就是一种在计算机程序设计原理基础上发展起来的自然语言理论模型[46]，这对该理论反哺知识表征可谓顺理成章。早在20 世纪50?60 年代，Halliday就曾尝试将系统功能语言学的雏形“阶和范畴语法”用于机器翻译和机器词典研究[47–48]。20 世纪60年代，Halliday 与计算机专家合作，在南加州大学的信息科学研究所设计出了82 个语法子系统[49]268–284，为后来的PENMAN 系统生成发挥了决定性作用：在随后的20 多年间，人们开发了一大批语言生成系统以表征知识，诸如“PROTEUS[50–51]、PENMAN、SLANG[52]、GENESYS[53]、WAG[54]、汉语句法实现系统（Chinese Syntactic Realization System）[55]，等等。目前，它已经成为该领域中应用最为广泛的语言学理论[56]”[45]38。近年来还有一批学者从多模态角度进行过有效的知识表征尝试[45]60–78。

总起来看，不同领域的知识表征方法具有相似之处。无论是命题符号理论、知觉符号理论、Sowa的概念图符模型，还是认知型计算机的计算知识表征模型，都关注本体论和逻辑的关系，即构建能表征抽象概念、并具有形式化逻辑系统的本体论框架。在概念表征知识的同时，逻辑提供规则，执行程序，并通过推理创造出新知识。既然本体论是对现实世界的概念化，概念就应该能够反映由观察得到的经验现实，而自然语言为我们提供了用来思考和感知周围世界的认知概念，它们是构成和表征世界知识的相关术语。

据此，Evermann[57] 认为语言心理学为表征知识的特定概念提供了经验依据，并在语言心理学的基础上推出了一个认知结构体系，为知识工程、知识管理和概念模型建立知识表征图式提供了相关概念。Pike 和Gahegan[58] 则超越本体论，提出了科学知识的情境表征，即科学概念要能反映科学工作的情境过程、知识的社会建构、理解的出现及其随时间推移的演变等特点。在该模型中，知识包括概念、元数据和情境三大要素，是研究团队协作、协商和操纵的结果。了解创造和使用知识的情境有助于合作者发现彼此一致和不一致的概念领域，允许个别查询者对同一信息持有不同观点;信息来源的捕获则允许重建推理的历史轨迹，为最终用户评估知识表征的适用性和可靠性提供依据。

知识的表征和建构还是教育社会学、语言学等学科的热点议题，尤其是学科知识的语言表征。知识与语篇关系密切：抽象的知识通过语篇得以体现[59–60]，如书籍、论文、科普文章、课堂笔记等。学者往往选取不同学科知识的不同载体作为语料，运用某种理论展开分析，揭示其背后的知识表征和建构机制。

教育社会学关注知识在教育语篇中的建构方式，促进了系统功能语言学和教育社会学的合作与对话[61]。Bernstein[62] 将话语分为水平话语和垂直话语。前者指我们的日常话语，后者指专门话语，如科学表述等。垂直话语又分为水平知识结构和等级知识结构?前者常见于历史等人文学科，后者常见于自然科学。但Bernstein[62]131–141 提出的内部描写语言和外部描写语言两个概念具体指什么、在知识建构中如何运作等问题则不明确。因此，Maton[63] 继承并发展了Bernstein 的知识结构理论，创立了合法化语码理论（ Legitimation Code Theory; LCT），使知识本身重新回归教育。作为一种解释性框架，LCT 包含自主性、紧密性、专门性、语义性和时间性五个维度，揭示不同学科知识结构的建构机制。循此，赖良涛[64] 则尝试建立“社会符号视角的教育语言学学科理论体系”。

同时，人们还将LCT 中的抽象概念落实到系统功能语言学中的具体语言现象上，揭示不同学科或理论的知识结构，诸如Hood[65] 对自然科学、人文学科和社会科学的考察，Wignell[66] 对社会科学的分析， Martin[67] 与Christie 和Macken-Horarik[68] 等对系统功能语言学理论知识结构的探究，Sriniwass[69]从系统功能角度对化学知识的梳理，赵清丽[70] 对物理知识在教科书中的建构方式的分析，Doran[71] 通过语言、数学和图像对物理知识构成特点的考察等等。教育社会学视角下的知识表征研究以LCT 为指导，旨在宏觀把握某个学科的知识发展或理论建构，但对学科知识表征的讨论很少，与系统功能语言学的合作与对话大都局限于个别语言现象的分析，感性认识突出（如所谓的语义重力、语义密度、语义波等），虽然有助于理解学科内容，但离全面、系统揭示学科知识的表征还有相当大的距离。

系统功能语言学认为语言建构经验，知识是语法将经验识解而成的意义体系。就学科知识而言，人们可以通过考察某一学科的语言来理解该学科的知识[72]2。经由对科学语篇的分析，Halliday[73] 发现，科学语篇使用名词组建构专业分类，动词表征逻辑关系，“NP+VP+NP”小句推进论证过程;语法隐喻在建构专业性和合理性的过程中起着决定性的作用。在此基础上，学者们围绕其他学科语篇开展了一系列研究。Martin[74] 就语法、语篇语义、互动模式、语域和语类五个方面对比了自然科学、人文学科和社会科学的知识建构模式。Rose[75] 考察了科学和技术语篇在建构新的专业术语方面词汇使用的差异。还有一些学者考察具体学科语篇中词汇语法的经验模块，如Wignell 等[76] 分析了地理语篇，Veel[77]对比了中小学传统科学和环保主义科学语篇等。OHalloran[78] 还从系统功能多模态视角出发分析了数学语篇的多模态经验建构，杨信彰[79] 运用语料库方法考察了物理英语语篇中的言据性动词等。

总之，系统功能语言学视角下的知识表征研究注重从语境、语义和词汇语法等不同层面构拟科学知识，也注重研究对象的扩展、方法的融合以及视角的多模态化。然而，上述分析大多局限在中小学层面，对高等教育层面的学科知识讨论甚少[80]，且内容主要围绕语言表征知识的方式展开，对语言背后的知识整合研究还远远不够。

三、结语

通过对相关知识表征研究的广泛梳理和系统分析，我们得出以下结论。

第一，不同知识表征方式虽各有不同，但关注对象都是知识，只是侧重点有别，如认知科学强调知识的心理表征、人工智能强调知识的形式算法、语言学则强调学科知识的语言识解等。

第二，相关尝试大都探讨广义上的知识表征，对具体学科知识的体现途径研究还远远不够。教育社会学和系统功能语言学对学科知识表征的探讨也多局限在语言这一种符号资源，且不够全面、系统。

第三，相关知识表征方法对语言外的其他表征符号系统考虑不足：除知觉符号理论外，在其他知识表征方式中，语言是主要的表征系统，Novak 和Sowa 的概念地图和概念图符模型只是一定程度上语言的图表化，核心手段依然是语言。

但作为符号化的知识，语言只是众多表征符号系统中的一种，图像、数学符号、公式等也是主要表征系统。可见，知识的表征研究，尤其是学科知识的表征研究，须从多符号角度入手，既要关注每一种符号资源的功能，又要注重其间的协同关系。

不过，表征符号系统是探究知识结构的根本：只有做好表征符号系统的本体研究，才能促进人工智能和其他领域的发展。因此，未来相关研究还需从语言角度加强形式化和算法研究[81]：对于熟悉系统功能语言学的本文作者来说，鉴于该理论的适用性宗旨、庞大的范畴系统和系统网络方法，它能为知识表征的过程提供一个行之有效的立足点和出发点，进而参考现当代自然科学的前沿成果，如量子理论和复杂理论的一些核心认识，设计多维度的复杂算法。这是今后知识表征研究努力的一个重要方向。