文玉锋 徐姣姣 周文杰
(1.西北师范大学商学院 甘肃兰州 730070)
知识组织的目标是对蕴藏于文献等记录资源中的知识元素加以结构化表征,以形成有助于知识交流和传播的体系和工具。 古籍文献是民族记忆得以传承的主要媒介,也是形成具有本民族特色文化、知识传承体系的关键。 在中华民族悠久的历史发展进程中,闪烁着先民智慧光芒的文化、文明与知识元素,蕴藏于卷帙浩繁的古籍文献之中。 中国文化史上,曾产生了很多卓有影响的文献资源收集、整理、编目的成果,《六经》《七略》《四库全书》 堪称其中的杰出代表。党的二十大报告强调,坚持和发展马克思主义,必须同中华优秀传统文化相结合。在人类社会步入数字化、智能化的今天,秉承文献资源整理的悠久历史传统,结合先进的信息技术与计算平台,实现古籍文献内容结构的表征与知识元素的序化组织,对于落实二十大精神,推进国家文化数字化战略,充分发挥传统文化在中国式现代化进程中的思想支撑具有显而易见的重要作用。基于此,本文旨在对传统的古籍文献信息组织方法进行评述的基础上,针对古籍文献内部结构表征的理论基础与实现路径加以探讨,以期对古籍文献知识组织提供参照。
无论中外,文献分类与书目控制的理论与实践都源远流长。在中国古代,远至春秋时期孔子及弟子对《诗》《书》《礼》《易》《乐》《春秋》六经的分类整理,再至汉代刘向父子编成“最早的分类目录”[1]57——《七略》,又至清朝乾隆年间修成的《四库全书》,都体现了通过书目“浓缩知识系统”[1]57的努力。近现代以来,《中国图书馆分类法》《美国国会图书馆分类法》及《杜威十进制分类法》作为广为采用的文献分类体系,对人类文化资源的序化整理发挥了举足轻重的作用。
文献分类体系是对古籍文献加以序化整理的基本工具。 借助于各种分类法、主题法及类似工具,图档博等各类专业机构对文献资源进行了有效的结构化和体系化呈现,从而极大地提高了文献资源的利用效率,客观上加速了人类文明的发展进程。在过去一个多世纪的时间里,以公共图书馆为代表的“社会设计的信息空间”[2]4更是借由有效的信息组织方法与成果,基于所拥有的馆藏资源,有效满足了普罗大众的知识、信息需求,从而成为启蒙民智、促进知识信息交流的关键社会性制度设计。
应用分类原理,对古籍文献展开信息组织具有重要的意义。 首先,对文献资源加以分类,本身就是一种知识生产的行为。 应用分类法对文献进行序化整理的最终结果,是形成一幅人类整体样貌的完整“全景图”。经过分类整理而形成的文献书目体系,高度凝练了人类既往的文化与知识累积成果,并以最直观的方式提供给读者,从而不但从一定程度上消除了文化传承存续中断之虞,也使文明发展的成果最大程度地接近于人们的认知,扩大了文化传播的“底座”;其次,借助于文献分类,人类首次获得了关于文明成果和科学知识全貌的整体性认识。 在缺乏完善的文献分类体系的时代,即使博学多识的杰出学者穷经皓首,也常常仅得人类文化浩瀚总体中的沧海一粟。借助于系统化的文献分类工具,学者们得以直接面向文献资源整体,从文化、文明与知识的全局出发,展开新的知识创造;普罗大众则有机会通过文献分类工具的指引,有的放矢地选择符合自己认知需求的文献资源加以阅读,以娱乐身心、发展心智。此外,文献分类体系还对发现人类知识体系中的薄弱点,对同种文明的发展历程进行追踪考据,以及对不同文明的文献资源进行比较分析等诸方面具有重要作用。
以分类法为肇始,对文献信息展开的序化整理工作对人类文明的传承做出了重要贡献。然而,如果站在更宏观的角度看,应用分类法展开的古籍文献序化整理方法也存在着诸多显而易见的局限性。
首先,传统的古籍文献分类方法侧重于对文献宏观特征的描述与揭示(如经、史、子、集四部),很少能够深入到文献的内容层次。由此产生的弊端是,基于分类法虽然可以形成比较系统全面的书目体系,但这些书目体系本身能够为读者提供新的知识增益却非常有限。 典型的例证是,虽然七略、四库等形式的书目体系曾被中国传统知识分子赋予了“门径之学”的重任,但仅仅通过这些类目而直接达成治学之道,显然可行性较低。
其次,基于分类法而形成的书目体系是一种先验式的静态文献信息组织方式。 由于这种信息组织方式是依据事先确定的类目展开序化、整理,因此,难以将分类体系之外的文献有效纳入进来。 也就是说,一旦出现新的文献类型(或者出现原有文献类型之间相互交叉的现象),则原有的分类体系不得不“便宜行事”;或者不得不“削足适履”,让文献去被动适应类目;或者模糊原有类目的边界,使类目勉为其难地“符合”文献的特征。
第三,应用分类法展开文献信息组织的前提是,待序化整理的文献必须是一个完整的单元(如一本书)。也就是说,对于局部文献,分类法通常根本无法顾及。一般情况下,古籍文献的主体确实是以一个整体单元的形式呈现的,但很多情况下,一些局部性、片断性的文献(如篇章)对于研究者及时捕捉相关研究信息也至关重要。为此,从文献书目体系使用者的角度看,在篇章(基于更小的文献片断)层次上对古籍文献加以序化整理,潜在的价值很大,但分类法显然难以企及。另外,有些古籍文献本身就是以片断的方式存在。如简牍是记录秦汉政治、经济、社会、文化、军事的重要文化资源,但由于简牍的存在形态本身就是片断式的,因此,传统的文献书目体系基本都没有涉及到对此类文献资源的序化整理。然而,简牍中记载的那些鲜活的社会生活与管理场景,恰恰是反映数千年前中国社会实际状况最直观的第一手证据,其文化价值可能并不亚于成体系的史书文献或其目录体系。
第四,分类法对文献信息资源特征的揭示主要是从管理者视角出发的,在文献内部蕴藏的丰富内容如何主动对接读者的知识结构方面,分类法常常无能为力。由此造成的结果是,文献类目的编制的确极大地促进了文献资源“藏”的全面性和系统性,也从一定程度上提升了文献资源“用”的效率,但如果要基于文献类目而直接促进文献资源被用户所吸收、接纳、消化,则分类法显然力有不逮。 事实上,基于传统分类法而构建文献类目体系并展开服务的传统模式,在一定程度上已经导致了图档博等记录资源管理机构的“客户粘性”①客户粘性是一个源自工商管理领域的术语,主要指客户对于品牌或产品的忠诚、信任与良性体验等结合起来形成的依赖程度和再消费期望程度。不断淡化,由记录资源知识信息要素的管理者与开发者逐渐沦为记录资源载体的“看门人”,从而不可避免地削弱了图情档机构、专业和学科的生命力,乃至于造成图档博相关行业、专业和学科的生存危机。
总之,尽管分类法在古籍文献的序化整理方面已发挥了重要的作用,但其局限性也显而易见。着眼于克服这些薄弱点,不断有研究者呼吁,对于文献信息的序化整理,应该从文献单元走向知识单元。
很多研究者都意识到了传统文献分类方法的局限性,而呼吁文献资源的序化整理转向知识组织。文献分类与知识组织之间存在一些比较明显的区别。如王子舟指出,从组织方法上看,文献单元的组织方法较为单一,而知识单元的组织方法则复杂多样。当人们将客观知识组织成一个有序的集合时,如果以文献单元为集合的基本组分,那么组织方法则主要是依文献单元的内容属性(类别、主题)或形式属性(题名、责任者)来进行的;如果以知识单元为基本组分,情况就有所不同。知识单元的属性特征多种多样,远比文献单元丰富,故其组织方法也更为复杂多变[3]126。
文献分类与知识组识之间的区别, 事实上源于文献单元和知识单元之间的不同。一般来说,文献单元指“专门记录和传递有知识的人工载体单元”[3]121。对于知识单元的认识,我国学者经历了一个较长时期的讨论过程。 早在1980 年,赵红洲就曾提出:知识单元是已经获得科学共同体认同的、堪称“粒子”形态的科学概念,它是科学的细胞,科学大厦的砖块。大量的知识单元经过重组, 按一定思路可凝聚成知识纤维,知识纤维又可在更高层次上组成复杂的知识系统[4]。 王通讯指出,“所谓知识单元,系指知识系列的一些基本‘概念’。不同的知识系列之间,可能有相同的知识单元。 但是一个知识系列的形成与规范化,主要体现在它具有一批与其他系列不同的知识单元”。 “知识单元组成一个个的知识系列,一个个的知识系列又组成整个知识体系”[5]。张德芳认为,知识单元是寓藏于出版单元(某一文献)之中的,一个出版单元可能贮含一个以上的知识单元。“科学知识单元是科学劳动的产品,是在对事物、实物、现象、过程等零散信息的基础上,经过系统归纳、分析、整理,能够反映其本质规律的概念、定理或定律”[6]。 马费成认为,数据单元也可称知识单元,它是由各种事实、概念和数值等组成的[7]。王子舟则把知识单元定义为,客观知识系统中有实际意义的基本单位,并指出所谓“有实际意义”,指知识单元是一个明确的语词概念、科学定理等,而每一个知识单元都可以归入某个知识系统,并成为该知识系统的基本单位[3]123。
从古籍文献序化整理的角度看,基于文献单元与知识单元而展开序化整理会产出截然不同的结果。 基于文献单元的分类法虽然能够产生出系统化的书目体系,却无法充分揭示文献的内容与主题,由此而使文献资源的使用者常常产生“望其门墙”却无法“入其宫者”之惑。 用户面对分类体系却无法达成认知需求的满足,这显然是导致传统图档博机构“客户粘性”降低的重要原因。 为此,古籍文献等信息资源组织管理方式需要在发挥分类法既有优势的前提下,尽可能克服其局限。 主题法的应用,正是对这一趋势的响应。近年来,针对古汉语实体歧义[8]、数字化古籍资源的语义描述模型与元数据[9]、中文古籍数字化成果辅助人文学术研究功能[10]、数字人文背景下数字化古籍的深度开发利用[11]等问题,研究者已展开了大量研究,为知识单元的古籍文献序化整理奠定了基础。
在分类法得到广泛应用的同时,图档博领域不断发展其他类型的信息组织方案,主题法便是其中最主要的代表。 分类法主要是依据学科分类等先验的外部属性对文献资源加以分类、序化,显然属于上文所述的文献单元层次的信息组织。 沿着主题法路向展开的序化整理则与此形成了鲜明对比。 具体表现在,由于主题词直接对接文献的内容层面,因此借助于主题词展开的信息组织针对的是文献资源的内容单元,而非分类法所依据的学科等外部特征属性。从这个角度看,主题法反映了信息组织方式由形式特征向内容要素转化所付出的努力。 也正是因为主题法试图从文献主题提炼、归纳和概括的角度展开信息组织工作,因此更切近于文献内含知识单元的组织和揭示。 总之,与分类法相比,基于主题法展开的信息组织更接近于知识单元的序化整理。 对图书馆等专事知识信息资源序化整理的机构而言,无论是分类法还是主题法,都沿用了索引式的思路,其主要目标都是为读者提供一些文献关键特征的线索。简言之,二者都把为用户提供检索工具作为信息组织的基本目标。然而,由于主题法更侧重于内容的揭示,因此,基于主题法而形成的信息组织产品,不仅具备查询功能,也为用户展开文献资源内容层次的分析与加工提供了契机。从这个意义上说,主题法比分类法更接近于知识组织。
“为人找书、为书找人”一直是图书馆等专业信息资源管理机构的基本业务活动目标,而分类法和主题法则是达成此目标的关键工具。为此,以分类法和主题法为主体的信息组织一直被视为图书馆学、情报学等学科的核心知识。 然而,在数智化的时代,信息资源的存在形态已大大突破了“书”的范畴,而读者对于信息资源的认知需求也远远跨越了“文献检索”的传统边界。面对用户更多元、更具动态性的认知需求,如何从知识单元的描述、揭示、表征和组织入手,帮助用户高效率地实现个体认知结构与客观知识世界之间的契合,已成为数智时代信息管理者展开文献资源序化整理的首要关切。 最近数年来方兴未艾的数字人文研究无疑是对古籍文献等信息资源加以细粒度、全景化知识组织的顺应、承接与光大。
除去直接应用主题词表展开信息组织外,聚类方法及关联规则的使用也已成为知识组织者有效的探索工具。到目前为止,来自不同领域的研究者都对此展开了大量探索。在国内,杨善林等应用知识聚类与知识分类的方法将医学的多维术语梳理了多项类别并补充到知识库,形成了检验规则、手术规则等约6000 多类(条)[12]。苗蕾等应用聚类分析与分类评价的方法研究了湖南省可持续发展实验区,得出了该区域的发展格局与领域优势[13]。 侯西龙等借助关联数据的技术方法构建了非遗知识组织与关联数据集,建立了非遗知识关联数据集与知识服务平台[14]。唐旭丽等利用知识关联方法解决了金融知识表示及风险识别问题[15]。王临科等利用知识聚类的方法研究了知识主题社区、用户兴趣模型、主题多样性等相关领域[16];在国外,Skevakis 等在领域知识组织中通过关联规则帮助博物馆馆藏资源实现了语义交互等[17]。Aminpour 等通过知识聚类的方法证实了来自不同资源用户群体的智慧优于那些更同质的群体[18]。 Kohli等系统研究了知识关联、知识分类等方法,解决了电子病历卡的机器可读性问题[19]。 上述诸多研究中,聚类分析与关联规则的使用可被视为一种建立在主题法基础上的知识组织尝试。迄今为止,此方面的研究成果虽然层出不穷,但尚未形成完善的知识组织方案。特别是面对卷帙浩繁的古籍文献,如何通过大规模、全景式的知识组织,复现古代社会经济、政治、文化的整体样貌,还原人类文明基因的本来面目,探索人类科学、文化与思潮演化的共同特征与一般规律,显然具有无可比拟的价值。
综上所述,与分类法相比,基于主题法及与其关联的聚类分析、关联规则等方法展开的信息资源序化整理方案显然更贴近于知识组织的要义,但这不意味着传统的主题词表及相关工具已为文献信息组织提供了完善的解决方案。恰恰相反,就古籍文献而言,真正的知识组织与其说尚处于早期的探索阶段,毋宁说还没有找到真正恰当的理论基础与有效可行的实践解决方案。
本文中,已经详细阐释了文献分类与知识组织之间存在诸多区别。然而,如果回归到抽象的理论层次,则二者具有相通性。概括而言,由科学哲学家波普尔(Karl Popper)所发展的“世界3”理论可被视为文献分类与知识组织的共同理论基础。 波普尔认为,“世界3”指科学思想、诗的思想以及艺术作品的世界[20],是一个与客观物质世界(即“世界”)和主观精神世界(即“世界”)一样,具有客观实在性与独立自主性的世界[21-22]。 通常情况下,“世界3”又被称之为客观知识的世界。英国情报学家布鲁克斯指出,客观的知识世界是由语言、艺术、科学、技术等所有被人类贮存起来或传播到地球各地的人工产物所记录下来的人类精神产物,它体现在文献以及音乐、艺术、科学技术等人工产物中[23]。 于良芝认为,在图书馆情报学领域,客观知识是指以语言、文字、图像等符号表达的、记录在实物载体(如书本、磁盘)上的知识[2]5。
立足于“世界3”的理论视角,自20 世纪80 年代以来,图书馆情报学领域的研究者逐步形成共识,认为文献组织的实质就是一种知识组织[3]129。 研究者已针对知识组织若干问题展开了深入系统的讨论。如刘迅早在1985 年就提出,图书馆学应向“知识工程”转变,把知识组织作为图书馆学的一个重要领域[24]。王知津和王乐指出,将知识组织等同于文献的分类、标引、编目、文摘、索引等一系列整序活动,这是狭义的知识组织;而将知识因子(知识结点)有序化和知识关联(结点间的联系)网络化,这是广义的知识组织。广义的知识组织包含了狭义的知识组织,因为个体文献也可视为是知识因子[25]。 蒋永福则指出,“知识组织是指为促进或实现主观知识客观化和客观知识主观化而对知识客体所进行的诸如整理、加工、引导、揭示、控制等一系列组织化过程及其方法”[26]。 王子舟指出,随着知识社会的来临,“知识组织”已渐成知识社会学、知识管理、人工智能、教育学等多种学科共同使用的科学概念[3]129。
迄今为止, 图书馆情报学领域内外的研究者对文献分类与知识组织的内涵及二者之间的关系展开了广泛讨论。综合而言,这些观点大致可以概括为两个方面:首先,文献分类与知识组织既紧密联系又存在区别;其次,知识组织高于文献分类,是图书馆职业未来发展的方向。 从古籍文献序化整理的角度出发,本文认为,文献分类与知识组织在本质上都是对记录资源的结构化,但文献分类是一种基于文献载体形式特征而展开的记录资源整序,而知识组织则是一种基于古籍文献的内容要素而展开的整序。 二者共同以“世界3”的结构揭示为目标,但却在具体的记录资源体系中分别针对着不同的层次。 从文献分类到知识组织,恰恰体现了“世界3”的物化形态——记录资源体系——明晰的层级结构,因而需要运用文献分类或知识组织等不同方法加以整序。
图书馆情报学领域的诸多学者都对知识组织的本质进行了阐释。布鲁克斯认为,知识组织的本质,是要研究情报对认识主体的知识结构作用的机制[1]26。社会认识论的创立者谢拉认为,社会是由那些为了共同目标和满足共同需要而在一起工作的人们组成的,图书馆及其书目系统是一个社会机关,记载的是人类的知识信息,书目的职能就是浓缩人类发明的记录通讯的那部分知识,并将这些知识传递给社会的不同需要者[1]52。 然而,承载着客观知识的文献本身,兼具实体和内容两个要素。 这意味着,知识的组织不仅需要关注作为物理实体的文献,也需关注作为智力结晶的作品(intellectual work)。“作品”这一概念提出于20 世纪中叶,被用来指一个作者的特定智力成果。基于这一概念,于良芝教授提出,“图书馆文献加工处理的实质是对文献中包含的知识与信息(recorded knowledge or information)的组织整理。图书馆对文献的分类事实上是对作为智力成果的作品的分类;图书馆对文献的揭示报道事实上是对其智力成果的报道。图书馆职业活动的对象首先是作品,其次才是文献实体”[2]10。
王子舟曾指出:“就本质而言, 知识组织的内在机制是对人脑记忆机制的一种模拟。 人脑的记忆有识记、保持、再现三个环节(即信息的编码、存储、提取),知识组织也如是。记忆的第一环节是‘识记’,包括视觉识记、听觉识记、视听识记,知识组织也有这些方式;记忆的中间环节‘保持’包括空间保持、系列保持、联想保持、网络保持、更替保持等方式,知识组织也在使用这些方式;记忆的保持会有‘遗忘’,知识组织则会有‘遗漏’;记忆的第三环节是‘再现’,体现为再认与回忆,知识组织的‘再现’体现在检索与输出。 当然,在人工智能领域里,知识组织已经发展出专家系统这样高级的形式,但这种形式本质上仍是对人脑机制的一种模仿。 在飞速发展的信息技术的支持下,未来的知识组织形式将呈现对人脑记忆机制、 思维机制交互模仿的趋向”[3]131。 蒋永福则认为,“知识组织的实质是以满足人类的客观知识主观化的需要为目的、针对客观知识的无序化状态所实施的一系列有序化组织活动”[27]。
在谢拉(Jesse Shera)将个体与社会“智力”发展进行类比的基础上,周文杰提出了社会认识层次论,以期揭示图书馆职业和信息资源序化整理的本质。按照社会认识层次论,经过整序后的“世界3”可被视为社会的“认知结构”。 社会认知结构得以完善的重要体现,就是对人类对科学知识本身不断进行序化、组织,从而使社会认识向着更高级的方向发展[28]。 对于古籍文献而言,图书馆职业既需要从书籍等物质载体本身的外部属性入手分类与组织,更需要从作品中的“智力成份”等更加本质的因素入手,以便从内容要素的层次对其内在结构做出更加接近于其本质的表征。 之于前者《六经》《七略》《四库全书》古籍文献的分类、整序的传统方法就是典型例证;之于后者,则恰恰是对古籍文献中“知识成份”的揭示,是知识组织的本质所在。
从知识组织的角度来看,无论在图书馆职业领域内部还是外部,关于记录资源知识成份的整序组织都还在探索的路上。这种探索,既包括图书馆职业采用分类语言、主题描述以及基于文献内容特征的编码等方式开展的努力,也包括计算机等领域开展的知识图谱、语义网络及知识发现等方面的研究和实践。 种种迹象表明,由于诸多因素的局限,真正从“知识成份”角度开展记录资源的组织与表征还停留在一个充满不确定性的初始阶段,但着眼于挖掘古籍文献等记录资源在社会认知中的更大作用,这种知识组织方式将具有巨大的理论潜力和应用价值。当前,面对古籍文献数字化程度的急速加深,数字人文、计算语言学等新型数据密集型研究范式的兴起,对古籍文献展开知识组织,不仅适逢其时,而且十分必要。
古籍文献是优秀传统文化的主要载体。 为挖掘优秀的文化基因,提高古籍文献的使用效率和效益,本文从知识组织的角度,对古籍文献的序化整理的历史脉络、现实特征和未来转向进行了理论分析。整体而言,分类法作为古籍文献序化整理的肇始,对于文化的传承与传播做出了积极的贡献。然而,分类法限于静态特征的揭示,因此,面对数智化的时代要求,暴露了诸多局限和不足。 与分类法相比,主题法更接近于知识单元层次的文献序化整理,但迄今并没有形成完善、可行的知识组织方案。鉴于古籍文献在文化复兴和民族自信中的重要作用,本文从“世界3”角度讨论了古籍文献知识组织的理论基础和本质属性,以便为图档博领域内外的研究者深入挖掘古籍文献这一文化瑰宝中的优秀文化元素提供启示。
基于本文所阐释的主要理论主张,在后续研究中,我们将进一步展开实践探析,立足于上文所解析的理论基础,应用自然语言处理等技术手段,对具有代表性的中华传统古籍文献展开知识计算等基础性工作,以便为古籍文献知识组织由理论走向实践提供切实可行的解决方案。