面向信息自动抽取的中医古籍校注方法探索*

2021-04-25 10:31:56闻永毅

河南中医 2021年4期

闻永毅

陕西中医药大学，陕西咸阳 712046

理论上讲，校注古籍的结果应该生成一份没有错字、讹误字、脱文、衍文等错误文字的正确文件，然而事实上这种正确文件并没有以具体的形态出现在古籍校注著作之中，而是以原文(有人称之为“白文”或“经文”)与注文(有人称为“阴文”或“朱文”)相互分离的方式散落在校勘或注解文字之中。这种沿袭了数千年的分离式校注方式严重地阻碍了其他学科对古籍校注成果的有效使用，导致很多迫切需要正确文件的研究项目(如中医国际交流、中医翻译、语料库建设、字词频率统计、词典词条收集、信息自动检索与抽取等)，都因为无法汇聚这些散落的校注成果而继续使用残缺受损的原文。邢玉瑞[1]、张登本[2]、张双棣[3]、刘利[4]等编著词典所用数据都是以原文为基础材料。如何打破这种研究与应用互不往来的僵局，已经成为制约中医文献学甚至整个古籍整理领域进一步发展的瓶颈问题。本文将从中医古籍校注方法的角度，深入探索如何运用计算机技术把散落在校勘注解文字中的校注成果转化成为一种具体而有形的正确原文，为此本文预设了三条必须坚守的基本原则：第一，坚持古籍校注的传统方式；第二，原文与转化而来的正确原文必须互见互参；第三，原文、校注成果、正确原文等相关校注信息可分别统计，自由输出。

1 讹误字的更正模式

古籍校注类著作中注文是一种笼统的说法，里面包含着校勘文字和注释文字两种性质不同的文件形式。注释文件主要解释原文中字词的意思，校勘文件主要说明原文中各种错误的原因以及是否更正这些错误的建议。也就是说，校勘文件跟受损的原文直接相关，校文的价值就在于帮助读者把残缺受损的原文恢复到初始版本时的字符形态。本文把校勘之后应该生成的文件称为正确原文，不过这个正确原文在校勘本、注释本等著作中并未成形，而是隐藏在原文与校文之间。对于古籍使用者，尤其是对于需要正确原文的研究项目来说，要想取得这个正确原文，就必须逐条阅读校勘文件，把隐藏其中的被定性为正确原文的字符识别出来、对照原文进行更改，然后才能形成一个具体有形的正确文件。

更正原文中的讹误字，最简单的方法就是根据校勘文的建议，直接改动原文，不过这会破坏原文，不符合本项研究的基本原则，也是古籍校注者努力避免的做法。郭霭春在《黄帝内经素问校注》[5]中明确规定：“凡底本文字，一律不予改动，一切问题，在校文中说明。”刘渡舟[6]在《伤寒论校注》中说：“我们除了直接改正了其中明显的错字以外，其余文字，一律不加改动。改正了的讹字，在校注后记中已做了说明”。

另外一种方法就是在原文与注文之间增添一个新项目，使原文句子中的每一个词W跟这个新项目中的每一个词W始终保持如下所示的一一对应关系：原文句子S →W1、W2……Wi……Wi+1；正确原文R→W1、W2……Xi……Wi+1。

该模式由“S”和“R”两行组成。S行表示：原文中的一个句子S依次由i+1个词W排列而成，可简写为“S.Wi”。对应的R行是S行的复制品，用来接受一切更改操作。如果校勘文中认定Wi是一个讹误字，那么就根据该校勘结论把R行中的Wi改写成为Xi，可简写为“R.Xi”，即讹误字情况下，S.Wi≠R.Xi。

例1：醉以入房，以欲竭其精……以在《备急千金要方》卷七第一、《外台秘要》卷十八中并引作“已”。“醉已”犹言“醉甚”。《诗·蟋蟀》毛传：“已，甚也。”“以”应做“已”。《黄帝内经素问校注·五脏生成》中注“醉甚入房，故心气上胜于肺矣”[5]。

按照创建的更改模式，此句更正后的正确原文R以及其跟原文S中每一个字符之间的对应关系如下所示，其中的第2个字符S.W2≠R.X2：

原文句子S→醉以入房……

正确原文R→醉已入房……

这种添加新行的方法在校注著作中肯定行不通，但在计算机系统中，这种添加方式却是一种非常简单方便的操作。按照这个双行模式，所有讹误字更正任务完成之后，在R行就形成了一份可供研究人员使用的正确原文，而S行的原文始终保持不变。实际上，这里的S-R相互对应的模式就是一种结构化的文件形式，也是一般计算机程序都能够轻松处理的文件格式。再者，由于S-R行上的字符始终保持一一对应的关系，研究人员不但可以随时查阅原文S的情况，还可以根据S.Wi≠R.Xi的特征开展一系列对比性质的研究工作，比如统计原文S中错讹字符的总量，以此来评价原文的受损程度，及时向钟情原文的文献使用者发出原文错误的风险警报。遗憾的是，这个两行模式只能解决S-R行上一一对应的错讹字问题，只是一个基本模式，太过简单，还不足以处理更为复杂的问题。

2 脱文、衍文的更正模式

原文中除了有讹误字之外，还有脱文、衍文、颠倒、错简等多种错误。针对这种问题，可以继续使用刚刚创建的基本模式，不过需要在其中添加一个特殊符号以便能够处理这种问题。具体如下：原文句子S →W1W2……Ln……Wi……Wi+1；正确文件R→W1W2……Yn……Xi……Wi+1。这是基本模式的一种扩展形式，其中添加了一对要素“Ln”与“Yn”，表示原文句子中第n个位置存在脱文或衍文的情况。校勘实践中，脱文情况下，“S.Ln”的位置用空置符号“0”填充，脱落的文字写入对应的“R.Yn”位置，具体如例2所示。衍文情况下，对应的“R.Yn”位置直接用空置符号“0”填充，具体如例3所示。脱文又无正确文字的情况下，两行同时用空置符号“0”填充，具体情况如下列例4所示。为了行文简洁，下文中所引用的原文直接放在S行，并使用分词文件格式，R行表示正确原文：

例2：S→味厚则泄，薄则通0。《备急千金要方》卷二十六第一引“通”下有“流”字。按《备急千金要方》。“通流”与上“泄利”对文。

例3：R→味厚则泄，薄则通流。

原文句子S→寒胜则浮，湿胜则濡泻。《黄帝内经太素》卷三“濡”下无“泻”字，《类说》卷三十七、《医说》卷六引并同。

R→寒胜则浮，湿胜则濡0。

例4：原文句子S→其政为静，其令0，本阙(《素问·五运行大论》，王冰注)。

R→其政为静，其令0。

需要说明的是，无论是原文S还是正确原文R中所添加的空置符号“0”都可以很轻松地删除，它们并不会影响这两种文件的原貌。再者，文字颠倒、句读等错误问题也可以根据基本模式生成其他扩展模式进行处理，为避免繁琐，本文不再讨论。另外，错简是久远年代的古籍中另一种常见的错误，上述模式目前还难以处理这种错误，下文不再提及。

3 更改错误字符的标准及更正模式的改进

确定怎样创建一个正确原文的方法之后，接着讨论怎样认定原文中的错误以及使用什么字符替换正确原文R中的字符。表面上看，这个问题似乎很简单，因为校勘者往往都会以非常明确的校勘用语表明是否需要进行更改操作。例如郭霭春在他的校注说明中就规定：“凡底本与校本或据校各书不一，显系底本有误者，均出校文，并注明某某误、某某是、某某衍、某某当删等字样”。此种条件下，只需采用校勘者的校勘意见，把既定模式中的字符替换成为校勘者提供的字符就可以圆满完成任务。例如《黄帝内经素问校注·生气通天论》曰：“逆秋气，则太阴不收，肺气焦满”，其中的“焦”字，王冰虽然训为“上焦”，宋朝的林亿也给出了校勘建议“焦满全元起本作进满，甲乙、太素作焦满”，但是郭霭春的校勘意见为“烦”。此种情况下，只需按照郭霭春的意见，把R中的 “焦”更改为“烦”即可。然而，具体注释文件中，有些校勘意见却非常模糊。《黄帝内经素问校注·生气通天论》曰：“天地之间，六合之内，其气九州九窍。”郭霭春对“九州九窍”的注释为：“俞樾曰：九窍是衍文，九州即九窍。胡澍曰：九州二字疑衍。是二者必有一衍。郭霭春虽然同意该句中有衍文，但并未指明“九州、九窍”两者之中哪一个是衍文，如果选用“九窍”作为衍文，这是俞樾的意见而不是当前校勘者郭霭春的意见。同篇中的另一个句子“譬犹渴而穿井，斗而铸锥，不亦晚乎！” 郭霭春关于“锥”的校勘意见为“……《太素》卷二《顺养》作‘兵’，与各校本合……‘锥’之本义，仅为锐利，与‘铸’字不合”。这个校勘意见非常明显地倾向于更正操作，但却没有使用“当作、当是”等明确的校勘用语。

再者，当一部古籍只被校注过一次的时候，就只能采用一家之言，只能根据当前校勘者的意见在R行中更改讹误的文字。然而，如果一部古籍曾被多位校注者校勘，或者一部古籍中的某个句子被专题讨论并且其校勘意见被普遍认可，但当前校勘者并未提及这些校勘意见，此时应该如何处理这些校勘意见呢？钱超尘[7]在《内经语言研究》中对很多句子提出了很中肯的校勘意见，例如《素问·脉要精微论》中的句子“浑浑革至如涌泉，病进而色弊，绵绵其去如弦绝，死”，他从“字脱而失韵”的角度把此句校勘为“浑浑革革，至如涌泉，病进而危，弊弊绵绵，其去如弦绝，死”，恢复了“至如涌泉、弊弊绵绵”的押韵格式。钱健雄[8]认为，《素问·缪刺论》“剃其左角之发方一寸，燔治，饮以美酒一杯”以及《灵枢·邪客》“治半夏五合” 中的“治”，应该为“冶”，“燔冶”意谓焚烧碾碎。有学者认为，《素问·上古天真论》“不知持满，不时御神”中的“时”应该为“识”[9]。这些校勘意见均有理有据，但并没有纳入当前的校勘本，是否应该采纳这些校注著作以外的校勘意见呢？

以上种种情况显示，根据校注文件更正原文中的错误，认定错误的标准只能采用当前校勘意见为主、其他校勘意见为辅的方式。当前校勘意见指研究中所选用版本中的校勘结论，其他校勘意见指当前校勘者引用的各种参考意见以及当前校勘者未能涉及的既往校勘意见。以当前校勘意见为主的方法，可以简称为当前法，指存在多种校勘意见的条件下优先采用当前校勘者的校勘意见；以其他校勘意见为辅的方法，可以称之为辅助法，指当前校勘者没有明确的校勘意见或者其校勘意见被其他校勘者证实有误的条件下，按照学术界普遍认可的原则，选用其他校勘意见。

这里需要高度关注的是，辅助法是以正确原文R的创建者的主观判断为依据的，一个理想的创建者应该是一群专家，所选取的校勘意见也应该随着古籍校勘研究的不断深入而能够进行更新。为了能够克服这种主观判断的缺陷，可以再次扩展上文中创建的基本模式，把所选校勘意见的提供者标记出来，以便被选择的校勘意见不再被学界普遍认可时能够方便地对正确原文进行更新，具体方法简略说明如下：

S→醉以入房……

R→醉已入房……

A→0郭霭春……

这个模式由三行组成，S行与R行继承自上文中的模式，新增的A行专门用来标记校勘意见的来源。没有更改记录的情况下，A行的各个位置用空置符号“0”填充；有更正意见的情况下，校勘意见的提供者就是标记符号。此例中，该模式的第二个位置上(即S.W2、R.W2、A.W2)的“以……已……郭霭春”相互对应，构成一条校勘记录，表示正确原文R中的“已”是校勘者“郭霭春”提供的。假如关于“已”的校勘意见发生了变化，笔者就更改R.W2与A.W2相应的字符。

显然，这个模式所形成的文件依然具有清楚而稳定的结构，可以交给计算机程序做进一步的处理。利用计算机程序，笔者就可以轻松地统计全文校勘的总量、统计每位校勘者的贡献数量、甚至抽取他们所校勘的具体文本等。

4 复杂问题引起的更正模式

从古籍整理的角度分析，三行更正模式所讨论的问题都是因原文受损而引发的更正操作。在实际文本中，有些注释项目如避讳字、异体字、古今字等虽然都是古籍创作者所使用的字符，但依然必须进行更正。事实上，对于缺笔画的避讳字，在原文S中就必须以完整的字形输入计算机。异体字如“肾者主水，受五藏六腑之精而藏之(上古天真论篇第一)”中的“五藏、六府”，根据简体字使用规范也应该更改为“五脏、六腑”。此时，按照三行更正模式，被更正的字符应该在A行中相应的位置标明校勘者。为了能够区别R中被更改字符的属性差别，可以把这种类型的更改操作定义为强制型更改，也就是在A行设置两个特殊符号“异体”或“避讳”来标记这种注释性的更改项目，具体方式如下所示：

S→受五藏六腑之精而藏之……

R→受五脏六腑之精而藏之……

A→0 异体异体 0 0 0 0 0 0……

这里A行第二、第三个位置上(A.W2、A.W3)的标记符号“异体”表示正确原文R.W2、R.W3位置上的字符是被强制更改的字符。“异体”与“避讳”符号虽然不是校勘者，但是却可以像校勘者一样地指明更改操作的来源，也可以像统计每一位校勘者的贡献一样地统计“避讳”或者“异体”字的使用总量。

按照更改避讳字的方式，假借字、通假字似乎也应该加以处理，因为假借通假所涉及的对应字往往不易判断，会引发语义理解困难，如果更改，就可以避免误解句义的情况发生。例如，《黄帝内经素问校注·生气通天论》中的句子“道者，圣人行之，愚者佩之”，王冰认为“佩”就是佩服之义，林亿没有提出异议，说明他同意王冰的注释。这种误解一直延续到清朝胡澍指出该字应该为同音假借字“倍，反也”才得到纠正。《黄帝内经素问校注·四气调神大论》中的句子“天明则日月不明，邪害空窍”，其中的“天明”，唐王冰训为“天所以藏德者，为其欲隐大明，故大明见则小明灭……”显然他误解“明”为“明亮”之义。此后历代校勘大儒均未提出异议，直至郭霭春提出“明”通“萌”，“萌”再通“蒙”的校注意见，句义才霍然明朗起来。这两个例子说明，假借字、通假字虽然属于古籍原文中的正常字符，不应该算作校勘项目，但是如果让这些字符继续待在正确原文中而不加处理，在无注释文件的条件下，误解原文语义的情况几乎就无法避免，更改应属无奈之举。

然而，基于正确原文的研究项目对语言材料可靠性的要求可能极其严格。例如朱冠明[10]对句子“臣被尚书召问”的讨论，一份材料是否可靠就可能导致“被NV”句式出现的时间相差几百年；《素问·本病论》中“民病夭亡，脸肢府黄疸满闭”，其中的“脸”开始使用于汉代，一个字就足以把该篇的创作时间限定在汉代以后。对于这种研究来说，更改假借字、通假字就等同于破坏原文，是不可接受的。因此，假借字、通假字虽然应该处理，但不能在正确原文R行中处理。为了解决这种问题，可以进一步扩展第四节中提出的三行模式，再增加一个E行，组成一个四行模式来标记假借字、通假字等情况，具体方式如下：

S→愚者佩之……

R→愚者佩之……

A→0 0 0 0 0……

E→0 0 背 0 0……

该模式中，新增的E.W3位置上的“背”跟R.W3位置上的“佩”对应，表示假借字关系，本质上是注释“佩”的意思，即E-R两行之间是解释与被解释的语义关系。此时，A.W3位置为空置符号“0”，可以利用这个空置位置，再次定义两个强制型标记符号“假借、通假”，以更明显的方式来说明E.W3与R.W3之间这种强制性的对应关系。也就是说，该模式中A.W3位置上的标记符号可以改写如下：

A→0 0 假借 0……

E→0 0 背 0 ……

如此以来，就可以借助这两个标记符号对假借或通假的数量进行统计，也可以查找或者抽取假借字所在的句子等。更为重要的是，E行上的各个位置也就此被强制符号“假借、通假”划分成了“标记”和“非标记”两种类型。标记类型已经专用于说明假借字和通假字关系，非标记类型可以留作他用，比如用来标注正确原文R中字符的意思。这种情况已经超出本文的研究范围，本文不再讨论。

5 结语

根据校注文件生成正确原文的过程比较繁杂，也可以算作古籍校注成果难以被应用的一种证据。运用计算机技术把校注成果转化成为这个正确原文，不仅可以把古籍文献的使用者从查阅大量校注文件的苦海中彻底解放出来，也可以使古籍校注者能够继续把精力集中在古籍文献校注方面。从此意义上讲，古籍校注模式就是古籍校注研究与古籍文献应用研究之间的枢纽。本文中提出的四行更正模式是一个相互依赖的整体，其中的R行实现了古籍校注的终极目标，形成了一份具体可靠的正确原文；S行满足了校勘过程中保护原文的需求；A行中的标记符号标明了各种被校正字符的依据，为以后的数据统计与信息抽取奠定了基础。但是E行仅仅涉及语义注解中的特殊问题，尚有待进一步深入研究。