陈大康
(华东师范大学 中文系,上海 200241)
统计学是研究如何搜集、整理资料和进行数量分析、推断的综合性科学,它根据特定问题设置指标,将众多现象抽象为数字,并有针对性地设计数学模型来处理数据,勾勒研究对象的行进轨迹,归纳其间的规律,以及展现非如此处理就难以观察到现象。各种文学现象可抽象为数字,不同层次、侧面或选取不同指标的统计,可得到容量可观的数据体系,而面对大范围或大数量事物数,统计更有便于人们把握全体、描绘态势、勾勒走向与显示特征等独特优势。
清代小说研究中,顺治、康熙与雍正三朝历来视为一个历史阶段,并认为此时间段里创作发展比较均衡平稳。可是这90年里,(1)清军占领小说主要创作与刊行地江浙一带是顺治二年(1645),此处所言90年,是指顺治三年至雍正十三年(1735)。政治局势与社会氛围前后截然不同。前期战乱频仍,自然灾害接连发生,直到康熙三十年(1891)左右社会才逐渐稳定。其后凋敝的经济逐渐恢复,经过约半个世纪发展,才迎来了乾隆盛世。将通俗小说按清初前、后期作统计,可发现其态势完全不同:
前期的通俗小说几为后期的五倍,即使将“时间不明”的20种都归入后期,仍不及前期数量一半。数据揭示了先前未曾发现的事实:小说创作在战乱动荡的前期相当繁荣,在社会趋于稳定、经济逐渐恢复的后期反而是跌入萧条。数据本身无法解释为何会有如此之大的落差,但根据它的提示分段考察当时影响创作的实际情况,却可有新的收获。
前期的社会大动荡迫使作家们直面现实生活, 同时也为创作提供了极为丰富、生动的素材,鼎革之变还为创作增添了两类作家:一是不愿臣服新朝的遗民,陈忱创作是为了表达“肝肠如雪,意气如云,秉志忠贞,不甘阿附”(《水浒后传序》)的志向,寄托对权奸贵宦之愤与亡国孤臣之恨;寉市道人愤于变节求荣者的无耻,“摘所详忆一事,迅笔直书”,写才子佳人在“敌人分道南侵”之际立功的故事(《醒风流传奇序》);七峰樵道人则在《海角遗编》中点名斥责钱谦益变节并揭露清军的凶残暴虐。没有彻骨的亡国惨痛,他们未必会写小说,而借助这行世广远的文体, 可在最大范围内宣传民族大义与表达爱国情操。另一类是原本向往乘时显达的文人, 他们因美梦被战乱粉碎而转向创作。烟水散人痛于明亡而创作燕、齐两国复国的《后七国乐田演义》,天花藏主人则有“女真虽兴宋不亡,江山倾纪忠臣整”(《后水浒传序》)的耿耿忠怀。他们创作含有自娱或摆脱谋食方艰困境的动因,但毕竟抒写了对生活的感受,“凡纸上之可喜可惊,皆胸中之欲歌欲哭”,并又“借乌有先生以发泄其黄粱事业”(《平山冷燕序》),让笔下主人公实现自己已付诸流水的向往与追求。沸腾剧变的现实是那些作家创作的大背景,封建统治者的腐败贪酷与荒淫昏庸、为富不仁者的巧取豪夺与横行霸道、儒林人物的投机钻营与为虎作怅,以及下层劳动者的机智勇敢与高尚品格, 这些无不现身纸上,许多作品还直接描写了眼前战乱给人民带来的苦难,这些内容构成了当时创作贴近现实的特点。
可是在社会安定的后期,文人们思想在封建正统教育禁锢下形成,对先前天下大乱至多只有依稀印象。他们热衷科举而不屑于创作,即使作小说者如石成金,也视此为“不独并无学问,而且伤风败俗,摇惑人心”的末等书,(2)石成金:《人事通》,郑州:中州古籍出版社,2002年。他写小说只是为了“晓示愚蒙”(袁载锡《雨花香序》),宣扬教化,而前期作家将小说与经传并列,“终不敢以稗史为末技”(睡乡祭酒《十二楼序》),甚至认为可“惊天动地,流传天下,传训千古”。(3)佩蘅子:《吴江雪》第九回《小姐密传心事,雪婆巧改家书》,《古本小说集成》第四辑,上海:上海古籍出版社,1994年。官方的打击使小说地位在后期急速跌落,当时它被罗织了两大罪状:“宣淫诲诈,备极秽袅,汗人耳目”(4)汤斌:《汤子遗书》卷九《严禁私刻淫邪小说戏文告谕》,北京:人民出版社,2016年。,以及“其小者甘效倾险之辈,其甚者渐肆狂悖之词”(5)琴川居士:《皇清奏议》卷二十二,引自王利器:《元明清三代禁毁小说戏曲史料》,上海:上海古籍出版社,1981年。。康熙帝还亲自批评小说“败坏风俗,蛊惑人心”,(6)《大清圣祖仁皇帝实录》卷一百二十九,北京:中华书局,2008年。下令严禁。一次次禁毁来势凶猛,威慑影响前所未有,这是后期创作萧条的重要原因。
上述误判源于时间段划分欠妥,有时产生误判则是因为只顾及一点而未考虑周边情况,或是仅静态考察而未观察其发展变化,如因某几篇“多羼入诗词。其甚者连篇累牍,触目皆是,几若以诗为骨干,而第以散文联络之者”,便将明代中篇传奇判为“以诗与文拼合”的“诗文小说”。(7)孙楷第:《日本东京所见小说书目》卷六“明清部五”,北京:人民文学出版社,1981年。统计可核验这一直被沿用的结论,下表中诗文篇幅占比与千字含诗词数指标显示了诗文羼入程度:
表二 明代中篇传奇诗文羼入一览表
(续表)
《钟情丽集》与《龙会兰池录》诗文羼入篇幅都过半,《怀春雅集》的占比也超过40%,均可称为“诗文小说”。不过这是中篇传奇诗文占比上升的峰值,其后则呈下降态势,除《金兰四友传》等三篇为30%外,余多为20%左右,而《传奇雅集》只有6%,《痴婆子传》更是跌至0.26%。以占比最高者为样本,不顾其后诗文羼入占比进入下降通道的事实,将中篇传奇都称为“诗文小说”显然不妥。而且,诗文羼入占比高的现象并非中篇传奇所独有,明初瞿佑的《剪灯新话》首开高比例羼入诗文的风气,书中某些篇章占比相当高:
表三 《剪灯新话》部分篇章诗文羼入一览表
书中这五篇诗文占比超过30%,另有七篇虽含诗文,但数量较少,而《三山福地志》等九篇无任何诗文插入。不过,瞿佑高比例羼入的格式颇为文士们赏识与效仿,随后李昌祺《剪灯余话》收作品二十一篇,无一没有诗文羼入,占比超过30%者已达十篇,有三篇竟超过50%:
表四 《剪灯余话》部分篇章诗文羼入一览表
全书共60,827字,诗文羼入却有17,424字,约占30%,书中含诗词共有206首,已可集为诗集,篇幅与之相当的《剪灯新话》所含诗词为70首。瞿祐首开先例,李昌祺又将这种样式推至极端。
上两部作品对后来创作影响极大,百年后陶辅创作《花影集》时就声明,其“吐心葩,结精蕴”是效法瞿佑与李昌祺(《花影集引》),若无与时尚相适应的创作观为支撑,他不会如此选择。该书也以多羼入诗文为重要表现手法,有些作品羼入程度还超过了一般的中篇传奇:
当时通俗小说创作中也常见多羼入诗文的手法,《西游记》第一回羼入诗词18首,共1,211字,占比22.14%;《封神演义》第一回羼入诗词7首,文1篇,共820字,占比26.60%。熊大木撰写《大宋演义中兴英烈传》时以“岳王著述”为题写道:“以王平昔所作文迹,遇演义中可参入者,即表而出之”,另又镶嵌了许多诏旨、奏章、书信之类,书中某些章节已越出小说体例。其时话本创作亦是如此,《风月相思》中插入诗词30首,文1篇,篇幅约占全文4,766字的38%,而后来早期拟话本创作,因承袭话本多征引诗词手法,羼入占比也相当高。
总之,羼入诗文是当时创作的一种时尚,并非仅是中篇传奇,而且自《钟情丽集》之后,该流派羼入占比已在下降。万历中期以后中篇传奇基本已无新作问世,但诗文羼入占比减少的趋势仍在其他创作中继续。到了清初,多羼入诗文现象已基本绝迹。即使以诗词唱和为重要情节的才子佳人小说,千字所含诗词一般也只是一首左右。综合上述统计可知,命名中篇传奇为“诗文小说”实不恰当。
对晚清傅兰雅征集“时新小说”活动的统计,同样也是纠正误判的例证。光绪二十一年(1895)五月,英国传教士傅兰雅征集以消除鸦片、时文与缠足三大弊端为题材的小说,美国学者韩南率先称此事为近代“新小说”先声,并认为它“的确在某种程度上影响了晚清小说的总体方向”(8)韩南:《中国近代小说的兴起》,上海:上海教育出版社,2004年。,一些国内学者也纷纷呼应。作出这一判断时,谁也没见过那些征集稿件;而且它们也从未发表,所谓“影响”晚清小说发展只是凭空想象。162篇征集稿中的150篇于2006年被发现,征文活动的基本面目已可知晓,学界评价却一仍其旧,或称“激发了晚清小说变革的端绪”,“拉开了晚清新小说创作的序幕”(9)刘琦:《晚清“新小说”之先声》,《北华大学学报》2012年第3期。,或云“启发了晚清小说乃至谴责小说的发展方向”(10)许军:《傅兰雅小说征文目的考》,《山西师大学报》2012年第1期。,甚至“促成了中国现代小说的萌芽”(11)周欣平:《清末时新小说集序》,《清末时新小说集》第一册,上海:上海古籍出版社,2011年。。可是那些稿件仅三分之一为小说,内容形式均与传统小说无异,傅兰雅甚至批评它们“仍不失淫词小说之故套”(12)傅兰雅:《时新小说出案》,光绪二十二年二月初五日《万国公报》第八十六册。。
翻阅那些稿件,浓厚的宗教气息扑面而来。傅兰雅要求针对鸦片、时文与缠足“撰著新趣小说,合显此三事之大害,并祛各弊之妙法”(13)傅兰雅:《求著时新小说启》,光绪二十一年五月初二日《申报》。,可是他看到的却是“要食救主鱼饼,不吸毒烟鸦片;要读圣神《书》、《约》,不尚虚假时文;要学夏娃大脚,不可爱小缠足”(14)毛芝生:《戒鸦片时文缠足小说》,《清末时新小说集》第十四册,上海:上海古籍出版社,2011年。之类。应征者连篇累牍地颂扬上帝,将这次活动当作向教会表忠心的机会。下面是对那些来稿的统计:
约三分之二应征稿热烈赞美天主,相关文字也证明教会在从中组织。莆田宋永泉“仿《天路历程》寓意之例”(15)宋永泉:《启蒙志要》,《清末时新小说集》第八册,上海:上海古籍出版社,2011年。应征是看到福建教会《会报》的启事;济南府李凤祺是“适有友人在浸礼会抄示题纸”(16)李凤祺:《无名小说》所附信函,《清末时新小说集》第八册,上海:上海古籍出版社,2011年。,这是教徒们辗转相告教会发布的消息;青州府张德祥则云:“余方看《新约》一书,忽有人送题到,上有三题,命作时新小说。”(17)张德祥:《鸭(鸦)片、时文、缠足》,《清末时新小说集》第十四册,上海:上海古籍出版社,2011年。上门送启事,当地教会工作可谓细致周到,“命作”则点明这是布置作业。孝感县福音会堂是来稿大户,该堂陶牧师还亲到上海傅兰雅处送稿,统一的稿纸与信封,连题目都一律为《鸦片时文缠足小说》。傅兰雅在英文《教务杂志》的《有奖中文小说》中指出,征文活动依赖“在华各个传教士机构的牧师”,以保证“用基督教语气而不是单单用伦理语气写作的小说”(18)据周欣平:《清末时新小说集序》,《清末时新小说集》第一册,上海:上海古籍出版社,2011年。。征文从开始就带有浓重的宗教色彩,且来稿只有三分之一符合小说体例,宗教意义明显大于文学意义,与后来的“新小说”更毫不相干。
认为晚清小说发展都在梁启超“小说界革命”主张笼罩之下也是一种误判。小说地位提升,作品数量爆炸式增长,这确是梁启超倡导的效应。但他主张的关键是小说为政治服务,鼓动大众拥护维新变法,故有“政治小说为功最高焉”(《译印政治小说序》)之语。可是其后政治小说仅31种,只占总数0.59%,足证呼应者寡,而且那些描写直露、偏于政治呐喊的作品被批评为“开口便见喉咙”,“于小说体裁多不合也”(19)公奴(夏颂莱):《金陵卖书记》,张静庐辑《中国现代出版史料(甲编)》,上海:上海书店出版社,2011年。,批评矛头甚至直指梁启超:“今言小说者,莫不多立名色,强比附于正大之名,谓足以益世道人心,为治化之助。说始于《论小说与群治之关系》一篇。”(20)独应(周作人):《论文章之意义暨其使命因及中国近时论文之失》,光绪三十四年五月初七日《河南》第五期。当时侦探、言情小说最受欢迎,政治小说几无人问津,书局为生存与发展,将迎合读者阅读意向列为经营的第一要素。事实偏离了梁启超的预想,这又是必然的,因为主宰小说出版与传播的是市场,而不是什么政治号召。
有些文学现象涉及对象众多,头绪扑朔迷离,难以厘清其间规律与变化趋势,如近代小说在七十二年间就完成了古代小说到现代小说的转换,其间作品题材、作家成分与传播方式都发生了巨大变化,情况繁杂远超以往。此时借助统计有助于框定那纷纭繁杂、把握不易的变化状况与趋势,勾勒其运动轨迹与规律。
表七 近代小说出版一览表
(续表)
道光二十年(1840)至同治十三年(1874)的三十五年,是古代小说的惯性延续,单行本小说年出2至3种,出版方式如同以往,报刊小说则在同治末刚开始出现。光绪元年(1875)到二十年小说观及创作格局无较大变化,小说数量稍有增长。同时,印刷业开始近代化改造,从西方引进的先进印刷设备与技术逐渐占据主导地位,为其后小说迅猛发展提供了物质基础。光绪二十一年(1895)至二十八年间,甲午战败、戊戌变法与庚子国变先后发生,小说单行本与报刊小说数量受时局急剧动荡刺激明显增加。“小说界革命”使光绪二十九年(1903)小说单行本与报刊小说都出现跳跃式增长,光绪三十二年(1906)又一次猛增,这是人们小说观改变后的普涨。此后,出版数量基本处于稳定状态,表明影响小说发展各因素关系进入相对平衡阶段。
小说单行本与报刊小说的发展态势基本吻合,由此可看出近代小说发展的总趋势,但表中也有两处相异:报刊小说在光绪三十四年(1908)明显增长,小说单行本却变化不大;小说单行本在宣统朝呈下降态势,报刊小说却在继续攀升。新的报刊不断涌现以及翻译小说单行本的变化是造成差异的主要原因:
表八 近代翻译小说出版一览表(21) 只统计新出翻译小说,报刊登载后出版单行本者未统计在内。
翻译小说单行本出版在光绪三十三年到达顶峰,其后迅速锐减,这是以往未曾意识到的重要现象。其实,翻译小说出版到达顶峰时,营销者已觉察到读者热情的衰退:“向之三月而易版者,今则迟以五月;初刊以三千者,今则减损及半”(22)徐念慈:《丁未年小说界发行书目调查表引言》,光绪三十四年二月《小说林》第九期。;“新译者岁有增加,而购书者之总数,日益见绌”(23)觚庵:《觚庵漫笔》,光绪三十三年十二月《小说林》第七期。,而这是由译者与书局追求快速牟利所造成。《巴黎茶花女遗事》与福尔摩斯探案等介绍到中国后很快引起强烈反响,书局急于抓住商机又苦于译稿不多,便愿以高价收购,为逐利“争译泰西各种小说”(24)陈春生:《再版自序》,载《五更钟》,上海:美华书馆,光绪三十三年。,催生了粗率风气。译者队伍骤然扩充,“甚至学堂生徒,不专心肄业,而私译小说”(25)新庵(周桂笙):《说小说·海底漫游记》,光绪三十三年三月十五日《月月小说》第一年第七号。;“浅尝之士,每未能融会书意,涂乙一二联络词,卤莽卒事,甚者且竞骛牟谋为速,是尚不暇问于义之安否,驯致所译之书格格不堪卒读。”(26)开明书店:《群谊译社广告》,光绪二十九年正月十六日《大陆》第三号。翻译小说出版高潮在此背景下形成,可是上过当的读者很快觉悟,出版数量也就迅速随之下降。读者并没有拒绝翻译小说,经他们筛滤出的杰作还在不断再版。读者是阅读市场上最强大的力量,其共同选择迫使翻译小说出版的虚火消退,重回正轨。
上表还揭示了一个事实:翻译小说单行本出版及变化主要发生于上海,商务印书馆与小说林社为其重镇。当时上海近代化程度最高,对外交流发达,获取海外书籍与报刊易于其他地区,译者也多集中于此;这里又书局林立,出版较易。同时,各地都出现不少也刊载翻译小说的报刊,因此这类作品聚集于上海的程度便略低于单行本,下以日报所载为例:
表九 近代日报小说地域分布表(27) 未计海外日报小说。现知海外日报小说共609种(自著577种,翻译32种),其中转载占不小比例。
上表同时又展现日报自著小说的地域分布,上海约占60%,若再扣除京津与粤港地区,其他各地总和仅占二成,自“小说界革命”以降,整个近代小说产出的格局即是如此。根据研究需要还可设定不同的指标作统计,这样通过若干统计表就基本把握了近代小说整体格局,了解其走向及重要变化,在随后的研究中就可心中有数,不致于发生大的偏移。
研究涉及的对象越繁杂,统计就更可展现其优越性。数十年来明清小说研究论文数以万计,对全局把握与趋势估价难免会出现分歧,这不仅是因为各人观察切入点与层次不同,更重要的是缺乏共同的客观基础,而这恰可由统计提供。操作时先分解为明、清两块,它们各自又分为通俗小说与文言小说,分别统计后再综合为一个整体:
表十 1950~2000年明代通俗小说研究论文分布表(28) “三言二拍”常被作为一个整体研究,故表中归为一类。以下考察也有类似情况,不另作说明。
“四大奇书”是研究热点,相关论文6,183篇,占比87.99%,其中《水浒传》更达2,748篇;“其他作品”虽包含小说百余种,可是相关论文仅256篇,占比3.64%,即相当大一部分作品未受关注,甚至未进入研究视野。数据反差之大,凸显明代通俗小说研究分布的不平衡。明代文言小说共约500余种,远多于通俗小说,可是五十一年里相关论文仅69篇,占明代小说研究论文总数7,096篇的0.97%,且又集中于《剪灯新话》。数据表明,明代小说研究状态是文言小说冷、通俗小说热,约九成力量集中于 “四大奇书”,研究状态严重失衡。
清代小说研究状况如下表:
表十一 1950~2000年清代通俗小说研究论文分布表
《红楼梦》研究最醒目,五十一年间相关论文高达8,756篇,占比81.04%,而同阶段明代“四大奇书”相关论文数之和才6,183篇。同时,归入“其他作品”共有800余种,论文数却仅占5.02%,显然未受关注,甚至未进入研究视野的作品甚多。这些数据提示人们,清代通俗小说研究状态的失衡,甚于明代通俗小说。
清代文言小说因有部《聊斋志异》,研究论文较多,分布如下表所示:
表十二 1950~2000年清代文言小说作家作品研究分布表
清代小说研究主要集中于《红楼梦》,其次是《聊斋志异》与《儒林外史》,但后两者论文数之和只抵得上前者四分之一,更遑论其他作品,状态同样是严重失衡。
依据以上三表184个数据,可对五十一年间明清小说研究状态作框架性把握,以它们为基础再设置指标与计算,还可进一步具体了解。如通过对1977~2000年各作品研究在各时间段研究总体中的占比,可观察到进入新时期以来研究的变化及趋势。这二十四年里,《水浒传》研究比重从近50%降至不到20%,而1989~2000年的十二年里,基本稳定在18%左右;长期遭禁的《金瓶梅》的研究占比迅速增加,最初不到8%,高峰时竟已达37%强,受思想解放思潮的推动,相当一部分研究力量便移至此处。同时,“其他作品”的研究比重在不断增长,但速度相当缓慢,首尾相较,只增长1.39%,呈现平缓上升态势。对清代通俗小说研究作占比计算,也可发现类似变化。如果将《三国演义》《水浒传》《金瓶梅》《西游记》《聊斋志异》《红楼梦》《儒林外史》七部名著视为一个整体考察其研究占比,经计算可发现五十一年间无论是哪个时间段,人们的时间与精力主要都集中于它们,这也是明清小说研究状态不平衡的重要表现。
整个古代文学研究界也同样失衡。1990~1999年相关论文30,963篇,扣除文论研究3,272篇与少数民族作品研究740篇,则为26,951篇,下表按体裁与时间段显示其分布:
表十三 1990~1999年古代文学研究论文分布表
按时间段,隋唐文学研究占比最高,其次是不含近代的清代文学,而两汉文学研究占比相当小;按体裁计,诗歌占比最高,其次是小说,两者论文数占总数57%强。上述结果其实是同一指向,隋唐文学占比高的原因是唐诗研究论文多,而清代小说研究占清代文学研究74%。
若更精细切分指标再细察论文分布,失衡状态更为严重。在26,951篇论文中,论述特定作家作品的论文18,368篇,占比68%强,它们又集中在个别的点上,这可由下面的“排行榜”证明:
表十四 1990~1999年古代文学作家作品研究前十名排行榜
古典文学中的作家作品何其多也,可是十年里集中在10个点上的论文已达8,256篇,将近占了一半。具体到各个领域也同样如此,如唐诗研究中,对杜甫、李白、白居易、王维、李商隐、李贺六人的研究就占66%,而明代戏曲研究中,对汤显祖一人的研究就约占53%,呈现的都是失衡格局。
重要作家作品确应重点研究,且应不断向纵深开掘,但实际情况却非如此。《红楼梦》研究中,1950~2000年仅论题标明讨论宝玉与黛玉爱情的就近400篇,虽未标明而实际讨论者也以千计,宝黛爱情有必要弄出如此庞大的论文群?仅1990~1999年,关于《杜十娘怒沉百宝箱》的讨论竟有数十篇之多,结论同一,论述方式甚至语言表述也大同小异。古代文学研究是一个极其广袤的领域,统计数据却表明,绝大部分研究力量都投置于数十个点,产出却是大面积、高密度与低水平的重复。
此现象年复一年地再现,经长期积淀已到触目惊心的地步。它与发现、解决问题的研究初衷明显抵触,不少人却乐此不疲。这与研究视野受局限相关,也有将研究价值,甚至研究者价值与研究对象价值挂钩的误解,但撰文者对所获成果与投入时间、精力之比的考量起了决定作用。有关名著的资料经前辈学者辛勤耕耘已相当齐备,可参考的论述亦多,成文较为方便;若致力于几无人问津的作家作品,仅搜寻相关资料就极费时费力,且不能保证短时间内就能有相应收获。追求的目标只是论文发表,而非发现与解决问题,这种现象出现就不可避免,它竟形成大规模态势,则意味着现行学术评价机制有严重缺陷。问题该如何解决,这不是统计所能承担的任务,但它以可信的数据引导人们注意到严重性,就已作出了自己的贡献。
一个流派从诞生到消亡,它的某些特征会逐渐变化,传统的考察方法有时对此很难讲清楚,而统计则可承担这一工作。如有头回与引证诗词是拟话本的形式特征,而统计表明,随着创作发展,它们是在逐渐走向消亡。
表十五 拟话本含头回情况表
冯梦龙创作《三言》时似乎并不十分看重头回,《喻世明言》、《警世通言》与《醒世恒言》都只约三分之一作品有头回,稍后凌濛初《二拍》与周清源《西湖二集》中头回占比都高达90%以上,该特征应是此时形成,但其后开始呈下降趋势。《型世言》无头回者已达40%,即使有头回,与《三言二拍》的详尽铺叙也大不相同,多混入文前入话,且仅作为例子极简略地提及。同时的《欢喜冤家》中,有头回者已锐减到1篇,占比不到5%,《醉醒石》的占比也仅三分之一。入清后,头回已是时有时无,占比高者如《豆棚闲话》约有60%,《生绡剪》中约占50%,其形态也是重议论且为简略提及的例子。李渔的《十二楼》中,无头回者竟占75%,《八段锦》是近90%,而《照世杯》与《五色石》中已不见头回踪影。作者们多不愿拘泥拟话本标准格式创作,李渔《连城璧》开篇即无头回,并还特地解释:“别回小说,都要在本事之前,另说一桩小事,做个引子”,但他却认为“不须为主邀宾,只消借母形子,就从粪土之中,说到灵芝上,也觉得文法一新。”(29)李渔:《连城璧》子集《谭楚玉戏里传情,刘藐姑曲终死节》,《古本小说集成》第1辑,上海:上海古籍出版社,1994年。
头回出现是出于商业考虑而非创作必需。说书艺人为收入计,希望听讲的人越多越好,但到了约定时间又必须开讲。设置头回是两全之法:已入场者为头回吸引,不会烦燥喧闹,场外人因正话尚未开始,也愿进场听讲。久而久之,它便成话本小说的形式标志。模拟话本者并无那样的商业需求,构想与设置头回还会成为创作累赘,因此逐渐减少乃至消失实是必然现象,上表数据有助于纠正拟话本必有头回的错觉。
拟话本刚兴起时,也承袭了话本征引诗词的特征,有的征引数量还相当多,如周清源《西湖二集》卷七《觉闍黎一念错投胎》不足万字,仅完整的诗词就征引了39首。随着拟话本创作发展,这一观念逐渐淡薄,突出者如清初艾衲居士的《豆棚闲话》,除了《藩伯子破产兴家》征引1首,《虎丘山贾清客联盟》介绍苏州风俗征引22首外,其余十则故事中竟无一首诗词,传统的篇首与篇尾诗词也都省略了。下表显示了拟话本征引诗词数量由多到少的总趋势:
表十六 拟话本征引诗词情况表
(续表)
明末拟话本刚兴起时,较明显地受到话本多征引诗词的影响,特别是《三言》相当部分作品就是据宋元话本改编,《西湖二集》作者周清源又曾有说书生涯。入清后,征引数量总体上明显下降,这时作者的创造力主要表现于人物形象塑造与情节安排,已无必要以引证诗词表明自己不俗或学问渊博。谁也不会怀疑李渔的文才,但《十二楼》中《夺锦楼》与《奉先楼》都只是在篇首引诗一首,而除《三与楼》与《生我楼》外,其余十篇竟然连篇尾都被略去。不过,作品中诗词多少还与作者爱好与写作习惯有关,在拟话本中征引诗词普遍趋少的情况下,也会出现《五色石》这样的特例,但个别现象并不妨碍对总体趋势的判断。总之,话本是说话人的底本,拟话本是为案头阅读而作,此差异决定了这些特征随创作发展必然逐渐模糊淡化。
统计又可帮助把握清初才子佳人小说的源流及发展变化。《玉娇梨》《平山冷燕》行世后颇受欢迎,随后陆续有人模仿其情节编织故事,《红楼梦》所说的“通共熟套”就是对这类作品的批评。该流派创作的雷同常被统而言之,或以几部作品主要情节类似为例,如果逐部排比,不仅行文累赘,且使人感到头绪杂乱,而统计可用一张表格清晰展现才子佳人小说创作的公式化程度:
表十七 清初才子佳人小说创作公式化一览表
为更清晰地显示总体概貌,这里对情节要素的考察以“★”为标记。表中各作品都有“生旦唱和”描写,确如曹雪芹所批评“不过作者要写出自己的那两首情诗艳赋来,故假拟出男女二人名姓”;表中“又必旁出一小人其间拨乱”的批评也有落实,该情节绝大部分作品都有;除《平山冷燕》外,各作品都有“生旦别离”描写,即曹雪芹批评的“忽离忽遇”。由于“私订终身后花园”的说法给人印象深刻,男女主人公婚姻状况的统计有点出人意外:婚事基本上都由长辈决定,虽有几对曾有私下约定,但很快都得到长辈认可,真正私定终身的只有《锦香亭》。故事结局都是才子佳人结成良缘,才子多进士及第,只有《画图缘》里的花天荷未考进士,但他因战功封大勋侯,妻子也被封一品夫人,总之都是大团圆。上表以各部作品统计为基础,整体把握切实而可靠。
人们对才子佳人小说的源流曾追溯到唐传奇,它确从唐传奇汲取了养分,某些作品里也有些情节上的模拟。但唐传奇中女主人公一般都是悲剧性形象,《无双传》中有情人虽终成眷属,但只是靠外力援助,且又是虚幻性的描写。可是才子佳人小说却是千篇一律的大团圆,作品中很难寻觅悲剧成分,故鲁迅曾言:“察其意旨,每有与唐人传奇近似者,而又不相关”(30)鲁迅:《中国小说史略》第二十篇“明之人情小说(下)”,《鲁迅全集》第九卷,北京:人民文学出版社,1980年。。唐传奇中爱情故事确可视为才子佳人小说的源头,但两者间还有个中间环节,那就是元明中篇传奇,王重民先生就曾指出它“直开后来才子佳人派小说之源”(31)王重民:《中国善本书提要》“子部十四小说类”,上海:上海古籍出版社,1983年。。下表的统计也证实了它与才子佳人小说之间的关系:
表十八 元明中篇传奇情节要素一览表
表中第一行列上《莺莺传》以供比较,因为后来中篇传奇中丫鬟传递、互相唱和、别离以及私合等情节要素都承袭于此,多数作品还提到张生与崔莺莺故事,证明确实受其影响。中篇传奇前期作品还在延续《莺莺传》的悲剧气氛,《娇红记》中王娇娘和申纯双双殉情,《贾云华还魂记》里女主人公因情而死,显然也是悲剧,但作者最后又加上她借尸还魂与魏鹏团圆,所生三子皆为显宦,又被封为鄯国夫人的结局,硬是翻案为喜剧。《钟情丽集》中辜辂和黎瑜娘经过激烈抗争终于结成美满婚姻,为中篇传奇中悲剧创作划上句号。此后作品无例外地都描写了生旦团圆的喜剧,该流派反封建意味也随之大为减弱。从唐传奇中悲剧到清初才子佳人小说中千篇一律的喜剧,其间承担转折任务的正是明代中篇传奇。
比对上两表,可发现才子佳人小说中“丫鬟传递”“生旦唱和”“生旦别离”,以及才子进士及第等情节要素都承袭中篇传奇,其他一些情节则是各篇相似程度不等,这几乎是同一流派在不同历史阶段的创作展现。时代环境的不同必定会造成差异,中篇传奇中才子进士及第后还握掌朝中权柄,多数作品又写到他们辞官归乡,这似是对当时宦海险恶的反映。后期《天缘奇遇》等作还添加了才子与众夫人白日飞升的情节,以此寄托当时一些士人的最高理想。才子佳人小说一般以进士及第与成婚为结局,这可能是那些作者多为落魄书生,若能如此,平生心愿已遂,因而未有更多奢望。两者更醒目差异是对情与欲关系的处理。中篇传奇中除《双卿笔记》与《刘生觅莲记》外,男女主人公都是婚前私合,但在前后期作品中,情与欲观念的表现又有所不同。前期《钟情丽集》中“倘若不遂所怀兮死也何妨,正好烈烈轰轰兮便做一场”等语,尽情宣泄了对明初以来程朱理学思想长期禁锢的逆反心理,与蓬勃兴起的市民阶层审美趣味相适应;可是后期作品中,叙及性行为时的含蓄喻示开始变成了露骨渲染,与此时士大夫腐朽堕落的世风相呼应。高儒《百川书志》著录《娇红记》《钟情丽集》等中篇传奇后曾云:“以上六种,皆本《莺莺传》而作,语带烟花,气含脂粉,凿穴穿墙之期,越礼伤身之事,不为庄人所取,但备一体,为解睡之具耳。”(32)高儒:《百川书志》卷之六,上海:古典文学出版社,1957年。清初才子佳人小说的描写正相反,男女主人公均是发乎情,止乎礼,压根没有婚前私合的念头。清初统治者强力提倡忠孝廉节、敦仁尚让,并厉禁“淫词琐语”,当是发生该变化的重要原因。在那样的时代氛围中,作者很注重“理”对“情”的规范,甚至还认为其创作具有教育功用,因为“情定则由此收心正性,以合于圣贤之大道不难矣”(素政堂主人《定情人序》)。
从唐传奇爱情故事到元明中篇传奇,再到清初才子佳人小说,以上两表简明扼要且清晰地展现了那些情节要素变化过程,如果舍弃统计,就很难直截了当地观察到那些变化;对此若用文字表述,由于涉及作品多,需厘清头绪繁杂,很可能花费很大篇幅也未必能讲清楚。两相对比,统计的优越性十分明显。
古代小说的地位卑微,许多作品无署名或署别名,须考证方知作者究为何人。然而苦于资料匮缺,考证往往难以下手,硬作判断只会造成学界困扰。统计与语言学的结合为作者考辨开辟了新途径,英国《朱利叶斯信函》与美国《联邦主义者文献》作者的判定是其成功的实践。如此考辨的原理,是写作时字、词、句的使用常带有偶然性,而对大量偶然性现象作统计分析,可揭示隐藏于其间的规律性,即作家的语体特征,据此可鉴别作品出自何人之手。《红楼梦》后四十回是否为曹雪芹所写也可用此法鉴别,比照对象是已确定为曹雪芹所写前八十回。将全书分为A、B、C三组,各组字数与句数便由下表所示:
表十九 《红楼梦》字、句数分组显示表(33)统计采用人民文学出版社1982 年版,其前八十回以庚辰本为底本,后四十回则采用程甲本。由于第64、67 回缺文由程甲本补配,故B组中已扣除这两回。
三组所含字、句数都相当庞大,可充分显示作者的写作习惯;同时,三组篇幅基本相当,保证了互作比较的合理性。
1. 词的考察
有的词在C组的出现明显异于A、B组,如“端的”意为到底、究竟或始末、底细(“好端端的”中的“端的”不列入统计),它在A、B组分别出现14与19次,但C组从不出现。“端的”多出现于回末,如“要知端的,且听下回分解”,A组8次,B组16次,为曹雪芹回末套语之一,后四十回作者显然没注意到这一点。
有些同义词在三组中出现次数有明显差异:
表二十 同义词使用比较
“越性”与“索性”都表示干脆,或直截爽快。C组“越性”从不出现,程乙本甚至还将前七十八回中的“越性”全改为“索性”或“越发”,如庚辰本第十五回中“越性都推给奶奶了”和“少不得越性辛苦一日罢了”,程乙本改为“越发都推给奶奶了”与“少不得索性辛苦了”。B组与C组正相反,始终只用“越性”而不用“索性”。A组情况稍复杂,主要用“越性”,而“索性”出现过三次。比对其他脂本,可以发现解释该现象的线索:
庚辰本:想了一想,索性迟两日。
甲戌本:想了一想,越性迟两日。
戚序本:想了一想,越性迟两日。
程甲本之前是传抄本流行,“好事者每传抄一部,置庙市中,昂其值得数十金”(34)程伟元:《红楼梦序》,见一粟编:《红楼梦卷》,北京:中华书局,1963年。。抄录难免出错,现存脂本又极少,无法追寻抄录的线路图。不过,由上列庚辰本作“索性”,甲戌本与戚序本都作“越性”,可以断定庚辰本过录时发生误抄:抄写者习惯用“索性”,抄写时大部分“越性”会被保留,却会有少量误抄为“索性”。戚序本也有这样的情况,它保留了许多“越性”,可是上述第十五回中的两个“越性”都写成了“率性”。“怪道”与“怪不得”这对同义词情况也是如此:后四十回从不用“怪道”,A、B两组基本上都用“怪道”,而少量出现的“怪不得”,当是过录时误抄。
同样,曹雪芹习惯使用的是“偏生”、“越发”与“才刚”,误抄导致少量“偏偏”、“更加”与“刚才”的出现。庚辰本据己卯本过录,A组出现5次“刚才”,其中4次己卯本作“才刚”,确证庚辰本为误抄;己卯本也是过录本,未被否定的那处“刚才”,很可能是它过录时的误抄:(35)B组中两个“刚才”出现在第五十四回与第七十四回,己卯本缺此两回,无法比对。
第3回 庚辰本:刚才老太太还念呢。
甲戌本:才刚老太太还念呢。
己卯本: 才刚老太太还念呢。
第32回 庚辰本: 刚才打水的人在那东南角上井里打水,……
己卯本:才刚打水的人在那东南角上井里打水,……
戚序本: 才刚打水的人在那东南角下井里打水,……
第32回 庚辰本:刚才我赏了他娘五十两银子,……
己卯本:才刚我赏了他娘五十两银子,……
戚序本:才刚我赏了他娘五十两银子,……
第40回 庚辰本:刚才那个嫂子倒了茶来,……
戚序本:才刚那个嫂子倒了茶来,……
己卯本: 才刚那个嫂子倒了茶来,……
后四十回主要使用“偏偏”、“更加”与“刚才”,但也出现了些“偏生”、“越发”与“才刚”,这可能因排版者用词习惯而产生的误排,也可能其间有曹雪芹少量残稿。
2. 字的考察
首先观察前、后出现情况迥异者。如文学作品中极少使用的“屄”,前七十八回中竟出现十余次,后四十回中从未出现。粗俗程度稍低的又有“屁”,前七十八回中也出现十余次,后四十回中只有贾政气急时骂了声“放屁”。还可比照一些较粗鄙的词的使用。前七十八回薛蟠的酒令有“一根鸡巴往里戳”之语,后四十回中从未有这样的表述。又如“淫妇”与“娼妇”两词前七十八回各出现十余次,后四十回中从未见“淫妇”,“娼妇”只出现过一次。这里并非想说明后四十回语言较高雅,其实《红楼梦》开篇处就批评“鬟婢开口即者也之乎,非文即理”是“大不近情理”,所以他笔下一些“脏”字就从奴婢嘴中脱口而出,就连王夫人或林黛玉都难免会说“放屁”,这些描写更真实地再现了现实生活的场景。
句尾语助词用法也不同。后四十回出现的种类很多,有呀、吗、啊、咧、罢咧、罢、罢了、么、呢、呢么、呢吗、吧、哩、呵、哪、呦等十余种,前七十八回常用的只是呢、罢、罢了三种,下表显示了它们的差异:
表二十一 句尾语助词使用比较
吗、罢咧、阿、哪在后四十回的句尾出现,在前七十八回不出现或基本不出现,吧的情况正好与之相反。么、罢了、罢、呢在前、后部分都出现了,但么与罢了的用法却有明显差异。这方面的考察也表明前七十八回与后四十回的写作习惯不同。
其次是考察虚字使用。实字使用与情节描写有很大关系,如“黛”字在黛玉去世后就很少出现。虚字则不然,它是构成句子必不可少的成份,出现规律不受情节发展制约,而仅与作者写作习惯有关。虚字有文言与白话之分,古人习惯文言写作,但创作通俗小说时又得使用白话,因此它们在作品中都会出现,但各自出现的程度因人而异。
A、B、C三组篇幅都相当可观,虚字在各组的出现一般都服从正态分布,它由均值(频率)μ与方差σ2决定。人们容易理解均值而不清楚方差,但均值相同并不意味着分布同一。如10个数字都是10,其均值是10;10个数字中一个为100其余都是0,其均值也是10,检验方差后,两组数据的分布便可区分。检验两组数据是否属于同一分布需要运用概率论知识,叙述检验过程也较繁琐,故而这里只排列一些虚字在A、B组出现频率与C组有明显差异者以供观察,频率相似的虚字需进一步作分布检验,此处不赘。
表二十二 虚字每千字出现次数比较
上列27个虚字的千字频率基本上都是A、B组相似,而异于C组,分布检验结果也是如此。笔者共统计了47个虚字,另20个各组出现频率相似,但A、B组属同一分布,C组则与之不同。由虚字的检测也得到同样结论:前八十回与后四十回并非同一个作者。
3. 句的考察
写作时会出现长短不一的句子,其中规律恐怕作者本人也不清楚,但却能由统计揭示。英国统计学家Yule提出平均句长概念,并以此为判断作家语体特征的重要依据。平均句长=总字数/总句数,回平均句长=回字数/回句数。A、B、C三组平均句长分别是6.692、6.865与7.073,《红楼梦》中2字句至13字句共98,758 句,占总数95.13%。检验的结果是不同长短句子在A、B 两组分布同一,而C组中只有8字句分布与A、B 两组同一。据此检验,也应拒绝后四十回为曹雪芹所作的假设。
4. 后四十回分两段考察
程伟元声称对《红楼梦》八十回后文字“竭力搜罗,自藏书家甚至故纸堆中无不留心,数年以来,仅积有廿余卷。一日偶与鼓担上得十余卷,遂重价购之”(36)程伟元:《红楼梦序》,见一粟编:《红楼梦卷》,北京:中华书局,1963年。。此语不可轻信,却无法排除确实搜罗到一些曹雪芹残稿的可能性。由于一些曹雪芹习惯用词偶尔也出现于后四十回前半段,故而将后四十回分为C1(第81至100回)与C2(第101至120回)组,A、B两组合为一组记为AB,继而比较其虚字千字频率。有8个虚字的千字频率都是C1组与AB组较相近,与 C2组明显相异:
表二十三 8个虚字每千字出现次数比较
另有18个虚字千字频率C1组有向AB组靠拢的趋势,同时与 C2组拉开了距离:
表二十四 18个虚字每千字出现次数比较
偏但其亦别很一好了AB0.42120.42950.69860.69231,7550.214717.494.76027.42C10.22270.74520.24840.10271.2840.496814.815.48228.62C20.14480.87740.20440.16180.91150.519614.095.92928.99
句的考察可发现类似景象:C1组平均句长是6.940字,AB组6.781字,C2组7.210字,同样出现向AB组靠拢而与C2组拉开距离的情形。综合以上考察,有理由认为C1组含有曹雪芹的残稿,但它与C2组毕竟还较接近,表明残稿数量不多。统计只能指出这类文字大概所在区间,究竟哪些描写属于残稿,还有待于其他方法的确认。
古代文学中有不少作品的作者至今不详,虽有相关考证,但因资料匮缺,往往只是猜测,还导致长期争论而无结果。如果还存有可比对作品,有些便可运用统计刻画其语言风格并互相比对,从而作出较确定的判断。
统计为文学研究提供了新方法,确可解决某些传统方法难以应对的问题,但并非万能工具,运用前须认真权衡其可行性与必要性。而且,统计学与文学都有自己的规律与特点,在双重约束下,运用就不可能是简单地搬用计算方法,它需要根据待解决问题的性质、特点精心设计。
首先须清楚可以使用统计的范围。如果将某阶段作品按优秀、比较优秀、一般、平庸与劣作五项进行统计,很快就会发现大量作品不知该如何归类,各人评判的标准并不同一,硬作分类必遭质疑。内涵与外延都明确的精确概念可遵循排中律作归类,但优秀与平庸等概念内涵明确而外延模糊,此处忌用排中律。文学研究中模糊概念甚多,如对以往经验与技巧的继承或模仿、人物性格的复杂性、语言的生动或笨拙、气氛的渲染与意境的营造等等,涉及到的都是模糊概念,对它们即使有心统计也会感到无从下手。在一般情况下,只有内涵与外延都明确的精确概念才能进行统计,这是统计范围的限定。
即使在范围之内,是否需要统计也须得估量。如果叙述已可清楚说明问题,改用统计表格仅使文章稍显生动,此为不必要的统计。如果涉及层面较多,叙述繁琐且不易突出要领,而一张统计表既能避免行文累赘,又能清晰展示问题要害,其优越性显而易见。在许多场合,如厘清头绪、展现问题及把握框架等,恐怕就非得作统计不可。当然,前提条件是资料掌握的齐备。数据采集是统计第一环节,充分性若得不到保证,统计结果就会与客观事实相距甚远,从而失去它的价值与意义。
准确、全面地采集数据并非易事,疏漏常会因这样或那样的原因而产生,有些在采集前已预知无法做到绝对准确。如近代小说新出单行本共1393种,其中1100余种为笔者亲见,余下的是查阅各种著录并作核对后所得。当年实际出版肯定会更多,总会有些藏于某处尚不为人知,有些今已失传,甚至未曾被著录,它们自然无法进入统计。近代报刊小说情况亦是如此,一些近代报刊已残缺不全或已湮没于历史长河,它们是否刊载过小说或刊载过多少都无法知晓。不过当采集到大部分数据时,统计仍可进行。因为此时的目的是显示研究对象的状态与发展趋势,误差数量较小时对此不会影响整体格局的把握,即统计的有意义性并非绝对地依赖于精确性。当然,如果缺失的数据占比较大,统计结果就会与客观事实相距较远,因此统计前必须估量数据采集齐备性程度。
数据采集的针对性及其规定范围取决于统计指标的设置,它也可根据研究进展作调整。如果要了解清初通俗小说数量,那只需简单地计数;若要进一步了解各流派情况,就得以讲史、神魔等各创作题材为统计指标。如果将清初作为一个时间单位,所得便是那90年里属各流派的作品数,但如果将清初拆分为前、后两个时间段并作比较,便立即显示出后期创作陷入萧条的景象,也因此发现以往研究未曾提及的现象。辨析各作品问世时间是统计的前提,至少得知道应归于前期还是后期,这就需要根据各方面资料分析鉴别;同时增设“时间不明”指标以安置无法确定问世时间的作品,从而保证指标集合对统计对象的全覆盖。统计对象都须能从属于某个指标,这是指标设置的重要原则;同时,它们各自所对应的元素不得交叉,即具有排他性。如《西游记》只归于神魔小说,而不可系于其他什么流派,《三国演义》只在讲史演义名下才有位置而不可置于他处。如果作品描写侠客故事,其中男女主人公谈情说爱内容又占了不小篇幅,它究竟该归于侠义小说还是言情小说?这时应尊重前人已有的分类,自行改动易造成混乱,更不可违背各指标互相间的排他性,将它同时置于侠义小说与言情小说。这里实际上已涉及模糊概念,但学界已约定俗成,故可参照精确概念使用排中律处理。
在对采集的数据作统计后,有时还得根据需要作指标归并。如为把握1950~2000年明代通俗小说的研究格局及变化,就得统计所有作品的相关论文数,各部小说都是统计指标。统计表中作品数为“行”,年份为“列”,将各作品相关论文数按年填入,便显示出各年各部小说的研究状况。这张统计表130余行、50余列,显示7000多个数据,要据此解读出有价值的结论并非易事。为醒目展示结果,以助迅速得出有效判断,就须适当归并指标制作新表。第一轮统计表明,那些年里约120种作品相关论文数极少或只是0,它们可归为“其他作品”指标。这样可压缩约120行,数据显示的有效性可大幅提升。因逐年显示并无必要,以“时间段”展示可更清晰,故而“列”的指标也可归并,其划分根据当时具体情况:1950~1966年研究态势相对平稳,论文数也较少,故归并为一个时间段;1967~1976年是特殊年代,自成一段;余下25年论文数显著增加,故分四个时间段以便观察。与原先庞大的表格相较,新表简明紧凑,它有序显示的60余个数据便于把握其意义及其内在联系。
数据处理结果是绝对数字的显示,它们可助人了解状况、提供问题的解释,而要相互比较或考察变化趋势,还需引进指标“占比(%)”,将绝对数字转换为相对比例。如中篇传奇《李生六一天缘》羼入诗词100首,《龙会兰池录》仅63首,据此并不能判定两者羼入程度的高低,而结合其篇幅增设“千字含诗词数”与“诗文占比(%)”指标,由那些相对数值可知,《龙会兰池录》诗文羼入程度远高于《李生六一天缘》。凡涉及比较或考察变化状况时,一般都需要设置“占比(%)”指标,观察其间对应关系,从而避免误判。
统计数字抽象于文学现象或事件,但此时却仅有数学上的意义。无论杰作还是庸作,都被平等视为一个“1”,但经历了数据采集阶段,确可体会到似无意义差别的数字所蕴含的不同内容。“小说界革命”前后小说单行本的内容迥然有异,数量有明显差落,在对近代小说创作状况已有基本了解的前提下统计,自然会明白那些数据的含义。而且,统计目的是把握近代小说单行本系统内部结构及其运行状态,它并不能取代具体的分析,却能为深入研究启发思路、提示方向,并提供整体框架的把握。这表明解读统计结果时,对研究对象背景及相关文学现象或事件须有较充分了解,否则就无法凭借数据发现问题,也无法对那些数据作出合理的解释。