王虹
(中国刑事警察学院 文件检验技术系,辽宁 沈阳100035;东北大学 自然语言处理实验室,辽宁 沈阳110004)
书面言语是以文字形式存在的言语,包括纸质文本、网络文本和电子文本。书面言语鉴定,英语译作 Authorship Identification, Authorship Attribution或Authorship Comparison,是指通过检材言语与样本言语的比对鉴别,判断两者言语习惯是否一致,为案件侦查、审判提供证据的一种专门技术手段。
西方早就有专门的文本鉴别学,1711年,一位德国牧师H.B.韦特最早提出了有关《圣经》作者的争议。随后,出现了莎士比亚著作权的纠纷。从20世纪60年代埃文斯案促成司法语言学的诞生以来,欧美各国作者鉴别技术发展方兴未艾,成果显著,应用广泛。很多国家和地区都有专门的语言证据研究机构,受理司法实践中与语言相关的案件。
国内汉语文体学、汉语语言学、英语语言学(主要是法律语言学)、图书情报学、自然语言处理等领域均有关于作者鉴别、作者归属、作者身份识别、作者识别的研究。公安技术领域自20世纪80、90年代起开始研究书面言语鉴定技术,并将用于文件检验鉴定,利用“语音特征”、“方音别字”、“特殊语法”等书面言语特征鉴定了多起无笔迹案件。
近年来,互联网及相关产业飞速发展,虽然在一定程度上方便了生活,但利用电子邮件、网络论坛等方式犯罪的案件也不断增多。此外,由于监管漏洞的存在,侵犯他人知识产权的案件也时有发生。这些现象都对书面言语鉴定技术的完善和提高提出了迫切需求。
副词使用频率特征是书面言语鉴定中常用的言语特征之一,鉴定人员基于副词属于虚词,而虚词受言语内容影响较小,具备较好的个人稳定性这一假设,一直在使用这一特征。但这种假设是否成立,我们并未见到相关的实验和统计研究。语言学领域对副词的研究暂时处于基础性、定义性的阶段。国外司法语言学的研究和实践中,已将副词使用习惯特征当作书面言语同一认定的依据使用。但在汉语书面言语鉴定领域,副词使用习惯特征是否能作为汉语书面言语同一认定的依据还有待研究。对副词研究的不断深入以及各种统计工具、分析方法的完备,为我们提供了研究这一领域的可能。
本文拟引入自然语言处理技术,采用实验研究和统计研究的方法,探讨副词使用习惯特征在汉语书面言语鉴定中作为同一认定依据使用的可行性。
从中国第一本语法专著《马氏文通》提出近似现代“副词”的“状字”开始,关于副词的定义一直是众说纷纭。2004年,张谊生[1]提出将句法功能作为认定副词的根据并以语句的基本含义作为判断的基础,将副词定义为:“副词主要充当状语,一部分可以充当句首修饰语或补语,在一定条件下一部分还可以充当高层次消浯或准定语的具有限制、描摹、连接等功能的半开放类词。”
语言学领域中对副词的分类也有很多不同的看法,本文从研究需要出发,采用吕叔湘的分类方法,即按照语法功能将副词分为七类:程度、范围、时间、语气、肯定和否定、方式、处所[2]。
程度副词,如很、最、极、太、非常、更加、越、稍、几乎、略微、尤其……
范围副词,下分总括性范围副词:都、总、共、俱、皆、全然、全都、统统、统共、举凡、一概、一总等;唯一性范围副词:仅、只、就、才、单、唯、偏、惟独等;限定性范围副词有:约、大都、最多、最少、起码、只有、只是、不过……
时间副词,如:已、曾、刚刚、才、正在、立刻、终于、时时、渐渐、从来、始终、屡次、重新、还、偶尔……
语气副词,如:难道、果然、岂、索性、究竟、简直、就、可、也许、难怪、大约、不妨……
肯、否定副词,分为肯定、必然、偶然、可能、否定判断副词。如必须、没有、必定、是否、未、别、莫、勿、不必、不用、不曾…….
方式副词,如:大肆、亲自、特意、公然、忽然、悄悄……
处所副词,如:处处、到处、随处、四处……
《中国文法要略》分为七类:方所副词,时间副词,动态动相副词,程度副词,判断副词,否定副词,一般副词。
本文以古龙、莫言、韩寒、金庸、三毛、郭敬明等6位作家的长文本作品24部为研究语料,具体情况见表1。
本文使用我们自主研发的《案件书面言语量化辅助分析系统》对语料进行自动分句、分词、词性标注等处理,并进行总词数、副词数、副词数占总词数的百分比、单个副词数、单个副词数占总词数的百分比,以及同一人作品副词使用频率的平均值、标准差等数据统计,以此分析总结个人在是否使用副词上的偏好、个人在表示同类关系的副词中是否有选用上的偏好和不同人在表示同类关系的副词中是否有共同的选用偏好。
为了观察个人在是否使用副词上的偏好,我们分别统计出了24部作品的总词数、副词数、副词数占总词数的百分比,以及同一人作品副词使用频率的平均值、标准差,并分别按副词使用频率平均值和副词占总词数的百分比进行了降序排序,如表1所示。分析表1我们发现:
第一,6位作家使用副词的频率是有差别的,由古龙、韩寒、郭敬明、三毛、金庸、莫言依次降低。
第二,古龙和莫言在副词使用频率上相差较明显,平均值差了约3个百分点。古龙的4部作品的副词使用频率均很高,均高于莫言的4部作品。
第三,同一作家不同作品的副词使用频率的稳定性情况不同,由古龙、韩寒、莫言、郭敬明、三毛、金庸依次降低。古龙的5部作品之间副词使用频率差别较大,其平均值的标准差最大;而金庸4部作品之间副词使用频率的稳定性最好,其平均值的标准差最小。
第四,创作时间、作者的个人经历对同一作者不同作品的副词使用频率稳定性有影响。以古龙为例,1960年到1963年是古龙的试笔阶段,接触了大量的西方文学,作品也带有西方色彩;1963年之后,他向日本小说取经,探索武道,逐步形成自己独特的武打描写方式;后期古龙又将戏剧、推理、诗歌等元素和自己的人生感悟带入传统武侠。这样,随着时间的推移和个人经历的变化,古龙作品的风格前后有很大的变化。而作品中语言的变化则是形成作品风格变化的重要因素,因此导致《剑客行》(1963)《大旗英雄传》(1966)《三少爷的剑》(1974)《拳头》(1977)等不同时间节点上的作品中副词使用频率有较大的差异。
第五,体裁对同一作者不同作品的副词使用频率稳定性有影响。以韩寒为例,他的两部作品《像少年啦飞驰》、《通稿2003》的副词使用频率分别为5.500%和7.932%,差距较大。这两部作品较明显的不同是体裁分别为小说和杂文。小说是客观性的语言,作者不会直接表达思想感情,而是让人物和情节代作者说话;杂文则是主观性的语言,作者直抒胸臆,而且论证和说理性强。体裁的不同,使得作品的语言风格也不同。
鉴于此,从我们的实验中观察到的数据来说,个人在是否使用副词上是有偏好的,不同人的平均副词使用频率有差别,且这种差别较稳定,尤其是在语料足够多、足够长,作品形成时间相近、作者言语风格没有阶段性变化、作品体裁相同的前提下,这种偏好能够得到较好的表现。
为了观察个人在表示同类关系的副词中是否有选用上的偏好,我们分别抽取、统计6位作家24部作品中的程度、处所、范围、方式、肯定和否定、时间、语气等七类副词,计算出每个副词的出现数及其占总词数的百分比,进行了相应的数据分析和比较。我们发现个人在表示同类关系的副词中是有选用上的偏好的。这里仅以古龙的4部作品和郭敬明的4部作品为例做以说明。
古龙4部作品的同类副词选用情况:古龙在程度副词中选用“更、很、最、太”的情况远多于“极、越、几乎”等(图 1)。 在处所副词中,“到处”一词出现的频率较高,其余如“处处、四处、随处”都是偶尔出现(图2)。在总括性范围副词中,“都”的出现次数最多,远高于居于其次的“全、俱”等;唯一性范围副词中,“就、只、才”使用频率很高,“光、偏偏”也出现多次;限定性范围副词中,“不过、只有、只是”出现较多,“至少、约、大概”也有出现(图3)。在方式副词中,古龙偏向于选择“忽然”引发场景、情节的变化,“暗暗、猛然”少量出现(图 4)。在肯定、否定副词中,“不、没有”出现最多,“未、莫、必”等文言文化词亦有出现(图5)。时间副词出现的较多,“已、还、再”都有大量出现,“已”的频率明显高于“已经”,“正、常、曾”的频率分别高于“在、正在、常常、曾经”(图6)。语气副词中,表示疑惑时多用“难道、究竟”;表示惊讶时,多用“果然、居然、岂、竟然”(图 7)。
郭敬明4部作品的同类副词选用情况:在程度副词中,郭敬明大量选择“很”,比例较高,“最、太、更”也有一定比例,“几乎、好像”也在每篇文章中都有体现(图8)。在处所副词中,“到处”出现频率明显高于其他两个。但总体而言,处所副词使用量较小(图9)。在总括性范围副词中,郭敬明大量使用了“都、全”;唯一性范围副词中,“就、只、才”使用频率高,其他如“仅仅、仅、光”等都是偶尔出现;限定性范围副词中,除了“只是、不过”占有一定比例外,其他副词均只零星出现(图10)。方式副词的整体使用频率偏低,都只是零星出现,相对来说使用“悄悄、赶紧”多些(图11)。 肯定、否定副词中,“不、没有、没”使用次数多,肯定副词则只用了“的确”(图12)。时间副词中,“还”出现频率最高,“已经、总是、再”频率接近,其他时间副词如“还是、依然、曾经”等都有出现(图13)。语气副词中,“也许”出现频率较高,其次是“居然、竟然、反正、可”(图 14)。
图1 古龙作品程度副词使用频率图
图2 古龙作品处所副词使用频率图
图3 古龙作品范围副词使用频率图
图4 古龙作品方式副词使用频率图
图5 古龙作品肯定和否定副词使用频率图
图6 古龙作品时间副词使用频率图
图7 古龙作品语气副词使用频率图
图8 郭敬明作品程度副词使用频率图
图9 郭敬明作品处所副词使用频率图
图10 郭敬明作品范围副词使用频率图
图11 郭敬明作品方式副词使用频率图
图12 郭敬明作品肯定和否定副词使用频率图
图13 郭敬明作品时间副词使用频率图
图14 郭敬明作品语气副词使用频率图
为了观察不同人在表示同类关系的副词中是否有共同的选用偏好,我们对每位作家4部作品中出现的每个程度副词、范围副词、时间副词、语气副词、肯定和否定副词、方式副词、处所副词的数量进行了平均和比较。我们发现,不同人在表示同类关系的副词中有共同的选用偏好,有些高频词是大家共同的选择。但同时,也有一些词,人们在选用他们时存在较大差异。
3.3.1 不同人均常会选用的副词
我们整理出了每位作家使用的程度副词、范围副词、方式副词、肯定和否定副词、时间副词、语气副词中平均频率排名前5的高频词,以及处所副词中排名前4的高频词,发现6位作家使用的各类高频词中有很多是相同的:在程度副词中,“很、最、更、太”常被选用,出现频率高(表2)。在处所副词中,“到处”最常被选用,其余处所副词选用相对较少(表3)。在范围副词中,总括性范围副词上“都、全”最常被选用,唯一性范围副词“就、只、才”常被选用,限定性范围副词“不过、只是、只有”常被选用(表4)。在方式副词上,表现趋势并不稳定,但“悄悄、忽然”出现频率较高(表5)。在肯定和否定副词上,“不、没、没有”被大量使用(表6)。时间副词中,“还、再”常被选用,其他的出现频率不稳定(表7)。语气副词中,不同人的选择差异较大,并没有较为一致的选用习惯(表8)。
表2~8中所列副词是6位作家使用的高频副词,根据我们的经验,这些副词也正是人们普遍常用的副词,在人群中出现率高,反映的是言语的共性特点,在书面言语鉴定中特征价值较低。
表2 程度副词高频词表 (%)
表3 处所副词高频词表 (%)
表4 范围副词高频词表(%)
表5 方式副词高频词表 (%)
表6 肯定和否定副词高频词表 (%)
表7 时间副词高频词表 (%)
表8 语气副词高频词表 (%)
3.3.2 选用频率差异大的副词
在分析6位作家的副词使用情况时,我们也发现了一些在选用频率上差异较大的副词。举例如图15~21所示。
从图15~21中我们可以直观地看出,不同作家在某些副词的选用上确实差异较大,体现了不同人的言语习惯,这类副词特征价值较高,可以用于书面言语鉴定。
图15 6位作家程度副词“尤其、过于”选用平均频率图
图17 6位作家唯一性范围副词“偏偏、单、仅仅”选用平均频率图
图18 6位作家限定性范围副词“大约、多半、约”选用平均频率图
图19 6位作家时间副词“立刻、还是、将、总是”选用平均频率图
图20 6位作家语气副词“果然、岂、也许”选用平均频率图
图21 6位作家方式副词“赶紧、连忙、大力”选用平均频率图
本文通过对6位作家24部作品副词使用频率、选用偏好等数据进行提取和分析,发现以下规律:
第一,个人在是否使用副词上是有偏好的,不同人的平均副词使用频率有差别,尤其是在语料足够多、足够长的情况下,这种偏好能够得到较好的表现。
第二,个人在表示同类关系的副词中有存在选用上的偏好,人们会有自己习惯使用的副词。
第三,不同人在表示同类关系的副词中会有共同的选用偏好。某些副词是人们都习惯选用的,这类副词的特征价值低,案件检验中我们应该尽量少选这类词作为特征词使用;某些副词在被选用的频率上有较大差别,这类词的特征价值高些,可以作为特征词使用。
第四,对于长语料来说,由于其文本数量大,副词使用频率相对稳定,受出版时间等因素的影响相对较小。我们认为副词使用频率可以作为同一认定的辅助特征使用,但使用时要充分考虑到语料的形成过程、创作背景、个人经历等因素的影响。
这些分析是建立在文本篇幅较长的前提下的,短文本的副词使用频率特点受言语内容、体裁、题材、形成过程等因素的影响很大,在没有大规模实验证明之前,我们认为要慎用短文本中的副词使用频率特征。关于短文中副词使用频率特征的具体内容,我们将另文讨论。