证人证言可信度评价的语篇信息成分分析途径
——一项前导性研究

2019-05-30 02:15余新兵

重庆交通大学学报（社会科学版） 2019年3期

余新兵

(广东财经大学外国语学院，广州 510320)

一、引言

可信度评价(credibility assessment) 作为法律语言学的一个日益重要的次领域，得到了越来越多的关注，直接原因是打击恐怖主义的现实需求及其在犯罪调查领域不可替代的重要作用[1]。证人证言作为可信度评价的重要研究对象之一，在司法过程中往往发挥关键作用，遗憾的是其可靠性一直得不到一个科学的方法确定。对证人证言进行真实性判断，即证人证言的可信度评价，迄今为止，最普遍运用的方法是多道仪(Polygraph，更通俗的叫法是测谎仪)，但多道仪的信度与效度受到学术界的普遍质疑[1-2]，也是其结果为何一直不能够被法庭采纳的最主要原因，尤其是在证明标准相对严格的刑事审判程序中。多道仪技术运用受到局限的另外一个原因是对设备、环境、操作人员要求相对较高，而且往往需要被测试人的配合。在中国司法实践中，出于多方面原因，证人出庭率一直不高，往往以书面证言替代，对这些书面证言进行可信度判断也是多道仪技术鞭长莫及之处。因此，亟需一种基于语言分析的证人证言可信度评价技术。

二、证人证言研究的现有途径

谎言在人们实际生活中无处不在，有时候甚至是受到肯定的，被称为社交润滑剂(social lubricant)。但无论如何，人们对真的追求是永恒的，对真假进行判断是本能的。中国的几部诉讼法都强调“以事实为根据，以法律为准绳”的原则，张保生提出“事实是证据法的逻辑起点”，而且事实具有真实性、经验性和可陈述性[3]。证人证言作为主要的甚至在某些案件中唯一与案件事实相关的信息来源，内容为对既往事实的描述，体现出经验性，组织形式为语篇，具有明显的可陈述性，难以确定的是其真实性，故对证人证言进行可信度判断的重要性毋庸赘言。

证据学领域肇始于20世纪60年代的新证据法思潮使人们对证据是什么和怎样运用证据两大关键问题逐渐形成了新的认识，Jackson针对这两个问题指出，证据的中心不在于实物发现而是信息构建，证据学已完成从证据规则到证明过程的转向，而且证明过程实质上就是信息的构建过程[4]。Jackson在总结无数前辈研究成果的基础上断言，案件相关的既往事实无法追溯，证据的信息构建只能期待无限接近这个事实，信息构建往往不是单学科、单维度可以实现的，而必须是多学科、多维度的协同努力。以此为出发点，在证人证言可信度评价领域，主要以心理学和计算语言学为代表的研究者们作出了不懈的努力，也取得了不小的成就。这些方法主要可以归纳为以下三大类[2-3]。

(一)行为分析

这一方案的理论基础是人们撒谎时必然会有一些与之高度相关的外在行为表现，比如脸红、结巴、转移视线等，这些行为表现容易捕捉，而且人们从经验上比较相信这些所谓由紧张或罪恶情绪导致的行为往往就是欺骗的必然结果。但这一理论并未得到实证的数据支持。DePaulo和Lindsay完成了一项大规模的元分析(meta-analysis)，综合了1300多项行为与撒谎之间关联的研究数据，得出的结论却是预示撒谎的行为同样也预示其他心理状态或过程(the behaviors that are indicative of deception can be indicative of other states and processes as well)，换言之，实际上并不存在一个行为或行为组合与人们撒谎时的心理过程独立产生联系，也就是说，通过行为观察评价可信度在实证阶段证明是失败的[5]。这一结论得到了包括Vrij 在内的大多数心理学家支持。

(二)心理生理分析

这一方案的理论基础是人们撒谎时的心理状态与某些自主神经运动高度相关，而这些自主神经运动必然会在生理指标上有所体现。人们设置一系列问题，区别准绳问题和相关问题，撒谎者在某些与案件相关问题上的反常表现会被合适的仪器捕捉到。目前，这方面的仪器分别有多道仪、fMRI、眼动仪和脑部热成像技术等。其结果未得到法庭普遍采用的原因主要是没有确定的失误率，而且对人员、设备、环境要求极高，高度侵入性往往需要被试的高度配合才能进行，在实践中应用面临重重困难。

(三)言辞分析

这一方案的理论基础源自Undeutsch假设，即人们描述亲身经历过的事情必然与非亲身经历过的事情有所差异。依据此假设产生的实际应用有Statement Validity Assessment、Reality Monitoring和CBCA等，主要从宏观面分析被试的言语特征，依靠专家打分完成评价，对操作人员要求高，主观性强。近年来，对言辞尤其是书面语进行可信度评价也出现了一些研究成果，主要是依靠大规模语料库，结合概率计算，对涉疑文本进行词汇语法特征比较，但这些成果往往停留在实验室阶段，并未在实际运用中验证其有效性。更关键的是，这些关注词汇语法特征的文本分析技术并未考虑到语言之间的异质性。从形态上看，汉语为孤立型语言，几乎不存在与印欧语相提并论的形态学特征。从语篇组织上看，汉语是典型的意合型语言，语篇间的连贯主要依靠无形的逻辑或含义实现，表达形式极其灵活，所以直接套用适用于印欧语的研究方法，单独从汉语语篇的词汇语法特征分析可能难以产生有价值的发现，至少会忽略大量蕴含于语言表面的深层次信息。

三、现有途径的不足

在证据法体系相对发达完善的普通法系国家，尤其是美国，一项专家证据能否被法庭采纳有一个大致的门槛——Daubert Criteria(多伯特标准)。所谓多伯特标准，指源自美国联邦最高法院一个著名判例“Daubert v. Merrel Dow Pharmaceuticals”中对专家证言可采性的条件，一般概括为五个：科学假设能不能被证实？是否已经被证实？有没有确定的误差率？假设或技术方案有没有被同行审查并且出版？假设或技术方案所依据的理论是不是在恰当的学术团体中得到普遍认可？以上从三个方向对证人证言可信度进行的研究虽然取得了不小的成绩，但最关键且共同的不足是这些方法的误差率皆不确定，导致评价结果不符合多伯特标准而难以被法庭采纳为证据。

我们认为，证人证言是语篇，具有信息性，从语篇信息的角度对其可信度分析有一定合理性，至少可作为证据信息构建的一个新维度，为多学科证据信息构建贡献来自语言学分析的力量[6]。

四、证人证言研究的DIA途径

(一)语篇信息分析简介

Beaugrande和Dressler在《Introduction to Text Linguistics》中也讲语篇之所以成为语篇，不在于语法性而在于语篇性，语篇性有七个标准，其中之一就是信息性[7]。故语篇信息分析(DIA)从信息的角度去描述并解释语篇的思路即使不是充分的，至少是必要的。

关于语篇的信息性研究，前人已有诸多探索性成果。比如information structure理论将信息分为given information和new information，但明显该理论过于粗略；系统功能语法强调从功能入手，将语言运用划分为三大元功能，但未能实现以量化的方式对语篇内部的某些模式化特征进行描述与解释；格语法从语义关系入手，能比较细致地考察句子内部描述的实体与实体之间的逻辑关系，但往往忽略了语境因素，对意义的完整把握是有欠缺的；形式语义学以严密的数理逻辑形式分析语义，但对语境因素几乎没有考虑；更重要的是，以上所有这些理论与途径以分析印欧语尤其是英语为初衷，其对汉语的适切性值得商榷，如汉语作为典型的意合型语言，注重以意义连贯实现语篇连贯，几乎没有屈折词素，可以不需要连词，与英语等形合型强调语法形式必须严密有巨大差异。所以分析汉语语篇必须有一种方法能将语义关系和语境因素准确把握，不拘泥于表面的语言形式，这就是语篇信息分析的优势所在。

客观世界是复杂、动态的连续体，人们以语言对其离散化并且范畴化是认知本能，也是对研究对象进行准确描述和解释的前提。比如研究语音时，人们交际时发出的音响是千变万化的，于是语言学家们抽象出一个离散单位——音位，在此基础上我们可以对语音准确描述、转写和归类，语音学的研究才得以飞速发展。对语篇信息的研究也是如此，语篇信息本身是连续、动态的，唯有对其合理离散化，切分出信息单位和信息成分，我们才能准确对语篇信息进行描述和解释，甚至发展到预测和控制阶段。

语篇信息理论提出了两种操作性较强的语篇信息形式化途径，分别是信息单位和信息成分[8]。在信息成分分析中，我们将基于命题的信息成分详细划分为三大类若干小类。将语篇信息成分分析方法运用到语篇分析领域，可以从信息角度获得更细致的描述，比如针对具体语篇中的一句话：“我看见两个女生在街上打架。”不难发现，这句话里的核心信息是“两个女生打架”，“两个女生”是行为人，“打架”是具体行为。此外，“我看见”表明了信息来源，“在街上”描述了行为地点，根据以上分析，我们可以按照语篇信息成分标注规范对这句话进行如下标注：我看见两个女生在街上打架。

依据语篇信息成分分析方法对具体语篇标注后，我们就获得了离散化、范畴化的语篇，优势是可以测量并且计算，而测量是知识获得的前提，甚至测量本身就是知识[9]。语篇信息成分分析的思路与Dretske相吻合，他指出信息是一种客观存在，可以被测量，但他并没有给出一个具体可操作的测量手段[10]。语篇信息成分分析方法可视为其理论的一种具体实现途径。

(二)研究假设

我们的假设基于Semin和Smith的研究发现，人们对既往事件进行的语言表征与对这些事件的记忆加工之间存在联系[11]。具体而言，人们对更远的事件表征时采用更抽象的谓词，而对更近的事件表征时采用更具体的谓词。就证人证言可信度而言，真实证人证言是对亲历事件进行语言表征，从认知角度可以理解为更近的既往事件；而虚构的证人证言往往源自虚假证人的过往类似经历或者凭空捏造，从认知角度看，可以理解为更远的既往事件。在语篇信息成分分析中，我们有一类过程类信息成分，这一类信息成分用以描述主体(包括人、事件等)的状态、性质、关系、行为等信息。在过程类信息成分中，我们明显可以看到PS(状态)、PQ(性质)、PR(关系)、PA(态度)和PN(否定)描述的是相对抽象的过程，而PB(行为)、PC(生成)和PT(改变)描述的是相对具体的过程。语篇信息成分分析(Discourse Information Analysis，以下称为DIA)提供了一个极具操作性的方法，可以将Semin和Smith的发现向前推进。我们在此基础上提出一个新的概念——Concrete/Abstract Ratio，计算公式为

我们的研究假设于是就变成：真实证人证言的Concrete/Abstract Ratio高于虚构证人证言。

(三)实验设计

为了验证这个假设，我们计划采用实验方法获取语料。虽然实验语料与司法实践中的真实语料或许会有一些差别，导致我们的研究结果难免会受到ecological validity方面的质疑，但出于以下几处考虑，我们最终还是作出妥协：一是控制干扰变量，真正的司法环境中产生的证人证言存在太多不可知干扰变量；二是确定基础事实(ground truth)，与真实司法环境中的证人证言相关的基础事实无法确定；三是已有证人证言可信度研究大部分采取试验方法；四是合理设计的实验可以确保一定程度的ecological validity。具体研究步骤如下。

1.取得语料。招募两组大学生自愿参加本实验。一组有31人观看一个街头暴力视频，然后以目击证人身份和口吻描述该暴力事件细节，取得的书写内容构成真实证人证言；另一组的30人仅告知事件大致，不观看视频，但要求以目击证人身份和口吻描述该暴力事件，由于他们实际上并不了解事件细节，通常情况下为了使自己所写内容令人相信，会依据生活经验编造，故取得的书写内容构成虚构证人证言。

2.标注。按照语篇信息分析的体系和规范对两组证人证言进行信息成分标注。在此之前，为了使标注一致，标注者参加多次标注培训和练习，其标注质量取得专家认可后方可正式标注。需要说明的是，出于效率考虑，现有对语料进行标注的手段往往设计为计算机自动标注，这必然会牺牲一部分准确性，尤其是汉语的形式比较灵活，甚至被认为没有形态学特征。在效率与准确之间，证人证言可信度研究无疑偏重后者，故我们的研究提倡对语料进行手工标注，但不排除将来在技术成熟和要求效率的情形下对语料进行计算机自动标注。标注后的语料样本如下：当时我逛完街坐在广场旁边的石凳上休息，看到她们三个女生走过来，她们衣着比较时尚靓丽，我就不禁多看了几眼，她们走过来的时候，其中两个女生手挽着手比较亲昵地聊着天，另一个短发女生在旁边讲电话，突然短发女生挂了电话之后，就拉住另两个女生中一个卷发的，不知道问了什么问题，当时距离有点远听不清，不过动作挺大的，很多人都看过去了。短发女生当时有点激动，卷发女生后来很大力地甩开短发女生的手，回头就要走的时候，短发女生揪住她头发就给了她一巴掌，当时旁边有个直发的女生，就过来挡在卷发女生前面和短发女生争吵了几句，短发女生当时很激动，也不听她说，把直发女生推开，把卷发女生扯过来，又扇了卷发女生几巴掌。那个直发女生突然走掉了，我看当时卷发女生都要哭了，旁边聚集了一些看热闹的人，有人看不过去走上去劝说短发女生，开始短发女生还非常不屑，嘴里骂骂咧咧的。后来你们警察来了才稍微收敛。这就是我当时看到的一些情况，绝无虚言！

3.统计分析。对两组标注后的语料进行统计、比较和分析。本研究中，我们计算出真实组和虚构组每一份证人证言的Concrete/Abstract Ratio，比如上文的样本中过程类信息成分PS、PQ、PR、PA、PC、PT、PB、PN的数量分别为9、2、4、3、2、5、19和3个，按照我们的归类，PC、PT、PB属于表示具体过程的信息成分，共计26个；而PS、PQ、PR、PA和PN属于表示抽象过程的信息成分，共计21个。在这个具体语篇中，Concrete/Abstract Ratio的值为1.238。用此方法计算出真实组和虚构组每一份语篇的Concrete/Abstract Ratio值，然后用独立样本T检验比较两组间有没有显著差异。

(四)分析结果与讨论

前期研究在真实组(M=2.67，SD=1.05)和虚构组(M=1.13，SD=0.50)中各取10份标注后的语料，并计算其Concrete/Abstract Ratio，符合正态分布，所以虽然每组样本数量比较小，也可以进行独立样本T检验。T检验结果(t(18)=4.18，p=0.001)显示真实组的Concrete/Abstract Ratio高于虚构证人证言，且有统计学上的显著意义。换言之，DIA的信息成分分析可以将真实证人证言与虚构证人证言区分开来。

本研究的结果不难找到认知心理学的依据。对于真实组的被试，其认知资源源于耳闻目睹，较为具体生动，记忆和语言加工这些过程中易于再现，故在语篇组织上倾向于使用更为具体的信息成分；对于虚构组，认知资源主要来自其过往的类似经历，这些资源与语篇形成时的时空距离或心理距离较真实组更为遥远，故在语篇组织上往往以更为抽象的信息成分体现。

本研究的结论支持了Semin和Smith的发现，DIA分析方法为其提供了一个便于量化、易于操作的具体方法。本研究的不足在于：只是对真实证言和虚构证言进行组别区分，未来需要对每一份证人证言的可信度进行评价；依据单一参数对可信度进行评价并无太大说服力，证人证言可信度本身是受多因素影响的复杂体，符合多特性混沌(multi-attribute fuzziness)模型特征，更多的参数才更有可能实现高分辨率(high-definition)识别；本研究的语料来自实验，需要在真实司法环境中得到验证。

五、结语

本研究是证人证言可信度研究领域从语篇信息分析角度迈出的第一步。我们认为，语篇信息是与词汇语法特征有联系但不一样的独立维度，DIA为语篇信息提供了非常有操作性的分析手段，可以将文本的语篇信息量化，进而为证人证言可信度的量化评价奠定了基础。当然，本研究的结果只能代表这条新的路径曙光初现，离最终运用到司法实践中评价证人证言并被法庭采纳为证据还有很远的距离，何况从之前的研究来看，单学科的单一维度往往难以完全解决复杂问题，本研究为证人证言可信度的多维解决方案提供了来自语篇信息方面的思路和途径。

证人证言可信度评价的语篇信息成分分析途径——一项前导性研究