吴尹清
(国防科技大学国际关系学院 南京 210039)
情报分析是“情报工作的中心环节”[1]。随着20世纪上半叶以来情报分析的科学化转向,心理学、历史学等多学科的知识相继进入情报分析的工具箱[2],但作为科学的现代语言学在情报分析中的潜力目前尚未被充分认识和探究。
作为非结构化数据的人类自然语言产出是情报分析的主要对象。现代语言学作为系统研究自然语言规律的学科,自发产生了解读自然语言产出背后事实线索的丰富理论工具,为情报分析方法创新提供了潜在的理论富矿。语言指纹则是这座富矿中最具潜力的语言学工具。现代语言学研究表明,特定个体的自然语言产出在内外部多种因素综合影响下会呈现具有辨识性的语言指纹特征[3-5]。情报分析人员有可能通过分析目标文本或话语的语言指纹特征来获知关于作者或说话人的信息,与其他情报要素进行交叉验证,从而准确解读事实。从理论层面构建与论证基于语言指纹的情报分析方法,有助于情报分析应用性理论创新,深化对现代语言学融入情报分析的学理认识、拓展情报分析的理论视野与实践手段。
“语言指纹”是一个探讨已久的语言学概念,即个体的语言使用(包括文本和话语)具有独特性,这种独特性体现于个体使用语言时各种独特的选择倾向或偏好。尽管原则上个体有做出任何语言选择的可能,但内外部多种因素综合影响下长期形成的语言使用习惯仍会使其稳定地做出具有倾向性的选择[3-5]。这一系列独特的选择倾向或偏好就是“语言指纹”(又称“个人语型”或“个人言语风格”),而语言指纹分析(linguistic fingerprinting)就是通过识别、解读语篇中的各种语言指纹特征,以发现语篇产出者的“语言指纹”。语言指纹分析的逻辑基础是:类似于人的指纹存留于其触摸的物体表面,语言指纹体现于个体所产出的语篇中。
自然语言文本或话语中任何反映个体语言使用独特性的特征都属于语言指纹特征。语言指纹分析的知识来源于语言学的多个分支,包括(计量)文体学、社会语言学(sociolinguistics)、中介语理论(interlanguage)、二语习得、翻译研究、语篇结构分析、司法语言学(forensic linguistics)、作者分析(authorship analysis)等领域的知识。
语言指纹分析的应用价值除了系统性地描写刻画个人言语风格特征之外,还在于通过发现特定语篇中语言使用的独特性从而解读出语篇与个体身份的相关性,这给予了语言指纹分析在语言学之外的应用价值。文献回顾发现,对语言指纹分析应用于解决实际问题有较多探讨的学科为文学[6]、历史学[7]、司法鉴定[8]、剽窃检测[9]等,这些多学科应用先例从侧面显示了语言指纹分析应用于情报分析的可能与潜力。
在情报分析实践中,语言指纹分析发挥了不可或缺的作用,为分析人员提供了独特的参考维度或者关键的突破线索[4,10-12]。在情报分析理论方面,由于语言指纹分析所依靠的知识较为零散,难以总结,情报学领域未将语言指纹分析整体作为一种情报分析方法进行研究。这种实践先行与理论缺位的错位现象导致目前的情报分析理论不能有效地描述此类实践,相关情报分析实践也不能得到理论的有效引领,制约了情报分析理论和实践的发展。因此有必要在理论层面通过跨学科视角研究基于语言指纹的情报分析方法,创新基于现代语言学的情报分析理论,为情报分析实践提供依据和参考。
本文运用案例研究和文献分析法,以“语言指纹”为核心概念,从特征与个体身份相关性(基于语言学理论)、分析流程(融合案例研究)、适用特征、应用场景、方法论基础、局限性等维度进行分析,提出并论证基于语言指纹的情报分析方法。
语言指纹分析法的分析流程概括为“语料获取、特征提取、特征分析、提出假设、交叉验证、生成判断”等6个主要步骤(见图1),符合普适性的情报分析流程[13]。
图1 语言指纹分析流程
语言指纹分析法的方法论基础为实证主义,主要体现在:该方法所依靠的语言学理论基础是在遵循现代科学范式的研究中形成的、是基于对大量语言事实的观察提出假设并经过实证研究反复修正、检验的,具有高度科学化的特点,也是科学归纳法的产物;该方法的具体分析过程符合“客观观察、归纳、验证”的实证主义科学发现路径,也基本符合“问题生成、问题分解、资料搜集、资料甄别、假说生成、上报结论”的实证主义情报分析过程;该方法的理论基础形成与应用过程都注重数据驱动与定量分析;该方法重视假设验证的过程和持续性,例如基于语言指纹分析得出关键假设后的交叉验证步骤就是对各种假设、信息、事实进行持续性的对比印证。虽然方法论基础为实证主义,但该方法在操作步骤和实践运用中可结合基于证伪主义的结构化分析技巧来避免基于语言指纹的单一维度判断主导情报分析结论,帮助克服认知偏见。该方法运用的逻辑思维中最重要的是溯因思维和相关性思维,在“提出假设”步骤中必须运用语言学知识通过语言指纹特征反推或回溯该特征产生的原因(如地域变体与出生地),当某些语言指纹特征与语篇产出者的身份信息之间并非为具有可解释性的因果关系而仅为模式化的现象间相关性关系时(如写作风格与作者身份),则需运用相关性思维进行推理,在分析过程中运用的思维方式还有对比、综合、归纳。
情报分析方法是信息转化为情报的关键,是解读事实的工具[14]。对相关关系的判断是所有情报分析工作的基础[14]。因此,某种情报分析方法是否具备科学性的关键在于它能否帮助分析人员在情报分析所要求的准确程度下判断某类现象与事实的相关关系。本文重点分析写作风格分析法、社会语言学分析法、中介语分析法三类语言指纹分析方法的语言学理论观点及其在情报分析中的流程。
3.1.1 特征与个体身份相关性分析
写作风格分析法的理论基础主要来自于(计量)文体学/风格学,其基础理论假设是:个人或特定群体的写作风格是存在的,这种风格来自于作者在写作过程中的无意识习惯,并可通过一系列文本特征体现或者计量[15]。最能表达写作风格、语言指纹、作者身份三者相关性的写作风格经典定义如:“风格即本人”[16],文体学实证研究也表明,写作风格可通过特定文本特征得到体现和描述,并成为识别作者身份的线索和证据。早期实证研究主要关注词汇特征与作者身份的关联。如费德里克·莫斯特勒(Federick Mosteller)等[7]将包括部分功能词在内的少数特殊词分布频率作为写作风格特征,运用于联邦党人文集作者身份的识别,证实了该特征的有效性。后期随着文体学与作者分析研究的发展,更复杂的数学统计工具得以运用,字符、句法、语义等更多新特征进入写作风格特征的范畴,并在实证研究中确立了其与作者身份的相关性,研究范围也不再局限于经典规范文本,在更为杂乱的非规范文本(如电子化网络文本)中也证明了写作风格特征与作者身份的相关性。文体学领域的理论与实证研究成果证明了写作风格特征与文本作者身份的相关性,揭示了写作风格分析作为情报分析方法的潜力与价值。
3.1.2 分析流程
论证某种情报分析方法还在于考察其能否在情报分析实践中具备操作可行性以及通过合理有序的分析过程准确地解读事实、消解不确定性。还原、回溯情报分析案例可帮助回答这些问题[13]。
写作风格分析法主要是通过发现并分析文本中的独特写作风格特征来判断文本作者的身份。本节通过对FBI在著名的“校航炸弹客”(UNAbomber)匿名连环爆炸案中的情报分析案例研究,介绍写作风格分析法。“校航炸弹客”案件是发生于1978-1995年的著名独狼式恐怖袭击案件[4,10],其策划者的行为特殊性,给FBI等执法机构的侦破工作造成了严重困难,FBI采用写作风格分析法获得了侦破该案件的关键情报。
a.语料获取。必须准确获取目标匿名文本及用于对比的、已知作者为嫌疑目标的文本,为便于发现丰富的写作风格特征,两类文本的规模越大越好。“校航炸弹客”案件中,匿名炸弹客所写的新卢德主义宣传文本已通过报纸主动公开,美国联邦调查局(FBI)则设法获取了当时众多调查对象之一的西奥多·卡辛斯基(Theodore Kaczynski)在20世纪60年代至90年代所写的共178篇文本,包括他于1966完成的博士学位论文、在加州大学伯克利分校任教期间的教学笔记、1966-1994年间的私人信件等,并将这些文本与14篇“校航炸弹客”以化名公开发布的文本进行人工对比综合分析[4,10]。
b.特征提取。可以采用自动抽取方法,也可采用人工观察方法进行特征提取。前者是利用程序自动抽取该语料库的字符、词汇、句法等层面的写作风格特征。后者是分析人员先阅读文本,人工选取两类文本中某些写作风格特征。FBI为“校航炸弹客”案件成立的跨部门情报分析工作组的多个组员通过反复研读两类文本(合计规模约20万词),依靠人工观察选取两类文本共有的写作风格特征:特殊短语、概念指称习惯(指称精确度高、修改所有指称模糊的人称代词)、高复用率的句法结构、高度严谨的逻辑表达、语法错误修正痕迹及习惯(力求更正每个位置错误的标点符号)、所遵循的编辑风格指南(遵循英式拼写原则,如"analyse、skilful、wilfully、instalment")、罕见句法结构(英语不定式结构中间嵌入单词,如"to all go、to voluntarily change"、"to+just+VP"结构:"to just turn、to just dump、to just sort of look、to just shove、to just go down")[4,10]。
c.特征分析。对比两类文本写作风格特征种类、数量、分布的相似度及一致性,可人工对比也可依靠统计学习模型自动处理。FBI情报分析人员使用人工对比方式,发现选取的所有7类特征在两类文本中的数量、分布在统计学意义上一致,比如"to+just+VP"结构在规模为15万词的炸弹客文本中共出现20次,在规模为4.32万词的卡辛斯基文本中出现6次,经过统计校验证实两类文本中的出现频次无显著差异[4,10]。
d.提出假设。基于对比分析得到关于匿名目标文本是否由高价值目标所写的假设,尽管由写作风格分析得出的相关性判断可能非常接近事实,但它仅是基于语言指纹维度推理得出的相关性判断,且这一相关性判断是“概然性”的,因此它仍是分析过程中得到的一种假设,其准确性还需要经过后续的验证得到证实,尚不能就此形成情报结论。FBI的分析人员基于特征对比得出了“所有炸弹客文本作者均为卡辛斯基”的假设[4,10]。
e.交叉验证。结合其他假设或事实对根据语言指纹分析得出的关键假设进行验证,观察它们之间是否相互印证或排斥。在这一分析步骤中,分析人员可运用基于批判性思维与证伪主义方法论的竞争性假设法等结构化分析技巧来帮助克服认知偏见[13,17],交叉验证各个假设与事实。FBI经过调查掌握的其他事实:卡辛斯基智商极高,情商很低;本科毕业于哈佛大学,拥有密歇根大学的数学专业博士学位,曾任教于加州大学伯克利分校,擅长学术写作与严密的逻辑推理;与人相处有困难,离群索居,缺乏亲密关系,与亲属关系冷漠,从未谈过恋爱;自愿长期居住在丛林中,痛恨现代工业文明与科技进步,拒绝使用现代通讯设备。FBI将掌握的事实、假设进行了反复的交叉验证,发现它们之间相互印证[4,10]。
f.生成判断。依据交叉验证的结果,形成正式的情报产品。FBI将分析工作组的结论撰写为文件,正式上报美国司法部,将卡辛斯基列为“校航炸弹客”的头号嫌疑犯,最终将其抓获[4,10]。
3.1.3 特征总结与适用场景
适用于情报分析的写作风格特征分为两类:一类是可基于文本进行自动抽取的计量风格特征,主要包括:a.字符特征:标点符号频数、空格数、缩进符数、特殊符号数量、段落间分隔符数、数字字符数、字母频数分布、每段总字符数等;b.词汇特征:功能词分布频率、一次频词(hapax legomenon)列表、词汇丰富度、词数、平均词长等;c.句法特征:句长、句子数、词性标记n元列表、句法标记n元列表、平均整句长、平均小句长等[18]。另一类是只能依靠人工观察提取的特征,主要包括:换行习惯(是否使用换行、换行的习惯位置等)、空格使用习惯(是否使用空格、空格的习惯使用位置等)、标点符号使用偏好(如小句末尾处多用逗号还是句号)、概念指称方式、罕见词汇、短语、句法结构、对不同语种的使用偏好、文本格式、所遵循的编辑风格指南(editorial style guide)等。
写作风格分析作为语言学理论应用于情报分析,应用场景发生切换:原生应用场景是服务于语言本体研究、文学与史学研究等,关注经典文本与著名作家身份之间的相关性,注重新特征发现与有效性实证研究;在情报分析中的应用场景则是服务于政治、军事、反恐、刑侦情报分析,关注匿名文本(无论是否为规范文本或电子/纸质文本)与嫌疑目标之间的相关性,更注重整体思维过程的有序性、与其他情报要素的一致性、结论的确定性。
3.2.1 特征与个体身份相关性分析
社会语言学是由语言学、社会学、人类学交叉形成的边缘学科,是现代语言学的重要分支之一,其核心研究对象是语言在使用中的各种变异(变化和差异)和社会环境之间的相互关系。语言变异具体表现为在语言使用中各种类型的语言变体,即拥有相同社会身份、处于相同社会环境的人较稳定、普遍地使用的某种语言表现形式。社会语言学的核心理论假设认为,由于语言的社会属性,语言使用必然在各种社会因素的影响下产生普遍且持续的变异。社会语言学研究将社会身份、社会环境视作影响语言变异的相关性变量,致力于发现、追踪、描述语言使用中的变异表现(变体)及其与社会身份、环境的关系。语言变体可以是语种、方言、语法、短语、词汇、语音等各层级的变异。社会语言学的变异主义语言观及实证研究揭示了语言变体与语言使用者社会身份的关联:①说话人的社会阶层(职业、受教育程度、收入)与特定语言变体的相关性:如威廉·拉波夫(William Labov)[19]运用定量研究方法,调查纽约市高中低三个档次的百货公司雇员中发英语卷舌音“r”的习惯,发现百货公司越高档,雇员发“r”音的频率越高,他还抽样调查了纽约市四个社会阶层(根据职业、受教育程度、家庭收入划分)发英语齿间摩擦音“th”和“dh”的情况,量化分析发现阶层越高的调查对象将“th”和“dh”发成标准音[θ]和[]的频率越高,阶层越低的调查对象使用非标准变体(把齿间摩擦音发成闭塞音[t]或[d])的频率越高;②地域因素与特定语言变体的相关性[20];③代际/年龄因素与特定语言变体的相关性[21];④职业身份与特定语言变体的相关性[22-23];⑤社会网络地位等级与特定语言变体的相关性[24]。社会语言学为情报分析人员通过各种语言变体解读其背后的语言使用者真实身份提供了思维工具,语言变体可成为用于情报分析的语言指纹特征,社会语言学分析具备了成为情报分析方法的潜力与价值。
3.2.2 分析流程
社会语言学分析法主要是通过发现并分析文本或话语中具有社会身份意义的特征来判断作者或说话人的身份。本节基于对韩国国家情报部门安全企划部(ANSP)在著名的大韩航空KAL858航班爆炸案中的情报分析实践案例研究,介绍社会语言学分析法。该案件是发生于1987年的恐怖袭击事件,大韩航空KAL858航班在从阿布扎比前往汉城的飞行途中发生空中爆炸,115名机组人员和乘客全部遇难。ANSP在调查事故原因的过程中依靠社会语言学分析法获取了侦破该案件的关键情报。
a.语料获取。社会语言学研究在口语中发现的语言变体显著多于书面语,因此社会语言学分析法虽可用于分析书面文本,但口语暴露的社会语言学特征及目标对象社会身份信息通常相较书面语丰富得多,最好能通过录音或者面谈等方式获取目标对象的口语材料,书面语文本可作为辅证或无法获取口语材料的情况下再考虑。当时有作案嫌疑的女子“峰谷真由美”已被引渡至韩国,ANSP通过当面问讯并录音的方式获取口语材料[11]。
b.特征提取。基于社会语言学知识,人工识别口语材料中的语言变体。“峰谷真由美”在问讯中讲日语、汉语和英语,ANSP的语言分析专家发现了“峰谷真由美”口语材料中的地域变体,语音地域变体如她的汉语带有中国南方口音,丝毫不带中国东北口音,词汇地域变体如她多次说“粟米”而从不说“苞米”[11]。
c.特征分析。基于语言变体与社会身份的相关性知识反向推出特征背后的社会身份,如社会阶层(职业、受教育程度、收入)、年龄、地域(出生地、曾居住地)、社会关系网络、民族/种族等,并对比得到的各种社会身份信息是否相互矛盾。ANSP基于语音和词汇地域变体反推“峰谷真由美”的曾住地在中国南方地区,如广东、港澳地区等,且她未在东北地区出生或长期居住过[11]。
d.提出假设。若对比分析不相互矛盾,则得到关于目标对象社会身份的假设,作为进一步分析的基础。ANSP基于对比分析得出“‘峰谷真由美’长期曾住地在广东或港澳地区,但未在东北地区乃至中国北方出生或长期居住过”的假设[11]。
e.交叉验证。ANSP掌握的其他关键信息:“峰谷真由美”是该女子在其所持日本护照上的名字;KAL858航班从巴格达起飞经阿布扎比中转,“峰谷真由美”在巴格达登机,但在阿布扎比中转时下机离开;日本政府通报“峰谷真由美”所持日本护照为假护照;“峰谷真由美”声称自己是出生在黑龙江省的中国人,名叫白萃惠,因为家庭变故逃难到了澳门,又经澳门到了日本,被日本人收养,所以自己取了一个日本名;“峰谷真由美”的汉语和日语说得很好,但表现得完全不懂朝鲜语,且对日本汽车品牌等生活细节不了解;朝鲜试图与韩国合办即将到来的1988年汉城奥运会,但谈判破裂,朝鲜公开抵制汉城奥运会。ANSP分析人员发现这些信息与假设之间存在矛盾,经过交叉验证得出“‘峰谷真由美’曾在广东或港澳地区长住,但并未出生在黑龙江,且不是中国人或日本人,非常有可能是朝鲜人”的结论[11]。
f.生成判断。ANSP基于该结论形成情报,指导下一步的问讯工作,加快突破“峰谷真由美”的心理防线,最终“峰谷真由美”的供述符合ANSP的结论[11]。
3.2.3 特征总结与适用场景
适用于情报分析的社会语言学特征主要是能反映说话人或作者的社会阶层(职业、受教育程度、收入)、社会关系网络、地域(出生地、曾住地)、年龄、民族/种族等社会身份信息的语音、词汇、短语、语法各层次语言变体,除了前文讨论的特征,还包括用词与语法的(非)规范程度、对不同语体的掌握熟练程度、疑问语气、不确定性陈述、礼貌用语、会话中的话轮转换方式及话题控制程度等。
社会语言学分析的原生应用场景是服务于语言变异描写、语言规划与保护、商业广告策略、法律实践等,在情报分析中的应用场景则是服务于政治、军事、反恐、刑侦情报分析,关注目标人物口语中的社会语言学特征与其社会身份之间的相关性。
3.3.1 特征与个体身份相关性分析
中介语理论是兴起于20世纪60年代末的二语习得理论,其理论框架后来也被借鉴到翻译学习者研究中,因此本文将语言学习者的外语和翻译产出都纳入中介语分析法的分析对象。中介语是指语言学习者在学习过程中构建的介于母语和目的语(即外语)之间的一套特殊的过渡性/中间态语言系统,中介语因同时受到母语和目的语迁移效应的影响而产生相应的关联性特征,它伴随学习过程不断变化,逐渐向准确的目的语形式靠近[25]。中介语理论认为,学习者的外语/翻译能力也是动态、发展、阶段性的,当他们处于不同学习阶段时,其外语/翻译过渡性系统也表现出不同的中介语特征,而外语使用偏误和翻译错误作为最重要的中介语特征,与语言学习者的语言习得状态(母语和外语是何语种)、外语/翻译水平(外语/翻译学习阶段)存在相关性,相关实证研究也证实了这种相关性:a.外语使用偏误与母语语种的相关性:母语负迁移(negative transfer)效应是中介语形成的重要根源[25],母语负迁移导致的外语使用偏误是识别外语使用者母语语种的高辨识度特征。中介语研究近年已发展出名为“母语影响识别”(Native Language Influence Detection)的跨学科领域,专注于通过抽取和量化分析外语使用偏误来识别外语使用者的母语,其中也产生了情报分析应用导向的实证研究成果,例如通过分析网络匿名通讯文本的外语使用偏误发现其作者(网络匿名犯罪者)的母语语种及与之相关的身份信息[26]。例如安德烈·M.巴特尔(Andrea M. Batel)等[27]基于母语为西班牙语、英语为外语的作者产出的英语网络通讯文本,通过外语使用偏误分析出文本作者的母语为西语,且成功区分出作者母语为墨西哥西语或欧陆西语的两类英语文本。b.外语使用偏误与外语水平、外语使用识别的相关性:外语使用偏误除了本身作为外语使用的标志性特征,还与外语水平相关[28-29]。c.翻译错误与翻译水平、母语语种、译文识别的相关性:翻译错误本身是译文识别的标志性特征,同时受母语影响的典型翻译错误也可用于分析翻译学习者的母语语种[30];翻译错误分布模式可用于判断学习者的翻译水平[31]。
语言习得状态、外语/翻译水平本身就是构成个体身份的重要维度[32],因此与之相关的中介语特征可揭示语言使用者的真实身份,成为可用于情报分析的语言指纹特征。
3.3.2 分析流程
中介语分析法主要是通过发现并分析文本或话语中能够反映说话人或作者的外语/翻译水平或语言习得状态的中介语特征来判断作者或说话人的身份。本节基于美国中央情报局(CIA)对苏联共产党中央政治局的情报分析实践案例研究,介绍中介语分析法。1947年8月,正值美苏冷战初期,CIA依靠中介语分析法获取了关于苏共政治局内部政治动向的情报。
a.语料获取。文本和口语都会暴露较多中介语特征,因此获取目标对象的外语/翻译文本、或外语口语材料、口译产出均可,语料规模越大越好,获取时未必需要了解目标对象是否在使用外语/翻译,尽可能多地获取目标对象产出的语料即可。当时CIA的报告与评估处意外获得了一份来源不明、作者身份不明的英文备忘录[12]。
b.特征提取。基于自身的外语/翻译知识,人工识别语料中的外语使用偏误或翻译错误。CIA报告与评估处的分析人员提取了备忘录中的英文拼写、短语搭配错误作为中介语特征[12]。
c.特征分析。基于中介语理论知识,通过外语使用偏误或翻译错误反向推出作者、译者、说话人的语言/翻译水平、语言习得状态。CIA的分析人员根据上述错误发现备忘录“是基于法语思维用英语写成的,或是直接从法语翻译成英语的”[12]。
d.提出假设。若对比分析不相互矛盾,得到关于目标对象语言/翻译水平、语言习得状态的假设,作为进一步分析的基础。CIA基于分析得出“英文备忘录并非母语写作产出,而是外语写作或翻译产出,作者/译者的法语水平很高,法语是其接近母语水平的高水平外语或就是其母语,作者/译者的英语水平较低,是其低水平外语”[12]的假设。
e.交叉验证。CIA报告与评估处掌握的其他信息与假设:备忘录内容仅显示其作者是某个苏联卫星国的驻苏联大使,并不清楚具体是哪位;当时的苏联卫星国中,只有罗马尼亚和匈牙利国民的法语水平普遍很高,这两国的外交官也都有很高的法语水平,其他苏联卫星国则不存在该情况;该备忘录的来源、交出动机和时间均不明;备忘录主要内容为苏共政治局的内部谈话与尖锐斗争情况,苏联卫星国驻苏大使不可能亲自参与该层级的活动,泄密源头必定另有其人,能够获知如此高层级情况的人员主动泄密的可能性较低;作者在备忘录的按语中写到:“原文件被从保险柜取出,通过特制微缩相机拍照后再放回柜中”“自己处心积虑地为该文件的人力情报来源保密”,这进一步说明该备忘录的主要内容是基于另一份文件编写整理而来,且作者/译者是通过人力情报渠道得到该文件的,该文件很可能是苏共政治局的会议记录,获得该文件的人力情报渠道在备忘录中也有表述。CIA的分析人员发现这些事实、假设之间存在一定矛盾,经过竞争性假设分析得出“该英文备忘录的作者/译者是罗马尼亚或匈牙利驻苏大使,该备忘录具备真实性,不是假情报,备忘录中关于苏共政治局内部政治动向的信息应该得到接受”的结论[12]。
f.生成判断。CIA报告与评估处基于该结论形成情报产品并上报。
3.3.3 特征总结与适用场景
适用于情报分析的中介语特征包括语音、拼写、词汇、短语、句法-语义、语用等各层级的外语使用偏误或翻译错误。语音、拼写错误通常多见于低水平学习者的产出中。其中词汇层级的偏误是最常见的特征,如选词错误、选词不准(如用抽象度过高的词汇指代具象度较高的下位概念)。其次是短语搭配偏误,外语/翻译学习者经常会产出语法上正确但母语者完全不能接受或觉得生硬的短语搭配,或者短语搭配使用的变化过少以及固定、准固定、半自由词组的使用太少。句法-语义偏误如动词论元结构(argument structure)错误或句法结构过于简单。语用偏误常见于口语运用中,非母语者由于对目的语文化不熟悉,在使用外语进行真实交际时通常不能很好地适配各种交际情景、自如地随语域变化切换说话方式。
中介语分析的原生应用场景是服务于外语教学、二语习得研究、翻译教学、翻译质量评估、翻译认知过程研究等,在情报分析中的应用场景则是用于识别伪装成本地母语者或未表明其真实语言习得状态的目标人物,服务于政治、反恐、网络匿名犯罪情报分析以及反情报,主要关注目标人物外语写作、外语口语、口笔译产出的中介语特征与其语言习得状态、外语/翻译水平之间的相关性。
a.概然性问题。语言学研究证实了语言指纹特征与语篇产出者身份的强相关性,为分析人员利用语言指纹特征回溯作者或说话人身份提供了基础,但两者间的语言学关联并不是具有完全确定性的对应关系,而是在可接受的置信水平下的概然性联系,况且情报分析现实场景中各种复杂因素对语言指纹特征表现的影响更是可能超出语言学的认知范围,因此分析人员不能完全受限于基于科学发现范式的实证主义方法论思维[2],一是要认识到语言指纹分析在本质上是基于一定置信水平的合理判断,不确定性始终存在;二是要尽量扩大观察语料的规模,以便发现复现率较高、模式化的特征;三是要重视交叉验证过程,进一步消减不确定性和认知偏见。
b.欺诈问题。情报分析与科学研究的本质差别在于情报分析需经常面对目标对象的欺诈、拒止等复杂的对抗性行为[2],作为具体方法的语言指纹分析同样也不例外,目标对象完全有可能使用欺诈策略,在文本或话语中刻意隐藏或扭曲语言指纹特征,显著降低语言指纹分析的准确性,让分析者难以通过语言指纹分析获得有价值的情报。此类现象称为“语言指纹隐匿”[33],情报分析领域需对“语言指纹隐匿”的具体策略、行为共性、识别方法等进行研究,情报分析人员在方法应用中则需警惕和识别目标对象的欺诈行为,特别是目标对象呈现的语言指纹特征相互矛盾时,需注意使用多个信息源对假设推论进行验证。
c.机器文本泛滥风险。语言指纹分析方法的科学性、可行性、有效性均建立在其所观测的语料是人类自然语言产出的前提上,否则语言指纹特征与个体身份之间的相关性将不复存在。随着以ChatGPT为代表的自然语言生成大模型在未来的深入应用,情报分析将面临由于大模型生成的机器文本泛滥而造成的数据污染现象,情报分析所处理的文本数据中,机器文本占比将越来越高,且语言大模型在信息类(informative)等中低难度类型文本的写作、翻译方面的水平与人类原创写作、翻译文本差距不大,严格区分人类与机器文本难度不小。在这种前景下,基于语言指纹的情报分析方法无疑将受到冲击,尤其是对网络匿名电子文本的语言指纹分析。情报学和语言学未来需加强对ChatGPT等大模型文本的特征规律研究,提出针对性的识别与区分方法,以应对其对情报分析造成的风险。
本文运用案例研究法,研究基于语言指纹的情报分析案例,介绍了语言指纹在情报分析中的应用方法。语言指纹分析法以语言指纹特征与个体身份的关联性为理论基础,为情报分析提供了新方法和工具,也拓宽了语言学的应用场景,有助于形成语言学与情报学的跨学科研究。语言指纹特征集合是非封闭、多维度的,可用于情报分析的语言指纹特征不一定局限于本文所研究的特征。另外,虽然笔迹也有辨识性,但不属于语言学关注对象,不是本文所说的“语言指纹特征”,故不做讨论。后续研究可考虑探讨声纹、语篇结构、隐喻使用偏好、情感表达偏好、极致表达偏好[34]等特征的应用可行性。为便于语言指纹分析法的应用,一是情报机构需加强相关情报分析力量建设,大型或高级别的情报机构可考虑在情报分析单位中成立专门的或涵盖语言分析业务的小组、处室,或提前设立临时工作机制,以应对情报分析工作中的语言分析需求,二是学界需加强外语、语言学等学科背景的情报分析人才培养及情报学与语言学的交叉研究。
致谢:感谢张薇主编、高金虎教授对本文的指导!