王虹
(中国刑警学院 辽宁 沈阳 100035)
书面言语特征及其量化选取与分析
王虹
(中国刑警学院辽宁沈阳100035)
准确地选取言语特征是书面言语鉴定的基础和关键。目前,语音特征、文字特征、词语特征、句法特征、语篇特征、修辞特征、标点符号特征、信封特征、文字布局特征、输入法特征是常用的十大类书面言语特征。我们研发的《案件书面言语量化辅助分析系统》实现了对方音别字、别字、繁体字、实词的使用习惯、虚词的使用习惯、词汇套、成语、行话、术语、处置句、被动结构、直接引语、信封三款用语和标点符号的选用等特征的半自动量化选取与分析,对字频、词频、词性频率、构成词的音节多寡、句长、语序、主语的类型、标点符号的使用频率等特征的自动量化选取与分析,为检验人员带来了便捷,为其出具鉴定意见提供了重要的依据。
书面言语特征量化选取分析
从20世纪90年代中国刑警学院开始研究并使用书面言语鉴定技术以来,书面言语鉴定技术有了很大的发展,但却一直存在定性的分析判断多,定量的分析少,对鉴定人员经验和主观判断依赖大等问题。这在一定程度上影响到鉴定结论的准确程度和科学性,也不利于书面言语鉴定技术的发展。
书面言语鉴定的基础和关键之处就在于能否正确地认识和准确地选取言语特征。随着语言学研究和计算机技术的发展,如何利用计算机的语言处理技术,结合汉语的实际,实现书面言语特征的量化选取和分析,从而实现书面言语鉴定的定量检验和自动化、现代化,成为书面言语鉴定技术的发展方向。为此,我们在系统梳理目前常用书面言语特征的基础上,研发了《案件书面言语量化辅助分析系统》,实现了对多种书面言语特征的半自动或自动量化选取与分析。
1.1专家们对书面言语特征的阐述
季华权(1996)认为言语特征体现于认知水平、语文素养和言语风格三个方面。鉴别认识水平是看认识特征,主要是看它表现的广度、深度和档次。广度指所涉及的知识面;深度指对某方面知识的了解程度,是一般了解还是略知皮毛,还是精深娴熟;档次指所涉知识在整个知识体系中的层级,是生活常识,还是专业知识,是一般经验,还是高深理论。语文素养主要包括文字水平、用词水平、造句水平、表述水平。言语风格包括基本风格(时代风格、地区风格、角色风格、表现风格)和具体风格(文字风格、词汇风格、句子风格、修辞风格、篇章风格、标点风格、附属风格)。
杨旭(2000)认为个人之间不同的言语风格、语言特征,主要表现在词汇、句式、句法等语言材料和表达方式的各个要素,以及言语内容与个人属性和案件情况的关系等方面。
王志家(2001)认为个人言语风格是体现在言语作品中宏观、抽象的某种气氛或格调。对个人书面言语特征的司法鉴定主要是对“超语言剩余部分”的鉴定。王志家等(2002)认为所谓书面言语特征是个人通过对语言因素、表达方式的选择、调遣所呈现出来的特殊的、稳定的言语态势。言语特征的表现因素是构成言语特征的物质机制和形态标志,它包括语言表现因素特征,如文字、词汇、句式、语法、篇章、修辞等,以及非语言表现因素特征,如标点符号等。
董阳(2003)认为言语特征主要是通过“超语言剩余部分”体现出来的,表现在文字、词汇、句子、篇章等语言材料和表达方式的各种习惯上,以及言语内容与个人属性和案件情况关系等诸方面。在鉴定中还可以运用语言学、修辞学、语体学、逻辑学、统计学等学科知识、原理和研究方法,从字、词、句式、篇章等不同层次、各个方面来分析和研究。
袁瑛(2005)认为“言语特征是每一个体在书面言语交际活动中必然表现出的言语习惯,它因言语人的自然属性和社会属性的不同,呈现出差异性一般由集中要素构成:言语风格、言语交际中的字词句篇章、修辞和标点等运用等。”此外,她还介绍了一些打印机具痕迹特征:打印方式特征、打印机使用的材料特征、打印机系统的软件特征、打印机功能部件的缺损痕迹特征、喷墨打印机与激光打印机打印文件的种类识别特征等。
岳俊发(2007)认为言语习惯的外在表现是运用语言材料(要素)和语言手段形成的言语特点,即言语材料中体现出的一系列具有规律性的言语特征。言语特征的表现是多方面的,各种语言要素或语言手段都可能成为言语特征,关键要看言语人所运用的语言要素和语言手段是否具有反复出现的规律性。没有什么固定不变的言语特征。言语特征只能说容易从哪些方面表现出来,而不能说什么语言要素或语言手段是或不是言语特征。书中以成功鉴定的十余起实际案件为例,阐述了书面言语特征:文字特征、语音特征、词语特征、语法特征、结构特征、文字布局特征、标点符合特征、修辞特征共八类。文字特征包括错别字、繁体字、异体字、旧形字、职业字、方言字、习俗字、生造字等;语音特征指方音别字;词语特征包括连词、介词、副词、语气词、口头语、成语、文言词语、简缩语、短语等;语法特征包括规范性的和不规范性的,尤其是句式;结构特征包括总体结构,段落层次,开头、结尾的方式等;文字布局特征包括各种行文格式、文字的间距和行距等;标点符号特征包括各种标点符号的使用特点和每个人使用标点符号的频率;修辞特征包括人们常用的各种修辞手段。
总之,目前已经明确提出的书面言语特征大致可以归纳为形式和内容两大类。从形式上看,书面言语特征主要包括笔迹特征(书写言语材料)、打印机具痕迹特征(打印言语材料)、文字特征、语音特征、布局特征和标点符合特征;从内容上看,书面言语特征主要包括词语特征、语法特征、结构特征、修辞特征和言语内容特征等。
1.2目前常用书面言语特征的总结
1.2.1语音特征
方音别字;不规范的形声简化字;不同声调字系列相混。
1.2.2文字特征
字频;别字;错字;二简字;繁体字;异体字旧字形;职业字;方言字;习俗字;生造字。
1.2.3词语特征
指定词,如方言词、不同时代的词、缩略语、文言词语等有特点的词;实词的使用习惯、虚词的使用习惯;词性;词的文体色彩(书面,口语,俚语);词的音节多寡;构词方式;词汇套(即习惯性搭配);成语、行话、术语。
1.2.4句法特征
句长;分句类型;语序;主语类型;处置句(包括处置词和句子语序);被动结构(包括被动词和是否引进施事);直接引语、间接引语;排比句;病句。
1.2.5语篇特征
总体结构;段落之间的过渡、衔接、连贯;分析语篇的导言,正文和结束语,逻辑联系语和语篇其他纽带的使用等;叙述的角度(第几人称叙述,意识流的叙述)。
1.2.6修辞特征
修辞方法(如比喻、借代、拟人、夸张、反语、引用、反复、排比、设问、反问、摹状、顶针等)。
1.2.7标点符号特征
标点符号的选用;使用频率(统计每类标点符号的使用频率,列表,供人工选择是否列入比对表)。
1.2.8信封特征
信封三款用语;信封三款格式(如收信人邮编和地址、收信人姓名、寄信人地址和邮编等的位置关系,包括书写和直接在信封上打印两种形式);邮票粘贴位置及方向;信封三款剪切方式、粘贴位置(此特征适用于信封三款为打印在纸上,然后剪切、粘贴到信封上的情况)。
1.2.9文字布局特征
手写的言语材料。整体布局包括字行的方向和形态、行间间隔、字行与格线的关系、字行与页边的关系;字位包括字的大小、倾斜的方向和角度、字间的间隔、字间组合的大小比例和位置关系;分段格式包括是否分段、段首是否缩格、段首缩格字数多少;程式语安排包括信函、报告、契据等文件中的称呼、问候、祝颂以及署名、日期等格式性词语的安排形式及内容之间的位置关系;页码包括是否编出页码、页码形式、页码位置;数字安排包括数字与格线的关系、无格线时数字与邻近文字的大小比例和位置关系。
打印、电脑存储介质存储或网络传输的言语材料。页面设置包括上下左右页边距、装订线位置、纸幅方向、页码范围、纸张大小、纸张来源、节的起始位置、页眉页脚、页面对齐方式、文字排列方向、分栏数、有无网格、每行字符数和跨度、每页行数和跨度;段落设置包括段落对齐方式、大纲级别、段落缩进、首行缩进、悬挂缩进、段前间距和段后间距、行距、是否设置了文档网格、换行和分页、中文版式;字体设置包括中文字体、英文字体、常规和加粗及倾斜等字形、字号、下划线、着重号、上下标、删除线和双删除线及阴阳文等效果、字符间距和位置、文字效果;分栏设置包括分栏数、分栏方式、分栏宽和间距;项目符号编号包括项目符号的有无及具体图标、编号的有无及具体形式、多级符号的有无及具体形式、列表的样式。
1.2.10输入法特征
各种拼音输入法;五笔字型输入法。
目前,书面言语特征的选取主要依靠人工判断和手动选取的方法,检验人员的学识和经验在鉴定中起着决定性的作用,特征的选择存在较大的随机性。对特征的认识和分析也多为定性的判断,缺少定量的特征选取及分析方法。
我们在系统地梳理目前常用书面言语特征的基础上,整理出了可以通过半自动或自动的方法进行量化选取的特征,研发了《案件书面言语量化辅助分析系统》,实现了书面言语特征的半自动和自动量化选取与多文本的同步量化分析;并在此基础上实现了书面言语特征比对表的自动生成。
2.1可实现半自动量化选取与分析的特征
半自动量化选取与分析,是指由检验人员在检材中挑选出特征(只选首次出现的即可),利用《案件书面言语量化辅助分析系统》可以一次性完成对同一检材、其他检材和样本的自动检测,找出所有这些文本中出现的该特征,将含有该特征的句子自动归入言语特征比对表中的相应位置,并对其出现频次、所占百分比等进行自动量化分析,给出相应的量化结果。
目前,我们能够进行半自动量化选取与分析的特征主要包括:语音特征中的方音别字;文字特征中的别字、繁体字;词语特征中的实词的使用习惯、虚词的使用习惯、词汇套(即习惯性搭配)、成语和行话及术语;句法特征中的处置句、被动结构、直接引语;信封特征中的信封三款用语;以及标点符号特征中的标点符号的选用。
2.2可实现自动量化选取与分析的特征
自动量化选取与分析,是指检验人员点选要分析的所有检材和样本(可多选),然后点击要进行量化分析的特征按钮,在《案件书面言语量化辅助分析系统》的帮助下,可以一次性完成对所选检材和样本中相应言语特征的自动检测,系统将以列表形式列出所有的量化结果,供检验人员选择需要放入比对表中的部分,然后自动归入言语特征比对表中的相应位置。以字频特征的自动量化选取与分析为例,系统给出的结果是所有选定的检材和样本中出现的所有字、每个字的出现频次(以降序排列)、该字出现次数占总字数的百分比。
目前,我们能够进行半自动量化选取与分析的特征主要包括:字频特征;词频特征;词性频率特征;构成词的音节多寡特征;句长特征;语序特征;主语的类型特征;标点符号的使用频率特征。
虽然,我们目前能够进行量化选取和分析的书面言语特征有限,但是,《案件书面言语量化辅助分析》系统将为检验人员带来便捷和效率;特征量化选取及分析结果,将为检验人员得出鉴定意见提供重要的依据。
[1]季华权.论言语特征的表现范畴[J].江苏公安专科学校学报,1996,(5).
[2]杨旭.个人言语风格的司法鉴定[J].上海市政法管理干部学院学报,2000,(6).
[3]王志家.书面言语中“超言语剩余部分”的个人识别[J].江苏公安专科学校学报,2001,(5).
[4]董杨.根据电子打印文件确定言语人[J].公安大学学报,2003,(2).
[5]袁瑛.案件言语分析与鉴定[M].北京:中国人民公安大学出版社,2005.
[6]岳俊发.言语识别与鉴定[M].北京:中国人民公安大学出版社,2007.
(责任编辑:于萍)
DF794.2
A
2095-7939(2015)01-0067-03
2014-10-16
公安部科技强警基础专项项目(编号:2011HABJC026);文件检验鉴定公安部重点实验室(中国刑警学院)开放基金资助课题(编号:11KFKT09)。
王虹(1977-),女,吉林九台人,中国刑警学院文件检验技术系副教授,硕士,主要从事言语识别、书面言语鉴定、声纹鉴定研究。