张赛
摘 要:以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。本文以语言结构的计量特征表示文本的方法加强了语言风格对比及作者判定研究的可解释性,具有较高的理论和应用价值。
关键词:语言风格;语言结构;计量特征
本文基于语料库和统计方法,获取现代汉语语言结构的计量特征,而后考察这些语言结构计量特征在作家语言风格描写、对比研究及作家判定方面的实际应用。具体过程是:首先,分别选取两个作家的三个语料样本,对其进行分词并以文本为单位计算特定语言结构在文本中的频率和百分比;然后,基于样本的均值比较这些语言结构在分别属于两个作家的两个样本中的分布是否具有差异;最后,还对同一个作家的两个不同的样本中比较这些语言结构是否具有差异。
一、语料与方法
研究选取了3个文本,分别为韩寒早期作品《三重门》,韩寒近期作品《1988:我想和这个世界谈谈》和韩寒父亲韩仁均作品《儿子韩寒》。《三重门》于2000年由作家出版社出版,总字数155820,总词数116461;《1988:我想和这个世界谈谈》第一版于2010年7月6日《独唱团》刊发,总字数92384,总词数70185。两者均为韩寒所著的长篇小说。而《儿子韩寒》为韩寒的父亲韩仁均所写,向读者介绍了韩寒的成长经历,具有传记性质,总字数52854,总词数37654。
首先,笔者将这三个文本进行了汉语分词处理,汉语分词标注所用的软件为LJParser。LJParser文本搜索与挖掘开发平台包括全文精准搜索、新词发现、汉语分词标注、词语统计与术语翻译、自动聚类与热点发现、分类过滤、自动摘要、关键词提取、文档去重、正文提取等十余项功能。对于分词标注后的三个文本,我们利用AntConc软件进行了语料库分析(词频统计等)。由于韩寒早期作品《三重门》的作者存在争议,有人质疑《三重门》为韩寒父亲代笔,所以我们试图通过比较文本中陈述句、疑问句、感叹句比例,近似平均句长,以及23个常见虚字在文本中的使用情况,来观察《三重门》的语体风格和用词习惯是更接近于韩寒近期作品《1988:我想和这个世界谈谈》还是其父作品《儿子韩寒》。如果《三重门》的语体风格和用词习惯是更接近于《1988:我想和这个世界谈谈》,而与《儿子韩寒》有显著性差异,那么我们就为《三重门》为韩寒自己所写提供了证据。反之,如果《三重门》与《儿子韩寒》更为接近,而与《1988:我想和这个世界谈谈》存在显著性差异的话,那么就为《三重门》由韩父代笔而作的质疑提供了证据。
二、数据与分析
本文主要研究了三个文本以下两个方面的差异:一是陈述句、疑问句和感叹句比例及近似平均句长,二是常见虚字(包括句尾虚字,白话虚字和表转折程度比较的虚字)的比例。对于这两个方面,AntConc的数据统计结果如表1所示:
表1 三个文本相应变量出现的频度
■
由于三个文本的总字数和总词数各不相同,为了更好地进行比较,我们将频度转换为频率,从目标标点和虚字出现的频率来进行对比,频率数据如表2所示:
表2 三个文本相应变量出现的频率
■
从表中可以看到《三重门》《1988:我想和这个世界谈谈》与《儿子韩寒》所用的逗号、句号、叹号和问号比例分别有所差别,而其中《三重门》中叹号出现的比例(0.35%)要显著高于《1988:我想和这个世界谈谈》(0.00%)与《儿子韩寒》(0.06%)。从平均句长上来看,《三重门》为26.53,《1988:我想和这个世界谈谈》为27.20,而《儿子韩寒》则为31.94,高于前两篇。可见韩寒早期作品《三重门》与近期作品《1988:我想和这个世界谈谈》平均句长接近,而其父作品《儿子韩寒》的平均句长则要长于韩寒。联系到逗号的数据(《三重门》6.34%;《1988:我想和这个世界谈谈》8.22%;《儿子韩寒》4.95%),可以发现,韩仁均作品《儿子韩寒》不仅整句平均句长更长,其长句中每一个短句的句长也要长于其他两部作品。而《1988:我想和这个世界谈谈》则呈明显的短句更多更短的特点,其逗号比例显著高于另外两部作品。
虚字方面的分析,我们选取了23个虚字,分别为5个句尾虚字:呀、吗、咧、么、呢;9个白话虚字:了、的、着、一、不、把、让、是、好;9个表转折程度比较的虚字:可、就、但、越、再、便、更、此、很。
从表2中可以看到,有四个虚字:“么”“了”“着”“是”在《1988:我想和这个世界谈谈》中的出现频率要明显高于《三重门》和《儿子韩寒》。由于单个字的对比说服力有限,因此我们运用SPSS进行了三个文本同样23个虚字的相关性检验。
相关性检验表明,《三重门》(0.5179%±0.83918%)与《1988:我想和这个世界谈谈》(0.6438%±1.05711%)呈显著相关,p=0;《三重门》与《儿子韩寒》(0.5209%±1.01391&)(p=0)和《1988:我想和这个世界谈谈》与《儿子韩寒》(p=0)也分别呈显著相关。三个研究文本的相关系数如表3所示。
表3 三对文本对的成对样本相关系数
■
结果表明,相关性检验并不能为研究提供有意义的证据。因此,针对这23个虚字,我们利用SPSS软件进一步做了配对样本T检验。
对于这23个虚字,我们分别以《三重门》和《1988:我想和这个世界谈谈》成对,以及《三重门》和《儿子韩寒》成对,进行了两对成对样本检验。表4为成对样本检验结果,如下所示。
表4 两对文本对的成对样本检验结果
■
从表4中可以看到,《三重门》与《1988:我想和这个世界谈谈》存在显著性差异,0
0.1。这样的数据说明韩寒早期作品《三重门》与近期作品《1988我想和这个世界谈谈》的虚词使用存在显著差异,然而其早期作品《三重门》与其父亲作品《儿子韩寒》的虚字用法却非常相似。从某种意义上说,我们有理由认为《三重门》可能由韩仁均代笔而作。如果真是这样,那么拿《1988:我想和这个世界谈谈》与《儿子韩寒》来比较,结果会是什么样的呢?我们做了《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验,结果如表5所示。
表5 《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果
■
《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果显示,《1988:我想和这个世界谈谈》与《儿子韩寒》的23个虚字用法存在差异边缘性显著,0.05
三、结论
本研究通过对三个52,000字以上的语料样本进行统计分析,有以下推测:《三重门》可能是由韩寒之父韩仁均代笔而作,或者《三重门》是韩寒父子二者合著。然而,我们的研究也存在一些值得推敲的细节,还需要在将来的研究中加以改进。综观整个研究,我们发现,将基于计量语言学研究成果的语言结构分布特征作为语言风格对比和作家判定,实验证明是可行可信的,而且特征选择和对比分析结果都可以从语言学的角度进行分析和解释。此外,学者黄伟、刘海涛曾用这种方法成功地进行了文本聚类和分类实验。这样的方法具有普适性,值得在更多的语言学研究领域进行尝试。标注体系和工具对统计结果的影响,语言风格在字、词、句等语言结构和语法、语义、语用层面的全面计量描写等,都是今后值得继续和深入研究的课题。
参考文献:
[1]陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用, 2012,48(3):137-139.
[2]黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27.
[3]桂诗春.基于语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.
摘 要:以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。本文以语言结构的计量特征表示文本的方法加强了语言风格对比及作者判定研究的可解释性,具有较高的理论和应用价值。
关键词:语言风格;语言结构;计量特征
本文基于语料库和统计方法,获取现代汉语语言结构的计量特征,而后考察这些语言结构计量特征在作家语言风格描写、对比研究及作家判定方面的实际应用。具体过程是:首先,分别选取两个作家的三个语料样本,对其进行分词并以文本为单位计算特定语言结构在文本中的频率和百分比;然后,基于样本的均值比较这些语言结构在分别属于两个作家的两个样本中的分布是否具有差异;最后,还对同一个作家的两个不同的样本中比较这些语言结构是否具有差异。
一、语料与方法
研究选取了3个文本,分别为韩寒早期作品《三重门》,韩寒近期作品《1988:我想和这个世界谈谈》和韩寒父亲韩仁均作品《儿子韩寒》。《三重门》于2000年由作家出版社出版,总字数155820,总词数116461;《1988:我想和这个世界谈谈》第一版于2010年7月6日《独唱团》刊发,总字数92384,总词数70185。两者均为韩寒所著的长篇小说。而《儿子韩寒》为韩寒的父亲韩仁均所写,向读者介绍了韩寒的成长经历,具有传记性质,总字数52854,总词数37654。
首先,笔者将这三个文本进行了汉语分词处理,汉语分词标注所用的软件为LJParser。LJParser文本搜索与挖掘开发平台包括全文精准搜索、新词发现、汉语分词标注、词语统计与术语翻译、自动聚类与热点发现、分类过滤、自动摘要、关键词提取、文档去重、正文提取等十余项功能。对于分词标注后的三个文本,我们利用AntConc软件进行了语料库分析(词频统计等)。由于韩寒早期作品《三重门》的作者存在争议,有人质疑《三重门》为韩寒父亲代笔,所以我们试图通过比较文本中陈述句、疑问句、感叹句比例,近似平均句长,以及23个常见虚字在文本中的使用情况,来观察《三重门》的语体风格和用词习惯是更接近于韩寒近期作品《1988:我想和这个世界谈谈》还是其父作品《儿子韩寒》。如果《三重门》的语体风格和用词习惯是更接近于《1988:我想和这个世界谈谈》,而与《儿子韩寒》有显著性差异,那么我们就为《三重门》为韩寒自己所写提供了证据。反之,如果《三重门》与《儿子韩寒》更为接近,而与《1988:我想和这个世界谈谈》存在显著性差异的话,那么就为《三重门》由韩父代笔而作的质疑提供了证据。
二、数据与分析
本文主要研究了三个文本以下两个方面的差异:一是陈述句、疑问句和感叹句比例及近似平均句长,二是常见虚字(包括句尾虚字,白话虚字和表转折程度比较的虚字)的比例。对于这两个方面,AntConc的数据统计结果如表1所示:
表1 三个文本相应变量出现的频度
■
由于三个文本的总字数和总词数各不相同,为了更好地进行比较,我们将频度转换为频率,从目标标点和虚字出现的频率来进行对比,频率数据如表2所示:
表2 三个文本相应变量出现的频率
■
从表中可以看到《三重门》《1988:我想和这个世界谈谈》与《儿子韩寒》所用的逗号、句号、叹号和问号比例分别有所差别,而其中《三重门》中叹号出现的比例(0.35%)要显著高于《1988:我想和这个世界谈谈》(0.00%)与《儿子韩寒》(0.06%)。从平均句长上来看,《三重门》为26.53,《1988:我想和这个世界谈谈》为27.20,而《儿子韩寒》则为31.94,高于前两篇。可见韩寒早期作品《三重门》与近期作品《1988:我想和这个世界谈谈》平均句长接近,而其父作品《儿子韩寒》的平均句长则要长于韩寒。联系到逗号的数据(《三重门》6.34%;《1988:我想和这个世界谈谈》8.22%;《儿子韩寒》4.95%),可以发现,韩仁均作品《儿子韩寒》不仅整句平均句长更长,其长句中每一个短句的句长也要长于其他两部作品。而《1988:我想和这个世界谈谈》则呈明显的短句更多更短的特点,其逗号比例显著高于另外两部作品。
虚字方面的分析,我们选取了23个虚字,分别为5个句尾虚字:呀、吗、咧、么、呢;9个白话虚字:了、的、着、一、不、把、让、是、好;9个表转折程度比较的虚字:可、就、但、越、再、便、更、此、很。
从表2中可以看到,有四个虚字:“么”“了”“着”“是”在《1988:我想和这个世界谈谈》中的出现频率要明显高于《三重门》和《儿子韩寒》。由于单个字的对比说服力有限,因此我们运用SPSS进行了三个文本同样23个虚字的相关性检验。
相关性检验表明,《三重门》(0.5179%±0.83918%)与《1988:我想和这个世界谈谈》(0.6438%±1.05711%)呈显著相关,p=0;《三重门》与《儿子韩寒》(0.5209%±1.01391&)(p=0)和《1988:我想和这个世界谈谈》与《儿子韩寒》(p=0)也分别呈显著相关。三个研究文本的相关系数如表3所示。
表3 三对文本对的成对样本相关系数
■
结果表明,相关性检验并不能为研究提供有意义的证据。因此,针对这23个虚字,我们利用SPSS软件进一步做了配对样本T检验。
对于这23个虚字,我们分别以《三重门》和《1988:我想和这个世界谈谈》成对,以及《三重门》和《儿子韩寒》成对,进行了两对成对样本检验。表4为成对样本检验结果,如下所示。
表4 两对文本对的成对样本检验结果
■
从表4中可以看到,《三重门》与《1988:我想和这个世界谈谈》存在显著性差异,0
0.1。这样的数据说明韩寒早期作品《三重门》与近期作品《1988我想和这个世界谈谈》的虚词使用存在显著差异,然而其早期作品《三重门》与其父亲作品《儿子韩寒》的虚字用法却非常相似。从某种意义上说,我们有理由认为《三重门》可能由韩仁均代笔而作。如果真是这样,那么拿《1988:我想和这个世界谈谈》与《儿子韩寒》来比较,结果会是什么样的呢?我们做了《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验,结果如表5所示。
表5 《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果
■
《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果显示,《1988:我想和这个世界谈谈》与《儿子韩寒》的23个虚字用法存在差异边缘性显著,0.05
三、结论
本研究通过对三个52,000字以上的语料样本进行统计分析,有以下推测:《三重门》可能是由韩寒之父韩仁均代笔而作,或者《三重门》是韩寒父子二者合著。然而,我们的研究也存在一些值得推敲的细节,还需要在将来的研究中加以改进。综观整个研究,我们发现,将基于计量语言学研究成果的语言结构分布特征作为语言风格对比和作家判定,实验证明是可行可信的,而且特征选择和对比分析结果都可以从语言学的角度进行分析和解释。此外,学者黄伟、刘海涛曾用这种方法成功地进行了文本聚类和分类实验。这样的方法具有普适性,值得在更多的语言学研究领域进行尝试。标注体系和工具对统计结果的影响,语言风格在字、词、句等语言结构和语法、语义、语用层面的全面计量描写等,都是今后值得继续和深入研究的课题。
参考文献:
[1]陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用, 2012,48(3):137-139.
[2]黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27.
[3]桂诗春.基于语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.
摘 要:以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。本文以语言结构的计量特征表示文本的方法加强了语言风格对比及作者判定研究的可解释性,具有较高的理论和应用价值。
关键词:语言风格;语言结构;计量特征
本文基于语料库和统计方法,获取现代汉语语言结构的计量特征,而后考察这些语言结构计量特征在作家语言风格描写、对比研究及作家判定方面的实际应用。具体过程是:首先,分别选取两个作家的三个语料样本,对其进行分词并以文本为单位计算特定语言结构在文本中的频率和百分比;然后,基于样本的均值比较这些语言结构在分别属于两个作家的两个样本中的分布是否具有差异;最后,还对同一个作家的两个不同的样本中比较这些语言结构是否具有差异。
一、语料与方法
研究选取了3个文本,分别为韩寒早期作品《三重门》,韩寒近期作品《1988:我想和这个世界谈谈》和韩寒父亲韩仁均作品《儿子韩寒》。《三重门》于2000年由作家出版社出版,总字数155820,总词数116461;《1988:我想和这个世界谈谈》第一版于2010年7月6日《独唱团》刊发,总字数92384,总词数70185。两者均为韩寒所著的长篇小说。而《儿子韩寒》为韩寒的父亲韩仁均所写,向读者介绍了韩寒的成长经历,具有传记性质,总字数52854,总词数37654。
首先,笔者将这三个文本进行了汉语分词处理,汉语分词标注所用的软件为LJParser。LJParser文本搜索与挖掘开发平台包括全文精准搜索、新词发现、汉语分词标注、词语统计与术语翻译、自动聚类与热点发现、分类过滤、自动摘要、关键词提取、文档去重、正文提取等十余项功能。对于分词标注后的三个文本,我们利用AntConc软件进行了语料库分析(词频统计等)。由于韩寒早期作品《三重门》的作者存在争议,有人质疑《三重门》为韩寒父亲代笔,所以我们试图通过比较文本中陈述句、疑问句、感叹句比例,近似平均句长,以及23个常见虚字在文本中的使用情况,来观察《三重门》的语体风格和用词习惯是更接近于韩寒近期作品《1988:我想和这个世界谈谈》还是其父作品《儿子韩寒》。如果《三重门》的语体风格和用词习惯是更接近于《1988:我想和这个世界谈谈》,而与《儿子韩寒》有显著性差异,那么我们就为《三重门》为韩寒自己所写提供了证据。反之,如果《三重门》与《儿子韩寒》更为接近,而与《1988:我想和这个世界谈谈》存在显著性差异的话,那么就为《三重门》由韩父代笔而作的质疑提供了证据。
二、数据与分析
本文主要研究了三个文本以下两个方面的差异:一是陈述句、疑问句和感叹句比例及近似平均句长,二是常见虚字(包括句尾虚字,白话虚字和表转折程度比较的虚字)的比例。对于这两个方面,AntConc的数据统计结果如表1所示:
表1 三个文本相应变量出现的频度
■
由于三个文本的总字数和总词数各不相同,为了更好地进行比较,我们将频度转换为频率,从目标标点和虚字出现的频率来进行对比,频率数据如表2所示:
表2 三个文本相应变量出现的频率
■
从表中可以看到《三重门》《1988:我想和这个世界谈谈》与《儿子韩寒》所用的逗号、句号、叹号和问号比例分别有所差别,而其中《三重门》中叹号出现的比例(0.35%)要显著高于《1988:我想和这个世界谈谈》(0.00%)与《儿子韩寒》(0.06%)。从平均句长上来看,《三重门》为26.53,《1988:我想和这个世界谈谈》为27.20,而《儿子韩寒》则为31.94,高于前两篇。可见韩寒早期作品《三重门》与近期作品《1988:我想和这个世界谈谈》平均句长接近,而其父作品《儿子韩寒》的平均句长则要长于韩寒。联系到逗号的数据(《三重门》6.34%;《1988:我想和这个世界谈谈》8.22%;《儿子韩寒》4.95%),可以发现,韩仁均作品《儿子韩寒》不仅整句平均句长更长,其长句中每一个短句的句长也要长于其他两部作品。而《1988:我想和这个世界谈谈》则呈明显的短句更多更短的特点,其逗号比例显著高于另外两部作品。
虚字方面的分析,我们选取了23个虚字,分别为5个句尾虚字:呀、吗、咧、么、呢;9个白话虚字:了、的、着、一、不、把、让、是、好;9个表转折程度比较的虚字:可、就、但、越、再、便、更、此、很。
从表2中可以看到,有四个虚字:“么”“了”“着”“是”在《1988:我想和这个世界谈谈》中的出现频率要明显高于《三重门》和《儿子韩寒》。由于单个字的对比说服力有限,因此我们运用SPSS进行了三个文本同样23个虚字的相关性检验。
相关性检验表明,《三重门》(0.5179%±0.83918%)与《1988:我想和这个世界谈谈》(0.6438%±1.05711%)呈显著相关,p=0;《三重门》与《儿子韩寒》(0.5209%±1.01391&)(p=0)和《1988:我想和这个世界谈谈》与《儿子韩寒》(p=0)也分别呈显著相关。三个研究文本的相关系数如表3所示。
表3 三对文本对的成对样本相关系数
■
结果表明,相关性检验并不能为研究提供有意义的证据。因此,针对这23个虚字,我们利用SPSS软件进一步做了配对样本T检验。
对于这23个虚字,我们分别以《三重门》和《1988:我想和这个世界谈谈》成对,以及《三重门》和《儿子韩寒》成对,进行了两对成对样本检验。表4为成对样本检验结果,如下所示。
表4 两对文本对的成对样本检验结果
■
从表4中可以看到,《三重门》与《1988:我想和这个世界谈谈》存在显著性差异,0
0.1。这样的数据说明韩寒早期作品《三重门》与近期作品《1988我想和这个世界谈谈》的虚词使用存在显著差异,然而其早期作品《三重门》与其父亲作品《儿子韩寒》的虚字用法却非常相似。从某种意义上说,我们有理由认为《三重门》可能由韩仁均代笔而作。如果真是这样,那么拿《1988:我想和这个世界谈谈》与《儿子韩寒》来比较,结果会是什么样的呢?我们做了《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验,结果如表5所示。
表5 《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果
■
《1988:我想和这个世界谈谈》与《儿子韩寒》的成对样本检验结果显示,《1988:我想和这个世界谈谈》与《儿子韩寒》的23个虚字用法存在差异边缘性显著,0.05
三、结论
本研究通过对三个52,000字以上的语料样本进行统计分析,有以下推测:《三重门》可能是由韩寒之父韩仁均代笔而作,或者《三重门》是韩寒父子二者合著。然而,我们的研究也存在一些值得推敲的细节,还需要在将来的研究中加以改进。综观整个研究,我们发现,将基于计量语言学研究成果的语言结构分布特征作为语言风格对比和作家判定,实验证明是可行可信的,而且特征选择和对比分析结果都可以从语言学的角度进行分析和解释。此外,学者黄伟、刘海涛曾用这种方法成功地进行了文本聚类和分类实验。这样的方法具有普适性,值得在更多的语言学研究领域进行尝试。标注体系和工具对统计结果的影响,语言风格在字、词、句等语言结构和语法、语义、语用层面的全面计量描写等,都是今后值得继续和深入研究的课题。
参考文献:
[1]陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用, 2012,48(3):137-139.
[2]黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27.
[3]桂诗春.基于语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.