基于Python英文分词的邮件作者识别

2018-06-04 03:41陈梦圆田君艺任宇童重庆邮电大学计算机科学与技术学院
数码世界 2018年5期
关键词:余弦语料库邮件

陈梦圆 田君艺 任宇童 重庆邮电大学计算机科学与技术学院

1.概述

在日常口语表达和文本描述中,每个人都会形成具有个人特征的语言风格,邮件中的文本常混合着口语内容和正式书面语,个人特征风格尤为明显。本文就基于个人语言风格特征对邮件内容提取有效关键字,比对邮件特征和样本之间的余弦距离来识别邮件作者。

2.理论准备

2.1 TF-IDF算法

TF-IDF(term frequency inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。

2.2 余弦相似度

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

设计流程如图1所示。

图1 设计流程

3.部分代码

4.结果分析

首先选择一个由Bass写的安然邮件信息作为语料训练集。删除邮件的非原件部分,只保留原文内容。然后使用nltk进行单词提取,给出训练集合中的每个特征词的TFC的重量,和文本内容转换成计算机能够识别和处理的数据。选择另一个人写的邮件,重复上面的步骤来处理。最终使用TF-IDF算法得到测试邮件和语料库的特征矩阵,计算其余弦相似度。

采用600封重复以上步骤,计算识别作者过程各类指标值,计算所得结果如表1所示。

表1 计算结果

如你所见,该模型能正确识别作者的概率是89.13%,也就是说,在100封电子邮件中,大约89.13个字母可以被正确识别,正确率非常高。

[1] http://blog.csdn.net/baimafujinji/article/details/51476117

[2]刘明勇.基于写作风格学的作者识别技术研究[D].浙江大学,2013.

[3] http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

猜你喜欢
余弦语料库邮件
基于James的院内邮件管理系统的实现
基于语料库的清末民初日源外来词汉化研究
来自朋友的邮件
《语料库翻译文体学》评介
一封邮件引发的梅赛德斯反弹
椭圆余弦波的位移法分析
两个含余弦函数的三角母不等式及其推论
实施正、余弦函数代换破解一类代数问题
分数阶余弦变换的卷积定理
语篇元功能的语料库支撑范式介入