基于核心主题特征的作者身份识别研究

2023-12-10 19:30:51孟旭谢靖李春旺
知识管理论坛 2023年5期

孟旭 谢靖 李春旺

作者简介:孟旭,硕士研究生;谢靖,研究员,硕士生导师,通信作者,E-mail:xiej@mail.las.ac.cn;李春旺,研究馆员,硕士生导师。

收稿日期:2023-03-16        发表日期:2023-10-16        本文责任编辑:刘远颖

摘要:[目的/意义]以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,利用Word2vec补充主题模型获取主题特征的不足,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。[方法/过程]首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用Word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。[结果/结论]利用核心主题特征对科研人员社交文本进行作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果,将其结合文体风格特征应用于作者识别,最高识别率达到83%。

关键词:作者身份识别;主题特征;N-gram;科研作者;社交网络文本

分类号:G206

引用格式:孟旭, 谢靖, 李春旺. 基于核心主题特征的作者身份识别研究[J/OL]. 知识管理论坛, 2023, 8(5): 351-364[引用日期]. http://www.kmf.ac.cn/p/357/.

近年来,有关中文社交媒体文本作者身份识别的研究一直受到关注,并取得了一些研究成果。这些研究主要实现不同网络平台、不同社区、不同话题中同一作者信息的识别,识别方法主要基于文体风格特征,而利用文本主题特征的研究不多。在大数据时代,针对科研人员的人才评价等工作不仅要利用学术论文等数据,还要利用科研人员相关的社交媒体信息、学术交流信息、教学信息等多类型数据,这使得针对科研人员的信息集成成为新的研究课题。

本研究聚焦于中文文本作者识别领域研究不足的主题特征,以科研人员具有的学术文本和社交文本两类文本为基础,针对其研究领域在一段时间内具有稳定性和专一性的特征,在已有的利用主题模型获取主题特征研究的基础上,利用Word2vec制定核心主题获取策略,进一步优化获取的主题特征并将其应用于作者识别任务中。本研究重点证明在以科研作者作为候选作者的作者识别任务中主题特征的有效性,同时验证利用笔者提出的核心主题获取策略获取的核心主题特征能进一步提高利用主题特征的作者识别效率。

1  相关研究

作者识别是指以文本内容和文本属性为依据,抽取出不同作者在文本中所体现的不同特征,进而识别出文本作者[1-3]的研究,而作者特征可以从反映行文风格的文体风格特征和反映文本内容的主题特征两个方面得以体现。文体风格特征表现了作者个人在写作活动中的言语特征,是作者个人风格的不自觉反映,并且这些特征可以在一定程度上通过数量特征进行刻画[4];主题特征则是作者在文章中通过各种材料所表达的中心意思,它渗透、贯穿于文章的全部内容,体现着作者写作的主要意图[5]。

利用文体风格特征进行作者识别最早可追溯到1887年T. C. Mendenhall[6]對戏剧作品文体特征的研究,其研究是使用词汇构建词谱并描绘特征曲线,为莎士比亚戏剧的作者归属争议提供新的论据,D. L. Hoover[7]提出使用功能词等特殊词汇,令使用词汇进行作者识别更加精确和有效;O. De Vel等[8]则将标点符号等符号特征作为区分不同邮件作者的有效特征,选取的特征在聚合和多主题作者分类识别上都有很好的效果;V. Keselj等[9]提出一种通过计算和比较字符N-gram频率识别作者的方法,研究者同时使用该方法在几种不同语言中进行作者识别验证,证明N-gram的语言无关性。国内具有代表性的是祁瑞华团队[10-11]的研究,其从综合利用文本特征进行作者识别的角度出发,从字符层面、词汇层面、句法层面和结构层面选取特征,建立多层面文体风格特征模型,不仅实现社交文本的作者识别,多特征的选取及其在作者识别中的可行性也得到了验证。

综合来看,基于文体风格特征的作者识别研究较为成熟,而利用主题特征进行作者识别的研究在早期很少出现,因为主题特征往往反映的是文本的内容,而文本内容在不同体裁、不同情景下很难做到统一。但是在国外,有研究证明其在作者识别领域的积极作用[12],最具有代表性的就是J. Savoy[13]进行的相关研究,其利用LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)分别生成每个作者所有文档的主题模型、待测试文档主题模型,然后计算主题相似度来进行作者归属和识别;与本研究比较相似的研究是W. Anwar等[14]提出实验验证,其利用余弦相似度和LDA方法来衡量文本文档向量的相似度,最终达到作者识别的目的,其在构建的包含6 000篇文章文档的数据集上进行实验得到的结果表明,该方法优于其他用于作者归属的算法。

基于上述研究现状,笔者考虑从主题特征出发优化中文社交文本作者识别。根据2014年Y. Nie等[15]提出的核心兴趣概念,社交网络的使用者围绕的兴趣存在暂时的边际兴趣和较为稳定、在短时间内不会改变的核心兴趣,体现在文本中即是核心主题。核心主题一般有以下两个特点:

(1)核心主题一般在作者文档里具有明显的提及频率,且有较大的可能区别于其他作者文本中包含的主题。

(2)核心主题一般存在作者一段时间内的大部分文本中,而非核心主题往往会在各个作者文本里广泛且较均匀分布[16]。

文本的作者识别对象为科研人员,而科研人员通常都有自己关注的科研领域,这些研究领域对于某个候选作者而言往往在一定的时间段内具有稳定性和专一性[17](对比图1与图2),对于候选作者之间又具有可区分性和独特性(对比图1和图3),符合核心主题的特点。同时因为是同一作者,所以笔者认为其在社交网站上发布的社交文本信息会对其科研领域主题有所体现(对比图1与图4)。因为本研究是对科研人员的社交文本进行作者识别,所以考虑利用候选作者学术文本中的领域主题筛选其社交文本中的主题,得到用于作者识别的核心主题。

在制定筛选策略时,笔者考虑LDA主题模型的生成过程,即其在词袋模型的基础上,认为词汇是单独存在的,从全局出发生成文本主题。这使得词汇的上下文特征利用不足,且在应用中对主题词的研究不多。而Word2vec通过词汇的上下文关系生成词汇的词向量形式,应用于主题的表示中不仅能弥补LDA主题模型获取主题的不足,同时能够从主题词的粒度分析对比主题之间的关系,从而筛选出与科研作者学术文本主题相似的主题,然后进一步得到候选作者社交文本中的核心主题,进而表示其核心主题特征。基于此,本研究笔者以已有的利用LDA主题模型进行作者识别的相关研究作为技术路线支持[13],首先验证主题特征在中文社交媒体文本作者识别中具有研究意义,同时从提高主题特征质量的思路出发,以提高作者识别效率为最终目的,提出使用LDA主题模型结合基于Word2vec的核心主题筛选策略构建候选作者的核心主题识别筛选模型,最终完成科研作者的社交媒体文本的作者识别验证实验。

2  主要技术路线

笔者提出利用主题特征进行作者识别的方法框架,见图5。

需要注意的是,因为候选作者的研究领域并不是一成不变的,所以笔者在选择学术文本时,选择的是与待识别文本发布时间相近的一段时区内的学术文本,同时保证时区不会过长而导致时间因素影响识别。利用主题特征进行作者识别主要包括以下3个主要步骤:

(1)作者主题特征抽取。分别从两类数据源抽取两类主题特征,利用科技论文数据抽取候选作者的科研主题特征,利用实名制社交网站数据抽取候选作者社交主题特征。利用LDA主题模型分别获得作者学术文本和社交网络文本的主题集合。

(2)生成作者社交文本核心主题特征。基于Word2vec制定核心主题筛选策略,利用科研主题筛选社交主题,并将科研主题的主题词添加进社交主题中,最终表示出候选作者社交文本内的核心主题特征。

(3)计算待识别文本與作者的相似度。分别计算待识别文本主题特征与各个候选作者社交文本核心主题特征相似度,得到最相似的作者,将其作为文本最终的作者识别结果。

2.1  作者主题识别与表示

对文本的作者身份识别,首选需要获取候选作者的特征,由于LDA模型具有较好的主题抽取效果[18],所以本研究选择采用LDA主题模型对候选作者的主题特征进行识别和表示。

LDA模型是一种概率主题模型,其基于假设:文档是由若干个隐含主题构成,而这些主题是由文本中若干个特定词汇构成,忽略文档中的句法结构和词语出现的先后顺序[19]。LDA主题模型由参数(α,β)确定,α反映文档集合中隐含主题间的相对强弱,β刻画所有隐含主题自身的概率分布[20],从Dirichlet分布α中取样生成文档—主题分布θ,从Dirichlet分布β中取样生成主题—词语分布φ。

在本研究中,将每个候选作者的文本归为两类文档集,然后分别对这两个文档集进行主题抽取,能够得到每个文档集中每篇文本的文本—主题概率分布和每个文档集中抽取的主题—词语分布。在针对主题的研究中,有研究提出主题强度这一概念[21],是指主题的热门程度,在某一时刻关于某个主题的文章分布概率越高, 说明该文档集中该主题的强度越高。笔者选择文档集中的主题强度来衡量某个主题能够代表候选作者特征的程度。θkd为候选作者文本集M中文档d中主题k的分布概率,则是主题k在M中的主题强度,即主题k能够表示候选作者的程度,其计算公式如下所示:

公式(1)

基于此,可以得到作者—主题分布和主题—词汇分布。将这两个分布结合,可以表示出作者的主题特征,每个作者可以得到两类主题特征,分别为科研主题特征(主题集合Hl)和社交主题特征(主题集合Hs),其计算公式如下所示:

H={(T1,P1), (T2,P2), ……, (Tk,Pk)}

公式(2)

在公式(2)中,H是主题集合,T是主题,其由主题词和每个主题词的权重(对主题的贡献度)组成,P为主题分布概率,即主题T在候选作者文档集中的主题强度,也是T能够表示候选作者的程度,k为主题集合H中的主题个数。针对T展开可以表示为:

T=(m1*W1,m2*W2,……,mc*Wc)  公式(3)

其中,T为主题元组,由主题词W和其权重m乘积组成,在python中存储为字符串形式,m为主题词在主题中的分布概率,c为主题中包含的主题词的个数。

2.2  核心主题特征计算

该过程中需要解决的问题主要是:①如何在候选作者的社交主题特征中找到与其科研主题特征相似的主题;②如何将科研主题特征中的主题词合并到社交主题中;③通过何种手段使主题在作者识别中起更重要的作用。Word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息[22],反应词汇的上下文特征,从而弥补利用LDA主题模型主题获取过程中的不足,同时通过计算主题词汇之间的相似度达到计算主题相似度的目的。在这一过程中,笔者主要利用Word2vec表示词汇词向量,然后基于此制定利用科研主题筛选社交主题的策略,最终得到候选作者的核心主题特征。

2.2.1  Word2vec原理

Word2vec模型在给定的语料库上训练CBOW和Skip-Gram两种模型,然后输出得到所有出现在语料库上的单词的词向量表示[23]。基于得到的单词词向量,可以表示词与词之间的关系(如词语相似性等),从而定义主题的相似度,进而利用余弦距离计算主题集也就是作者和待识别文本主题特征的相似度,最终达到作者识别的目的。

2.2.2  核心主题筛选与合并策略

利用候选作者科研主题对其社交主题进行筛选与合并的具体策略可以分为以下几个步骤:

(1)针对有的主题本身的分布概率就很低,能够代表该文本主要内容的概率较低的问题,为了避免主题特征的冗余,首先利用主题在主题矩阵中的分布概率对主题矩阵Hs主题特征进行初步筛选。

(2)初筛过后,利用相似度计算找到矩阵Hs与矩阵Hl中相似的主题,将其识别出来并赋予更高的识别权重。因为学术文本主题集合由主题组成,主题由主题词组成,所以此步骤中需要对3个相似度计算进行定义:

其中,T为主题,由主题词W组成,P为该主题在矩阵中的分布概率,m为该主题词在主题中的分布概率,k为主题矩阵H中的主题个数,z为主题中包含的主题词的个数。

定义词汇相似度,即利用Word2vec转化词汇为词向量,进一步计算相似度,计算公式如下所示:

Sim(W1, W2)=Word2Vec(W1,W2)       公式(4)

定义主题之间的相似度sim(T1,T2),计算词汇相似度的加权平均,权重是词汇组成主题的概率,计算公式如下所示:

公式(5)

定义主题矩阵(主题集)之间的相似度sim(Hl,Hs),计算主题相似度的加权平均,权重是该主题的分布概率,计算公式如下所示:

公式(6)

(3)合并规则。筛选合并规则的整体思想是利用上述定义的加权相似度计算的方法,找到每个社交主题特征最相似的科研主题特征,根据阈值判断是否增加其权重将其作为识别过程中的核心主题。同时针对社交主题特征中的主题词,同样利用相同的方法判断其是否相似于科研主题词,并通过阈值判断进行权重重新赋值,若主题相似、主题词不相似,则考虑将科研主题词汇添加到社交主题中用于补充主题特征。具体筛选合并规则的代码形式如下所示:

设置阈值θ1、θ2,θ1是主题相似度的衡量阈值,用来判断两个主题是否到了可以合并的地步;θ2是词汇相似度的衡量閾值,用来判断是否将该词汇作为新词汇加入到主题中去;Hl是作者A1的科研主题集合,Hs是其社交主题集合,Hc是最终得到核心主题集合:

def matrix_merge_rule(Hl, Hs, θ1,θ2,):

For  T1  in  Hl:

For  T2   in   Hs:

计算Sim(T1,T2)

找到与T1 最相似的主题,赋给T

If   Sim(T1,T)> θ1:

遍历计算主题中两两主题词计算Sim(W1,W2):

If  Sim(W1,W2)>θ2:

主题T中的W2不变,给主题词W2赋予新的权重=γ1m1+γ2m2,其中m1、m2分别是主题词W1和W2的权重。

Else:

将主题词W1添加进主题T中,主题词的权重不变

主题T重新赋权重=ω1P1+ω2P2

Else:

保留主题T

#遍历完Hs中的所有主题,得到新的主题矩阵Hc。

return Hc

其中γ和ω均为合并系数,需要经过优化迭代,从而选择最优解。

3  实验与结果分析

为了验证主题特征在作者识别中的意义,同时证明笔者提出的核心主题策略算法对利用主题特征进行作者识别的提高效果,本研究的基线实验是利用社交网络文本抽取的原始主题进行作者识别,对比实验是利用学术文本抽取出的主题对社交网络文本主题进行筛选合并后的核心主题进行作者识别;同时因为利用多层次特征进行作者识别任务是主要的研究发展方向,所以笔者也进行文体风格特征结合核心主题特征进行作者识别与仅使用文体风格特征进行作者识别的对比实验,用以验证核心主题特征对文体风格特征的补充作用。

3.1  数据获取和预处理

选择计算机领域的20位科研人员作为候选作者,利用爬虫软件分别获取其在知网上发布的论文全文文本及其在科学网上发布的博客全文文本作为实验数据集,论文数据共730条,博客数据共5 980条。利用jieba工具进行分词处理,同时对分词结果利用频次和词性等进行筛选,去除人名、停用词、动词、通用词等影响因素,保证主题的表示更具有代表性,最后得到的学术文本的平均文本长度为4 023个字符,社交文本为253个字符。随机抽取20%的科学网文本作为测试集,剩余80%和全部的论文文本作为训练集进行作者识别模型训练。候选作者文本内容示例如表1所示:

3.2  实验设置

3.2.1  主题特征抽取

使用LDA主题模型获取文本主题,采取开源的Gibbs为采样工具,其参数设置如下:模型参数α、β分别设为50/T和0.1[24]。对于主题数的选择,研究在对每个候选作者的社交网络文本和学术文本进行LDA主题抽取时,首先对训练文本利用困惑度选择主题T的可取值范围。困惑度如图6所示,其中横坐标为主题数,纵坐标为对应主题数时的困惑度值。

因为不同的实验语料最佳的主题数是不同的,为了保证实验主题选择的一致性,笔者进一步计算在T的取值范围上对作者的识别效果,最终选择T=15作为主题数。表2是候选作者部分科研主题和社交主题。

对上述数据进行简单的分析可以发现,从社交网络文本中抽取的主题T4是该作者学术文本的主要主题,也就是该作者的研究领域主题,即本研究定义的候选作者社交文本中的核心主题,如果给该主题赋予较高的权重,使其在作者识别中发挥更大的作用,那么作者识别的准确率也有提高的空间。

3.2.2  Word2vec训练

笔者采用开源的Word2vec工具,将候选作者的两类文本结合腾讯词向量作为训练数据,用Skip-gram模型对训练数据进行训练,得到训练数据中每个词的词向量。表3给出Word2vec的参数含义及取值,其中cbow非0时对低频词敏感,size是输出词向量的维数,即神经网络的隐藏层的单元数,其取值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,大的size需要更多的训练数据,但是效果会更好[25]。参数值的选择是根据已有的研究选定的[26]。表4给出按照相似度排列的词向量训练结果示例。

3.2.3  核心主题筛选策略阈值设置

通过计算候选作者学术文本主题矩阵和社交网络文本主题矩阵的相似度,得到平均值0.001 8;通过计算候选作者学术文本主题和社交文本主题的相似度,得到平均值0.237 5。以此为基准设置阈值和系数的优化实验,通过实验迭代,选择θ1=0.001、θ2=0.25作为较优阈值。而γ1、γ2、ω1和ω2的取值,本研究做了迭代实验,结果分别如图7和图8所示。

所以,经过实验优化,选择系数γ1=γ2=0.5,ω1=0.33,ω2=0.66。

3.2.4  评价指标

实验评估方法采用精确率(P)、召回率(R)和 F1测试值。可以假设:A表示判断为作者S且判别正确的文本个数,B表示判断为作者S但判别错误的文本个数,C表示判断为不属于作者S且判别错误的文本个数,D表示判断为不属于作者S且判别正确的文本个数,则各指标的计算公式具体如下所示:

公式(7)

公式(8)

公式(9)

3.3  实验结果分析

3.3.1  核心主题特征与主题特征的实验效果对比

表5展示了部分代表性作者利用主题特征和核心主题特征结合文体风格特征进行作者识别的结果对比。需要注意的是,因为使用单一特征进行作者识别的效果并不理想,且应用价值不大,所以此处识别结果是结合了文体风格特征进行实验的结果。

通过分析表5可以发现如下结论:

(1)综合来看,利用核心主题特征进行作者识别的3个衡量指标都有所提高,这说明利用学术主题特征对社交网络文本主题特征进行筛选合并得到的核心主题特征应用于作者识别,能一定程度提高作者识别的准确率,对识别策略有一定的优化作用。

(2)具体到候选作者,可以看到大部分的作者的识别效果得到一定的提升,但是以作者6为代表的候选作者的P指标和F1指标均有所下降,分析数据可以发现,利用核心主题的方法针对在社交网络中主题较为集中且有较大比例涉及到其在学术中的研究领域的作者更有效果;而针对在社交网络文本中不涉及或者少量涉及学术领域的作者,该方法取得的优化效果较小。

3.3.2  核心主题特征对文体风格特征的补充验证实验

根据已有的研究,仅使用一种特征进行作者识别的效果是不突出的,多层次特征结合使用才是作者识别的发展方向。为了验证本研究的核心主题特征对于文体风格特征有补充作用,对于结合其他特征进行作者识别也有进一步的研究前景,下面进行核心主题特征对文体风格特征的补充验证实验。

笔者选择的文体风格特征是N-gram特征,它可以捕捉到作者风格的细微差别,包括由词汇、上下文、标点符号以及大小写变动所带来的差别[27],表示方便且识别效率较高。笔者利用N-gram特征和主题特征两种特征分别计算待识别文本与候选作者的相似度,然后对相似度进行加权分析,相似度最高的作者作为最终的识别结果。加权系数经过多次交叉实验,在其他系数和影响因素不变的情况下,选择文体风格特征系数为0.82,主题特征系数为0.18时识别的文本数最多,效果最好,故以此为特征系数。另外,通过权重系数可以发现,文体风格特征在作者识别中的作用要优于主题特征。

本实验用CountVectorizer方法,设置阈值为min_df=2,基于此构建作者的N-gram特征向量。表6是作者2的部分N-gram特征。

表7展示了仅使用文体风格特征识别的和结合文体风格特征与核心主题特征识别的结果对比。

通过分析表7可以得出以下结论:

(1)从综合结果来看,利用核心主题结合文体风格特征作者识别的效果要优于仅使用N-gram特征进行识别,这说明在该实验集上,核心主题特征的使用对作者识别有积极作用。

(2)具体到每个候选作者,可以看到:多数作者主题特征的识别效果是积极的,这也充分论证了科研人员的领域主题能一定程度上成为该作者标签特征,这是具有个人性的特征。而针对作者5为代表的作者,其F1值降低,作者6为代表的作者,其召回率和精准率均降低,则认为主题特征未起到积极效果,笔者分析其文本认为这与其所关注的领域较为宽泛,且学术领域与科研文本中的主题相差较大相关,以至于本研究的核心主题筛选合并策略未起到较大作用,而添加主题特征作为识别特征相当于增加了干扰项,导致识别准确率下降。针对这一现象,后续可以通过分步式结合两种特征的方法进行改善,如先利用主题特征进行作者识别,给出相似的几个候选作者,缩小候选作者数量,然后进一步通过N-gram特征得到最相似的候选作者作为识别结果。

(3)分析不同候选作者的识别效果,发现训练语料的体量也会影响主题特征在作者识别上的应用效果,在目前实验中,训练数据越多,抽取出的主题特征越具有代表性,识别的准确性也越高。后续针对该影响,可以继续通过控制实验数据大小进行对比实验。

3.3.3  结论

通过对结果的分析可以看出,在核心主题特征对于主题特征的优化方面,使用筛选得到的核心主题进行作者特征表示并用于作者识别的效果优于仅利用原始抽取出的主题特征,这有效证明:针对科研人员的社交网络文本的作者识别,利用其在学术文本中所体现的领域主题对其社交网络文本主题特征进行筛选和合并,能够进一步优化主题特征,筛选并给予识别作用更大的特征更高的权重,从而提高作者识别的准确率,进而优化作者识别效果;在核心主题特征结合其他特征在作者识别中的应用效果方面,核心主题特征能夠有效地提高仅利用N-gram特征作者识别的效果,这证明在本研究的实验语料上,核心主题特征对于结合文体风格特征用于作者识别有一定的积极意义。

4  总结展望

本研究重点探讨结合学术文本对利用主题特征进行作者识别的可行性及其优化策略。通过实验验证,结果显示优化策略是有效的,在此进行总结并讨论未来可以继续优化的内容:

(1)本研究的重心在主题特征的使用优化方向,研究发现利用学术文本的领域主题对候选作者的社交网络文本主题进行筛选得到的核心主题特征有提高利用主题特征作者识别效果的作用;笔者也尝试结合N-gram特征和核心主题特征,同时对比仅使用N-gram特征的识别效果,结合主题特征对作者识别也有一定程度上的提升。进一步研究可以考虑从其他文体风格特征出发,或者结合多层次文体风格特征进行应用研究。

(2)本研究在对待识别文本进行作者识别实验时,使用LDA主题模型作为主题抽取的方法,而随着相关研究的发展,其他主题模型或者其他主題抽取方式或许较LDA主题模型能取得不同的效果。所以针对主题获取这一步骤,后续研究可以尝试采用其他主题获取方法进一步优化识别效果。

(3)本研究旨在提出主题特征的进一步应用优化方向,并选取20位候选作者进行实验验证,但并不能保证在大规模数据集中仍能取得相同实验效果。未来可以尝试扩大数据进行实验,同时考虑文本分布不均的问题进行细化研究。

(4)本研究目前仅考察利用文本的内容信息进行作者识别,未来随着网站文本属性或者用户属性的完善,亦可以考虑借助社交网络相邻用户的文本信息和属性信息进行特征抽取和核心主题选择,会进一步提高作者识别效果。

参考文献:

[1] KALGUTKAR V, KAUR R, GONZALEZ H, et al. Code authorship attribution: methods and challenges[J]. ACM computing surveys (CSUR), 2019, 52(1): 1-36.

[2] ALRABAEE S, DEBBABI M, WANG L. CPA: accurate cross-platform binary authorship characterization using LDA[J]. IEEE transactions on information forensics and security, 2020(15): 3051-3066.

[3] MAGLOGIANNIS I, ILIADIS L, PIMENIDIS E. Artificial intelligence applications and innovations[J]. IFIP advances in information and communication technology, 2020(583): 55-266.

[4] 刘颖, 肖天久. 金庸与古龙小说计量风格学研究[J]. 清华大学学报(哲学社会科学版), 2014, 29(5): 135-147, 179. (LIU Y, XIAO T J. A Study of the stylistics of Jin Yong and Gu Long novels[J]. Journal of Tsinghua University(philosophy and social sciences), 2014, 29(5): 135-147, 179.)

[5] 百度百科.主题[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主题/2894698. (Baidu Encyclopedia. Topic[EB/OL]. [2023-04-05]. https://baike.baidu.com/item/主题/2894698.)

[6] MENDENHALL T C. The characteristic curves of composition[J]. Science, 1887(214S): 237-246.

[7] HOOVER D L. Another perspective on vocabulary richness[J]. Computers and the humanities, 2003(37): 151-178.

[8] DE VEL O, ANDERSON A, CORNEY M, et al. Mining e-mail content for author identification forensics[J]. ACM SIGMOD record, 2001, 30(4): 55-64.

[9] KESELJ V, PENG FC, CERCONE N, et al. N-gram based author profiles for authorship attribution[EB/OL]. [2023-04-05]. https://core.ac.uk/display/24680735 .

[10] 祁瑞华, 杨德礼, 郭旭, 等.基于多层面文体特征的博客作者身份识别研究[J]. 情报学报, 2015, 34(6): 628-634. (QI R H, YANG D L, GUO X, et al. Blogger identification based on multidimensional stylistic features[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 628-634.)

[11] 祁瑞华, 郭旭, 刘彩虹.中文微博作者身份识别研究[J]. 情报学报, 2017, 36(1): 72-78. (QI R H, GUO X, LIU C H. Authorship attribution of Chinese Microblog[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(1): 72-78.)

[12] FINN A, KUSHMERICK N. Learning to classify documents according to genre[J]. Journal of the American Society for Information Science and Technology, 2006, 57(11): 1506-1518.

[13] SAVOY J. Authorship attribution based on a probabilistic topic model[J]. Information processing & management, 2013, 49(1): 341-354.

[14] ANWAR W, BAJWA I S, CHOUDHARY M A, et al. An empirical study on forensic analysis of Urdu text using LDA-based authorship attribution[J]. IEEE access, 2019(7): 3224-3234.

[15] NIE Y, HUANG J, LI A, et al. Identifying users based on behavioral-modeling across social media sites[J]. Web technologies and applications, 2014(8709): 48-55.

[16] 孙学刚, 陈群秀, 马亮.基于主题的Web文档聚类研究[J]. 中文信息学报, 2003(3): 21-26. (SUN X G, CHEN Q L, MA L. Study on topic-based web clustering[J]. Journal of Chinese information processing, 2003(3): 21-26.)

[17] 李湘东, 张娇, 袁满. 基于LDA模型的科技期刊主题演化研究[J]. 情报杂志, 2014, 33(7): 115-121. (LI X D, ZHANG J, YUAN M. On topic evolution of a scientific journal based on LDA model[J]. Journal of intelligence, 2014, 33(7): 115-121.)

[18] 陈思含.基于微博的多特征情感分析方法研究[D]. 长春:吉林大学, 2021. (CHEN S H. Research on multi-feature sentiment analysis method based on microblog[D]. Changchun: Jilin University, 2021.)

[19] 姚全珠, 宋志理, 彭程.基于LDA模型的文本分类研究[J]. 计算机工程与应用, 2011, 47(13): 150-153. (YAO Q Z, SONG Z L, PENG C. Research on text categorization based on LDA[J]. Computer engineering and applications, 2011, 47(13): 150-153.)

[20] 王振振, 何明, 杜永萍.基于LDA主题模型的文本相似度计算[J]. 计算机科学, 2013, 40(12): 229-232. (WANG Z Z, HE M, DU Y P. Text similarity computing based on topic model LDA[J]. Computer science, 2013, 40(12): 229-232.)

[21] 崔凯. 基于LDA的主题演化研究与实现[D]. 长沙: 国防科学技术大学, 2010. (CUI K. The research and implementation of topic evolution based on LDA [D]. Changsha: National University of Defense Technology, 2010.)

[22] 马思丹, 刘东苏. 基于加权Word2vec的文本分类方法研究[J]. 情报科学, 2019, 37(11): 38-42. (MA S D, LIU D S. Text classification method based on weighted Word2vec [J]. Information science, 2019, 37(11): 38-42.)

[23] 李曉, 解辉, 李立杰. 基于Word2vec的句子语义相似度计算研究[J]. 计算机科学, 2017, 44(9): 256-260. (LI X, JIE H, LI L J. Research on sentence semantic similarity calculation based on Word2vec[J]. Computer science, 2017, 44(9): 256-260.)

[24] 唐晓波, 祝黎, 谢力. 基于主题的微博二级好友推荐模型研究[J]. 图书情报工作, 2014, 58(9): 105-113. (TANG X B, ZHU L, XIE L. Two-level microblog friend recommendation based on topic model[J]. Library and information service, 2014, 58(9): 105-113.)

[25] 你好星期一. Word2vec參数[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496. (Hello on Monday. Word2vec parameter[EB/OL]. [2022-12-13]. https://blog.csdn.net/DL_Iris/article/details/119175496.)

[26] 张谦, 高章敏, 刘嘉勇 .基于Word2vec的微博短文本分类研究[J]. 信息网络安全, 2017(1): 57-62. (ZHANG Q, GAO Z M, LIU J Y. Research of Weibo short text classfication based on word2ve[J]. Netinfo security, 2017(1): 57-62.)

[27] JOHNSON A, WRIGHT D. Identifying idiolect in forensic authorship attribution: an N-gram text bite approach[J]. Language and law, 2014, 1(1): 37-69.

作者贡献说明:

孟  旭:调研及撰写论文;

谢  靖:提出论文修改意见及定稿;

李春旺:提出论文选题和论文技术路线。

Research on Author Attribution Based on Core Topic

Meng Xu1,2   Xie Jing1   Li Chunwang3

1National Science Library, Chinese Academy of Science, Beijing 100190

2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190

3Institute of Computing Technology, Chinese Academy of Science, Beijing 100190

Abstract: [Purpose/Significance] The basic purpose of this study is to study the use of topic characteristics in author attribution of Chinese social media texts. Word2vec is used to supplement the topic model to obtain the deficiencies of topic characteristics. At the same time, strategies are further developed to identify and screen the core topics in the topic characteristics and optimize the use of topic characteristics. So as to improve the using effect of subject features in author attribution. [Methods/Process] The research first used the LDA topic model to extract the academic topics and social topics of the candidate authors, and then used Word2vec to develop a merge screening strategy to identify and represent the core topics, and finally used N-gram features and similarity calculation to achieve author attribution. [Results/Conclusion] The experimental results show that the use of core topic characteristics has a positive effect on author attribution of social texts. Meanwhile, the strategy and application of core topic characteristics proposed in this study can also optimize the effect of the use of topic-features, and the highest recognition rate will reach 83% when it is combined with stylistic-features.

Keywords: author attribution    topic characteristics    N-gram    scientific research author    social media text