泛娱乐情报主题的感知研究

2020-07-08 10:13于汝意刘秀磊刘旭红王延飞

北京信息科技大学学报(自然科学版) 2020年2期

于汝意，刘秀磊，刘旭红，张良，王延飞

(1.北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101;2.北京信息科技大学数据与科学情报分析实验室北京 100101;3.北京大学信息管理系北京 100871)

0 引言

情报感知是情报专业人员在常规性信息采集、加工和分析处理过程中，综合运用各种知识工具完成对情报用户需求、情报对象内容和情报任务组织的认知、解读和表达[1]。在情报工作语境下，感知是主动而非被动的过程，是构建而不是记录“现实”的过程。在感知认识问题上，所针对的主要是未知或知之不详的对象[1]。对泛娱乐情报主题的感知研究中，通过潜在语义索引(latent semantic indexing,LSI)结合常识知识库的技术，以泛娱乐文本情报为感知认识对象，主动构建泛娱乐情报主题感知过程，对情报用户感知文本情报主题的需求进行认知、解读及表达。

近年来，LSI模型在信息检索、文本分类、信息过滤、主题发现领域得到了广泛的应用。在信息检索中，顾榕等[2]利用LSI结合WordNet等工具分析聚类中心词项与不同类别检索词的语义关系，使得检索结果的准确性得到了有效提高。林鸿飞等[3]提出的多语言潜在语义空间使得由不同语言表达的相同内容映射到潜在语义空间中的相同向量中，实现了同一检索词在不同语言之间的信息检索。在文本分类中，曾雪强等[4]使分类模型具有文档信息和类别信息双重特征，经过奇异值分解，将高维的词项-文档权重矩阵映射到低维语义空间中，分类的准确率得到了有效的提高。在信息过滤中，Dumais[5]首次将潜在语义分析(latent semantic analysis,LSA)用于信息过滤中。牛伟霞等[6]在对大量中文科技文献信息进行过滤时，使用LSI方法构建的用户兴趣主题模型，其平均准确率相较于采用支持向量机的分类方法有了明显提高。在主题发现中，刘勘等[7]对稀疏矩阵进行降维，高效地发现科技文献主题。阮光册[8]利用LDA(latent dirichlet allocation)主题发现模型结合知识库进行信息分析,对网络评论进行主题发现的研究，取得了较好的效果。杨传春等[9]基于LDA模型对网络刊物进行主题发现与聚类研究，提出的合并向量算法使得发现的主题比较集中和更为确定。李昌亚等[10]结合文本自身隐含的主题特征，提出了主题引导词库的方法，使得发现的主题更加符合社科文献本身的主题分布。

针对泛娱乐文本情报繁杂、异构、信息量较少等特点，本文尝试总结和分析现有LSI主题发现模型，并在此基础上提出了基于潜在语义索引主题模型结合HowNet知识库的泛娱乐情报主题感知方法，旨在提高泛娱乐情报主题感知的效果。

1 基于LSI的泛娱乐情报主题感知

隐性语义索引[11]是一种通过奇异值分解构造原坐标间相似度矩阵的方法。LSI通过向量化的TF-IDF权重向量对文档进行变换，由原来的高维空间转变到低维潜在语义空间。该潜在语义空间包含词项与词项、文档与文档的相似度矩阵，具有隐藏的语义信息。

1.1 泛娱乐文本情报预处理

互联网中的泛娱乐文本情报具有内容长、信息量少、噪音词多、文本规范性低的特点。为了更好地获得隐含在泛娱乐文本情报中有价值的信息，首先对泛娱乐文本情报语料库中的语料进行分词、词性标注和语法分析。步骤如下：

1)对泛娱乐情报进行正文提取，过滤掉HTML标签以及无用的噪音文本，仅保留正文内容。

2)对由1)形成的原始语料库中的语料进行分词处理、词性标注，形成初始语料库。通过分词处理，生成具备较合适语义粒度的词项；通过词性标注，过滤掉对主题发现无用的词项。语料库中只保留名词或名词短语作为特征词，例如(腾讯/n)、(视频/n)等描述泛娱乐文本情报主题的词项。

3)使用HowNet常识知识库对初始语料库中的词项进行语义相似度计算，通过相似度进行词项的删除或保留。通过查询词项在常识知识库的义原信息，进行同义词的合并，同时根据查询结果删除常识知识库中未收录的词项，形成规范语料库。

4)对语料进行词频统计，形成词典。

5)特征词向量化。

6)将频度矩阵进行TF-IDF加权处理，形成TF-IDF权重矩阵。TF-IDF的特征值为

(1)

式中：t为候选词；D为语料库；TF为词频；d为待提取关键词的文本；ft,d为t在d中出现的次数；|d|为文本的总词数；IDF为d的反转频率；ft,D为D中出现t的文本数；|D|为语料库的文本数。

7)泛娱乐文本情报的语料库形成向量化的矩阵，如式(2)和式(3)所示。

D={d1,d2,…,dm}

(2)

di={w1,w2,…,wn}

(3)

式中：D为泛娱乐文本情报集合；m为泛娱乐情报的数量；di为第i个文本情报，该情报由n个特征词组成；w为特征词的权重。

1.2 奇异值分解

LSI通过奇异值分解[12]构造一个新的隐性语义空间。构造的隐性语义空间普遍比原始空间的维度低，对于文档或者词项可以变换到隐性语义空间，其一起到降维的作用，其二可以找到更简单的描述。奇异值分解如式(4)所示。

(4)

式中：X为词项文档矩阵,通常为向量化的TF-IDF权重矩阵；d为文档个数;U,V为正交单位矩阵；Σ为对角矩阵且主对角线上的元素值降序排列；m是X的秩；U为XXT的特征向量集；V为XTX的特征向量集；XXT和XTX的特征值相同；XXT为词项间相似度矩阵；XTX为文档间的相似度矩阵；U为词项空间到主题空间的转换；V为文档空间到主题空间的转换。

1.3 算法描述

互联网中大部分泛娱乐文本情报文本规范性低，例如含有HTML标签等无用信息，并且情报中有大量对主题感知发现无用的词。因此，泛娱乐文本情报主题感知的第一阶段是对泛娱乐文本情报进行正文提取、去停用词、语义去重、合并；第二阶段是将第一阶段产生的规范化的语料作为LSI主题模型输入，进行主题感知。泛娱乐文本情报主题感知的流程如图1所示。算法步骤如下：

1)爬取泛娱乐情报数据。从网络中爬取泛娱乐情报数据，保存到本地数据库。

2)预处理阶段：①从本地数据库读取原始数据，抽取正文；②对正文进行分词处理，生成语义粒度较合适的词项；③在生成的词项中，去除停用词；④查询HowNet知识库，进行语义去重、同义词合并、删除未收录的词项；⑤生成词典，转化成词袋模型，生成OneHot向量矩阵，进行TF-IDF计算，形成权重矩阵。

3)LSI模型主题发现。以2)预处理阶段的⑤产生的权重矩阵作为LSI模型的输入，对泛娱乐情报进行主题感知。

2 实验结果

泛娱乐文本情报语料分别选自网易新闻、赛迪网、金融之家3个互联网发布平台，共10 809条，详细数据如表1所示。

表1 泛娱乐情报信息汇总

由于泛娱乐文本情报存在大量无用的标签以及对于主题发现无用的文字，因此对初始获取的泛娱乐文本情报需要进行规范化处理，仅保留其正文部分，剔除如“免责声明”等不作为分析内容的无用信息。对处理好的文本，本文使用语知科技提供的分词API对文本进行分词以及词性标注，处理后的部分结果如图2所示。

分词及词性标注之后通过访问语义API接口，调用HowNet知识库对词项进行语义去重、同义词合并以及删除未收录的词项，形成规范的语料库。部分结果如表2所示。其中，FH为词语的父节点序号，EXPRESSION为各个定型后的词语，SON为词语的子节点序号。

表2 HowNet语义分析部分结果

知网词典中的义项信息如表3所示。知网中的词语以网状结构进行组织，借助义原和符号进行概念的描述[13]。其中，记录编号为义项在HowNet知识库中的编号；中文词语、英文词语为查询词语的中英文；概念定义为对当前义项的描述。

表3 HowNet知识库中义项信息

由表3可知，词语“父亲”与“爸爸”在HowNet中同属于记录编号为000000014027的义项，其概念定义为{human|人:belong = {family|家庭},modifier={lineal|直系}{male|男}{senior|长辈}}，通过结合HowNet知识库，实现了语义去重，同义词的合并以及删除未收录的词项。

当前互联网中存在大量的泛娱乐文本情报，不同的IP(intellectual property)产生的泛娱乐情报隐含着不同的主题，这些隐含的主题正是该IP对应的侧重点。发现隐藏的侧重点，是情报人员分析数据时的一个重要目标，对情报工作有较大的益处。基于本文方法分别对来源于网易新闻、赛迪网、金融之家的情报数据进行主题感知，实验结果如表4所示。其中，类别栏为情报的来源；主题栏为经排序后的感知主题。可以看出3个不同互联网企业对泛娱乐新闻的不同侧重点。

表4 LSI处理后的部分主题词排序结果表

3 结束语

针对泛娱乐文本情报内容结构不规范、信息密度低等特点，提出了一种基于潜在语义索引和常识知识库相结合的泛娱乐情报主题感知方法。在预处理阶段，利用常识知识库对词项进行语义去重、同义词合并，使得语料具有更好的语义代表性；在主题感知阶段，潜在语义索引模型以预处理阶段产生的特征向量为输入进行主题感知。实验证明，本研究为泛娱乐领域情报主题感知提供了一种有效方法，有利于情报人员在大量泛娱乐文本情报中感知主题，进而抓住情报的重点。然而，LSI模型主题值(k值)对结果影响较大的问题依然存在，如何选取最有效主题值，来提高感知文本隐藏主题的准确性，将是下一步工作的重点和难点。