兰晓芳 刘卓 许志豪 肖毅
摘 要:利用文本挖掘技术进行体育热点分析,可以为体育领域的发展提供更多有用的信息。文中提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)和TextRank(文本排序)的中文文本关键词提取方法,该方法首先采用分词、去除停用词等对文本进行预处理;其次使用TF-IDF算法计算每个词的重要性并进行归一化处理,同时使用TextRank算法权衡单词之间的关系并计算每个单词的得分以进行归一化处理;最后将TF-IDF值和TextRank得分进行加权和得到每个词的综合权重值,最终获得权重值最高的N 个关键词。应用TF-IDF和TextRank结合的方法在F1 值上选择5个关键词时取得了更好的结果,相较于只使用TF-IDF方法或TextRank方法,其关键词提取准确率分别提高约40%和32%。该方法有效提高了关键词提取的准确性和提取效率。
关键词:TF-IDF;TextRank;体育新闻;关键词提取
中图分类号:TP391.1 文献标志码:A
0 引言(Introduction)
随着互联网的发展,人们可以方便地在互联网上获取各种类型的文本数据,而提取中文文本新闻的关键字有重大意义,新闻的关键字可以作为新闻标题和摘要的一部分出现,吸引更多读者点击阅读,进而促进新闻的传播和推广;还可以使读者更快速地了解文章的主要内容和重点,提高阅读效率。同时,它可以作为搜索引擎的关键词,提高搜索结果的精准度和效果[1]。此外,通过对新闻文本的关键字进行提取和分析,可以得到读者关注的相关信息,提高广告投放的精准性和效果[2]。近年来,基于TF-IDF和TextRank的关键词提取算法在中文文本领域得到了广泛应用。然而,由于中文语言的复杂性,传统的TF-IDF和TextRank算法在中文文本的关键词提取中存在一定的局限性[3]。因此本文提出了一种基于TF-IDF和TextRank的中文文本的体育新闻关键词提取方法,可以提高关键词提取的准确性和覆盖率。
1 相关工作(Related work)
关键词提取是一个广泛的研究领域,已经有许多算法被提出。中文文本的关键词提取与英文文本不同,主要因为中文词汇具有复杂性和多义性。因此,中文文本的关键词提取需要考虑词汇的语义、词频、文本结构等多方面因素。其中,基于频率的TF-IDF算法是最常用的一种方法,它通过计算词频和文档频率衡量词语的重要性。TextRank算法是一种基于图的排序算法,它通过对文本中词语之间的关系进行建模,计算每个词语的重要性。这两种算法已经被证明在关键词提取任务中取得了良好的效果[4]。然而,这两种算法各自存在一些缺陷。
TF-IDF算法只考虑了单词的频率信息,忽略了单词之间的关系。TextRank算法考虑了单词之间的关系,但是它没有考虑单词的频率信息。因此,结合应用两种算法可以克服它们各自的缺点,提高关键词提取的准确性。
本文方法首先对文本进行预处理,包括分词、去除停用词等操作;其次使用TF-IDF算法计算每个词的重要性并进行归一化处理,同时使用TextRank算法考虑单词之间的关系,计算每个单词的得分并进行归一化处理;最后,将TF-IDF值和TextRank得分进行加权和得到每个词的综合权重值,按照权重值从大到小排序后选择权重值最高的前N 个单词作为关键词。关键词提取步骤如图1所示。
2 方法实现(Method implementation)
2.1 数据集
为了评估本文所提方法的效果,使用来自清华大学自然语言处理实验室的THUCNews数据集中的131 601篇体育新闻数据集进行实验。数据集中都是text文件,为了方便数据处理与计算,将数据存入MySQL数据库中,数据集基本信息見表1,数据库表设计见表2。
2.2 数据预处理
将文本从数据库中读取出来,使用jieba.lcut()进行分词,同时使用百度停用词表过滤停用词等,方便后续处理。
(1)分词。使用分词工具(如jieba)对给定的中文文本进行分词,将文本转化为词语序列。使用默认的精确模式words =jieba.lcut(sentence)。虽然Paddle模式(飞桨模式)对机构团体名的解析更准确,但是对分词效果不大。使用Paddle模式非常耗时,性价比不高。通过实际测算,使用Paddle模式对100条语句进行分词的耗时,约是不使用Paddle模式的103倍,如表3所示。
(2)去停用词。在进行新闻文本关键词提取前,需要做停用词处理,主要是为了去除一些无意义的高频词汇,如“的、是、了、而、和”等。这些词语出现的频率非常高,但它们本身并没有太多的语义信息,对于关键词提取没有太大的帮助。同时,去除这些无用的词汇也可以减少文本处理的时间和计算量。停用词处理的方法通常是通过建立一个停用词表,包含需要去除的无用词汇。在进行文本处理时,对于每一个词语都需要和停用词表中的词汇进行比对,如果该词语属于停用词,则将其去除,否则保留。这样可以去除一些无用的高频词汇,提高关键词提取的准确性和效率。本文对比三个常用的中文停用词表后,决定使用百度停用词表过滤停用词。停用词表适用类型见表4。
2.3 计算TF-IDF得分
TF-IDF的中文名为“词频-逆文档频率”,是一种统计方法,用于评估一个词语在文档中的重要程度。由词频(TermFrequency,TF)和逆文档频率(Inverse Document Frequency,IDF)两个部分组成,它的核心思想是一个词语在一篇文档中出现的次数越多,同时在其他文档中出现的次数越少,那么就越能代表该文档[5]。
TF(词频)指的是某个词在一篇文档中出现的频率。TF越高,说明这个词在文档中出现的次数越多,越重要。
IDF(逆文档频率)指的是某个词在所有文檔中出现的频率的倒数。如果一个词在所有文档中都频繁出现,那么它的IDF就会很低,说明这个词在区分文档时并没有太大的用处。相反,如果一个词只在少数文档中出现,那么它的IDF就会很高,说明这个词在区分文档时具有很大的作用。
综合考虑TF和IDF,可以计算一个词的TF-IDF值,它越高就表示这个词在文档中越重要[6]。计算公式如下:
4 结论(Conclusion)
本文提出了一种基于TF-IDF和TextRank的中文文本体育新闻的关键词提取方法。该方法结合了TF-IDF算法和TextRank算法的优点,提高了关键词提取的准确性。通过TF-IDF方法可以筛选出具有高重要性的单词,而TextRank方法则可以通过考虑单词之间的关系提高关键词的准确性。为验证该方法,使用体育新闻数据集进行实验,并与只使用TF-IDF和只使用TextRank进行提取关键词准确率结果的比较。实验结果表明,TF-IDF和TextRank结合的方法在F1 值上选择5个关键词时取得了更好的结果,相对于只使用TFIDF方法准确性提高约40%,相对于只使用TextRank方法准确性提高约32%。对基于TF-IDF和TextRank的方法进行详细分析发现,使用TextRank算法可以捕捉单词之间的关系,有助于识别出一些相关的关键词,但是它也容易将一些不相关的单词也包含进来,而使用TF-IDF算法可以过滤一些常见的单词,提高了关键词的准确性。结合这两种算法可以更好地平衡准确性和召回率,提高关键词的提取效果。
基于TF-IDF和TextRank的方法还有一些改进的空间,如将词语的语义信息考虑进来,使用深度学习等方法进行建模等。在未来的研究中,可以继续改进基于TF-IDF和TextRank的方法,并在其他领域的关键词提取任务中应用。
参考文献(References)
[1] 孟庆麟. 我国新闻出版的热点关键词分析与发展对策究研究[D]. 大连:大连海事大学,2019.
[2] 蒋艳. 语料库方法在新闻传播研究中的发展应用分析[J].新闻研究导刊,2022,13(24):23-26.
[3] 何传鹏,尹玲,黄勃,等. 基于BERT和LightGBM 的文本关键词提取方法[J]. 电子科技,2023,36(3):7-13.
[4] 张晓丽. 面向新闻领域的关键词提取方法研究及系统实现[D].太原:山西大学,2021.
[5] WANG Z H,WANG D, LI Q. Keyword extraction fromscientific research projects based on SRP-TF-IDF[J]. ChineseJournal of Electronics,2021,30(4):652-657.
[6] 张瑾. 基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155.
[7] 赵占芳,刘鹏鹏,李雪山. 基于改进TextRank的铁路文献关键词抽取算法[J]. 北京交通大学学报,2021,45(2):80-86.
[8] 李晨,赵燕清,于俊凤,等. 基于词向量与TextRank的政策文本关键词汇抽取方法研究[J]. 现代计算机,2023,29(2):68-72.
作者简介:
兰晓芳(1998-),女,本科生。研究领域:数据处理,推荐算法。
刘 卓(2002-),男,本科生。研究领域:人工智能,数据处理。
许志豪(2001-),男,本科生。研究领域:机器学习,数据处理。
肖 毅(1978-),男,博士生,讲师。研究领域:数据处理,模式识别。本文通信作者。