张 辛
江苏建筑职业技术学院,江苏 徐州 221116
习近平总书记提出的全面从严治党是对90多年管党治党实践中一直坚持的从严治党理论的新的认识和升华[1]。全面从严治党的思想是习近平新时代中国特色社会主义思想的重要组成部分[2],总书记的系列重要讲话为党的建设立了新理念、提出了新要求、制定了新举措。崔治忠认为全面从严治党的理论基础来源于经典马克思理论。肖霜认为党的十九大报告的精髓之一就是全面从严治党。龙丽波从渊源背景、基本内容和党建价值三个方面论述了全面从严治党思想。王伟从学理上研究分析了全面从严治党科学体系的构成和特征。樊金山论述了全面从严治党实践逻辑。从这些文献可以看出虽然研究的方向和层次众多但是主要集中对全面从严治党思想的宏观思考、结构性论述,但是从微观角度的研究还比较少。
关键词是一篇文章的核心与骨架,掌握一篇文章的关键词对清晰理解文章内容,把握文章结构,领会文章思想,记忆文章概要起到重要作用。本文选择中纪委网站整理的习近平总书记全面从严治党重要论述学习专题数据库为研究对象,利用TFIDF算法提取重要论述中的关键词,通从关键词这个细微角度分析学习习近平总书记全面从严治党论述。
表1 全面从严治党重要论述基本结构表
习近平总书记全面从严治党重要论述数据库是中纪委网站权威发布重要学习平台。其中学习专题是党的十九大后建立的一个全面从严治党思想的学习中心。它将十八大以来总书记在全面从严治党方面的重要论述按照党的十九大全面从严治党的体系分成了九个方面、52个小类,共整理收录了315项各类讲话和文件中的全面从严治党论述1303条,共计27万余字。从表1中可以看出,这些论述的篇幅并不相同。在表2中汇总了重要论述中涉及到的次数最多的前十位会议,可以看出集中体现全面从严治党思想的重要出处。
表2 重要论述中涉及到的次数最多的前十位会议
表3 部分重要论述关键词表
分析全面从严治党论述数据结构只能从整体上厘清一个框架,通过对论述关键词的研究,可以从更细微的角度了解全面从严治党思想的重要内容。
与一般学术论文不同,一方面论述文章内容丰富也没有人为设置的关键词,另一方面论述数据是不同文章段落的重新组合归类,因此原文章题目对内容掌握意义不大。因此需要一些自动化的算法对大规模文本进行关键词提取。TFIDF就是这样一个关键词提取算法。TF指文本中的词频,一般等于某个词出现的次数。IDF指“逆文档频率”,是一个用来衡量一个词常见程度的值。它的一般常见的公式:
TF*IDF得到的值就是某词语的重要程度,按照重要程度排序后,前几名的就是文章的关键词。
以党的十九大报告第十三部分第五段约三百字提取关键词,提取排名前10的关键词为:全党、远大理想、共同理想、中国特色社会主义、思想、共产主义、坚定、建设、总开关、武装头脑。从中可以看出TFIDF算法提取出的关键词基本可以表现原文核心内容,基本可以刻画出原文骨架。
为了防止jieba分词系统对全面从严治特有词汇无法识别,而导致分词结果过于细碎,首先要建立用户词典。以全面从严治党为主题,在知网核心期刊数据库中提取最新500篇文章的关键词,将这些关键词去重后做为分词的专用数据库,共得到用户词典词条1022条。提取关键词后,见表3,可以看出提取出的排名前十的关键词与二级分类的标题表达内容十分相似,大部分标题中的词语都包含在了关键词中,由此可见,一方面关键词很好的表达了论述的核心内容,另一方面论述的主要内容确实是围绕标题展开。由于前十关键词与二级分类标题中的词语有一定的重复性,为了更多的领会论述的精神,再去除标题中出现的关键词后,在表4中列出了不含标题词的排名前十的关键词。将二级分类的标题和不含标题词的排名前十关键词结合在一起,基本上展现了二级分类下的骨架内容。如从尊崇党章这部分的关键词,可以看出尊崇党章是“全面从严治党”、加强“党的建设”的必然要求,要求的范围包括“全体党员”和“领导干部”,要求做的工作是“自觉”“学习”“贯彻”,特别是“党的纪律”,最终目标是为了“群众”。
通过以上分析可以看到一方面利用关键词提取技术可以对习近平总书记全面从严治党重要论述数据库进行统计分析,可以帮助我们进一步把握好思想脉络、领会好思想精髓、记忆好思想表述。另一方面TFIDF算法提取出的关键词基本可以反映每个二级分类下论述的关键信息。通过对关键词的学习,可以进一步加强对重要论述的理解和记忆,为学习习近平新时代中国特色社会主义思想提供了一个新视角。