邓时滔 干阳琳 赵乾
摘 要:为了自动提取协同管理平台中的修改意见的主题,本文从选取候选词集和基于统计的抽取方法入手进行关键词抽取,首先利用维基百科作为语料库,利用最大匹配算法生成候选词集,然后综合考虑了词频、逆文本频率、词长等三项指标,利用改进的TF-IDF关键词抽取方法,抽取关键词来表示修改意见的主题。将关键词与朴素贝叶斯分类算法相结合,对修改意见语料集进行实验,结果表明,抽取来的关键词能够更准确地表示修改意见的主题。
关键词:短文本 候选词集 关键词抽取 TF-IDF
中图分类号:F560.81 文献标识码:A 文章編号:1674-098X(2019)02(a)-0200-02
目前,在企业协同管理平台存有大量修改意见,需要人工对这些意见进行分析,了解企业用户经常犯什么错误,从而采取针对性培训,提高企业执行效率。但是在执行过程发现工作量大、时间效率低、存在人为主观性等缺点。为了克服这些缺点,我们需要让计算机能够“读懂”修改意见,根据对意见的收集可以得知用户经常犯的错误,并挖掘出一些潜在的企业管理短板,采取针对性培训。
根据评论进行意见收集实质是对短文本进行关键词抽取。短文本指的是篇幅小、表现形式多种多样、内容零碎的一类文本,大多都是能够表达完整意见的语句。关键词指的是代表短文本主题内容的词或短语,便于读者快速理解短文本内容并对文本进行归类总结。中文关键词抽取一般分为通过中文分词产生候选词集和对候选词集进行抽取两个部分。中文与拉丁系语言区别在于字之间没有空格或分隔符来识别词语的边界,中文字可以自由组合产生多种含义,单个字的重复利用率高,从上述可以发现主要难点在于如何得到一个好的候选词集和如何将其中的关键词抽选出来。
1 短文本候选词集
由于中文具有一定语义的最小单位是词,词与词之间没有明显切分标志,中文分词效果的好坏直接影响到关键词抽取的最终结果。如何提高分词效果和将大量未在分词词典中出现的未定义词(缩略语、网络语言等新词)识别出来,是中文分词中的难点。特别是相对长文本,短文本中词的数量要少得多,候选词集的选取更是难上加难。
为了实现高效的分词,基础前提是构建一个高效的词表,通常短文本分词可以借助现有大语料库或词典等外来资源扩充短文本语义特征[1],本文利用中国科学院计算技术研究所发布的免费版分词词典作为分词词典[2],利用分词过程中产生的多频率词和单位常用的专业术语作为分词词典的补充。
中文分词是将一个汉字序列切分成一个个单词的过程。传统的中文分词算法分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本文采用了第一种方法,即按照一定的策略将汉字字符串与一个词典中的词进行匹配。常见和实用的分词匹配算法有正向最大匹配法、百度的双向最大匹配算法BMMM和GOOGLE逆向最大匹配算法RMMM[3]。本文应用正向最大匹配法对短文本进行词条匹配,具体思想是已知分词词典中的最长的词条字数为L个,取评论的前L个字作为匹配字段,在分词词典中查找,若词典中有这个词,则匹配成功,就切分出来,取下一个L个字段;如果词典中找不到该词,则匹配失败,将匹配失败的词条进行记录、存储,当再次出现时进行频率更新,当词频数等于某一个设定的值时,作为未定义词,更新分词词典。然后去掉匹配字段的最后一个字,重新进行上述的操作, 直到切分出所有词为止。
然后过滤掉不能反映主题的停用词,诸如“的”之类助词和“因此”等只能反映句子语法结构的词语,本文的停用词确定为所有虚词以及标点符号。
2 关键词抽取
现有的中文关键词抽取方法,主要有基于语义分析、基于规则和基于统计的方法。基于语义分析通过研究自然语言的语法关系来抽取关键词,可以分为语义分析、词法分析、句法分析和篇章分析,但是需要对文本逐步进行分析,耗费大量人力物力。基于规则的方法主要是通过建立关键词的位置、词性等特征规则等方法来进行抽取,需要人工统计规则,规则自适应性弱,领域性较强。基于统计的分析方法分为有监督和无监督的关键词抽取方法,有监督的关键词抽取方法指的是基于决策树、朴素贝叶斯、SVM等机器学习方法,需要大规模人工标注的训练语料作为基础支持,抽取效果依赖具体的训练语料的质量。虽然该类方法精确度高,但是对语料需要耗费大量的人力资源进行标注,而在没有大量人工标注的标准语料库作为支持的情况下,无监督的方法更加适用关键词抽取的实际应用。本文通过无监督的统计TF-IDF方法确定候选词的权重,从中筛选出权重较大者作为最终的关键词。
特征词的挑选通常应该具备以下原则:(1)能够确实标识文本内容,即与文本主题内容应密切相关;(2)具备将目标文本与其他文本区分开的能力;(3)个数适中,不宜过多;(4)特征词分离操作易实现。
本文用改进的TFIDF来衡量每个类中训练文档的词条的权重,并按照权重大小排序,从每个类中选出K(K=40)个权重最大的词,根据这些词语进行了相关性分析,对管理中出现的问题进行了整理。
本文选取出来的特征词与朴素贝叶斯NB分类算法相结合应用于修改意见,对修改意见进行文本分类,观测分类效果,以确认关键词的优劣。
采用两个评判指标-查全率、查准率,查全率是分类器正确判别为属于该类的文本数与分类器预测为该类的文本数的比值;查准率是分类器正确判别为属于该类的文本数与实际属于该类的文本数的比值;格式错误的查全率为81.3%,查准率为87.3%,缺项漏项的查全率为76.1%,查准率为88.1%,说明关键词的抽取具有一定的效果。
3 结语
为了自动提取协同管理平台中的修改意见的关键词,本文从候选词集选取和关键词抽取方法入手,利用维基百科作为词表生成候选词集,从综合考虑了词频、逆文本频率、词长等三项指标, 提出了改进的TF-IDF方法,选取一部分关键词,取得一定的成果。但本文未能考虑词的位置、评论来源的重要性等外部信息对评论的影响,将是笔者下一步研究的内容。
参考文献
[1] 范云杰,刘怀亮.基于维基百科的中文短文本分类研究[D].西安:西安电子科技大学,2013.
[2] 钱爱兵,江岚.基于改进 TF-IDF的中文网页关键词抽取[J].情报理论与实践,2008(6):945-950.
[3] 周满英.百度和谷歌的中文分词技术浅析[J].中国索引,2011(2):44-46.
[4] 张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006(10):76-78.
[5] 丁荩.微博热点发现技术的研究与实现[D].武汉:华中科技大学,2012.