邓远飞 林晓伟
摘要: 文本挖掘和文本可视化是计算机中重要应用技术,能够形象地高度概括文本信息中的核心内容,方便人们快速地理解和吸收文本中的核心思想。本文阐述文本挖掘预处理简要处理流程,然后阐述使用R软件进行文本挖掘,实现词项聚类、文本聚类、绘画词项云图、词项网络图等,找出其中隐藏的文本信息,并以可视化方式展现出来。最后对文本挖掘和文本可视化技术进行总结和展望。
Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.
关键词: 预处理;分词;文本聚类;文本可视化;词云
Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud
中图分类号:TP319 文献标识码:A 文章编号:1006-4311(2018)14-0216-03
文本无处不在,是信息交流的主要传媒之一。Web文本挖掘是指从大量非结构化、异构的Web文档的集合中发现有效的、潜在可用的及最终可理解知识的过程。Web文本挖掘可以对 Web上文档内容进行关联分析、分类、聚类等。互联网时代,如何利用文本挖掘技术,从大量半结构化文本数据中抽取关键信息、提升理解速度等,这是一个复杂的综合性研究课题。文本可视化技术综合了文本分析、数据挖掘、数据可视化等学科的理论和方法,为人们理解复杂的文本内容、结构和内在的规律等信息的有效手段,旨在最大程度的实现抽象与概括海量的文本信息,方便用户快速理解和吸收文本的主要内容。
本文所要处理的数据文本源,已在前阶段研究工作中完成,已经将处理后的花语文本存储到MySQL数据库中。本文使用R软件实现文本预处理、词项聚类、文本聚类和文本可视化等。
数据分类有按花材分类、送花对象分类和送花用途分类。在本文中,“玫瑰+恋人+爱情”表示为选取花材为“玫瑰”,送花对象为“恋人”,送花用途为“爱情”的花语文本。“康乃馨+父母+节庆”表示为选取花材为“康乃馨”,送花对象为“父母”,送花用途为“节庆”的花语文本。
对文本预处理,需经过如图1所示的若干流程:读取花语文本数据、中文分词(加载自定义词典)、去除停用词等、转换文本表示、构建词项-文档矩阵。中文分词是中文文本挖掘研究的基础与难点,中文分词的准确与否,关系到能否准确识别语句含义,直接影响文本挖掘结果的分析。分词后词项数量过多,还需进行词项降维、去除无意义词语。文本预处理部分使用R软件中的jiebaR包相关函数进行处理,其中函数worker进行中文分词处理,函数filter_segment剔除停用词,达到过滤分词结果的效果。
聚类是将数据划分到不同分类的过程,从很多文档中把内容相似的文档聚为一类,同类中的对象有很大相似性,而不同类间的对象有很大相异性。
根据前文分析的结果,百合和康乃馨的产品频数大致相近。另外,百合主要是送给恋人对象,而康乃馨主要是送给父母对象,选取这两种花材的花语进行聚类分析,以探究在花材送与对象表达的情感不同时花语表达的主题内容。
2.1 词项聚类
选取“百合+康乃馨”花语,删除稀疏词项,使用函数hclust对词项层次聚类,树状图被划分为3个簇,绘制如图2聚类图。
图2中,母亲、母亲节词语被分到同一组中,表达了送与父母的主题;健康、朋友词语被分到同一组中,表达了送与朋友的主题;而岁月、关怀、周年纪念、烂漫、真挚等词语被分到一组,表达了送与恋人的主题。卖家在配置花语上,送与不同的对象所表达的主题也不相同,验证了百合花主要送与恋人与朋友,康乃馨主要送与父母与朋友。
2.2 文本聚类
选取“玫瑰+康乃馨”花语,对分词后的花语文本进行k-means聚类,使用函数kmeans将花语文本划分为3个簇,具体的聚类分组和每组频繁词项如下:
由上述簇和词项可知,每个簇都围绕着一个明确的主题。卖家对百合、康乃馨產品设置的花语中,簇1与朋友、友情有关,簇2与恋人、爱情有关,簇3与父母、节庆有关。卖家对百合、康乃馨产品主要表达三个主题,分别是爱情、亲情和友情。
文本可视化是通过对文本资源的分析,发现特定信息,并使用计算机技术以图形化方式呈现来的一种方法,其目的是以丰富的图形方式呈现,方便快速理解和吸收文本核心内容。本文分别选取“玫瑰+恋人+爱情”和“康乃馨+父母+节庆”花语进一步分析,探究花材、送花对象、送花用途与花语的关系。
3.1 词项云
词项云又称标签云,是常见的文本关键字可视化方法。建立词项-文档矩阵后,通过R程序包wordcloud函数绘制词项云。
3.1.1 “玫瑰+恋人+爱情” 词项云
选取“玫瑰+恋人+爱情”花语,设置 min.freq=14,绘制如图3的词项云图。
由图3可看出,其中心围绕着:爱、幸福、永远、爱情、祝福、思念等词语。这表明,玫瑰主要是用来表达爱(爱情)、幸福、思念等。
3.1.2 “康乃馨+父母+节庆” 词项云
选取“康乃馨+父母+节庆”花语,设置 min.freq=4,绘制如图4的词项云图。
由图4看出,其中心围绕着:妈妈、祝福、爱、快乐、幸福、温暖等词语。这表明,康乃馨主要是用来表达母爱、幸福、快乐等。
3.2 词项网络
词项网络用来描述词语之间关联,直观展现出词语之间关联。为了简化词项网络图对词项-文档矩阵,降维处理,保留20~30个左右中心词项。
3.2.1 “玫瑰+恋人+爱情”词项网络
由图5可看出,在“玫瑰+恋人+爱情”产品的花语设置中,与其他词项之间两两联系、紧密度较大的有:爱、祝福、永远、烂漫、拥有等。同时也说明,卖家在对玫瑰送给恋人表达爱情的花语设置中,爱、祝福、永远、烂漫、拥有等词是结队出现。
3.2.2 “康乃馨+父母+节庆”词项网络
由图6可看出,在“康乃馨+父母+节庆”产品的花语设置中,与其他词项之间两两联系、紧密度较大的有:妈妈、幸福、母亲、祝福、健康等。同时也说明,卖家在对康乃馨送给母亲用于节庆的花语设计上,妈妈、母亲、幸福、祝福、健康等词是结队出现。
本文对花语词项和文本进行聚类分析,绘画词项云和词项网络图并分析,验证了网店在针对不同的花材、送花对象、送花用途的花产品时,其表达的主题内容不同,所搭配的花语也不同。实际文本挖掘应用中,如果文本样本数据量偏少,则会导致关键詞出现频次不够,数据分布不能够很好的反映其特征,聚类结果不明显,只能粗略反映某种主题。本文通过文本可视化技术,生成直观的词云图与词项网络图,充分概括文字和数据分析得到的结果,以容易理解和接受的方式展现出来。随着文本挖掘技术的逐步发展,其应用范围也越来越广。
[1]李晓笛.Web文本挖掘技术研究及应用[D].北京交通大学,2015.
[2]沈记全,唐菁,杨炳儒.Web文本挖掘系统及其分类算法的研究与实现[J].计算机工程,2003(17):37-39.
[3]杨彦波,刘滨,祁明月.信息可视化研究综述[J].河北科技大学学报,2014(01):91-102.