大数据环境下的文本挖掘教学内容探讨

2018-05-09 02:54
无线互联科技 2018年9期
关键词:分词文档数据挖掘

白 杨

(辽东学院 信息工程学院,辽宁 丹东 118003)

近年来,人工智能、云计算、物联网、移动通信等技术与应用的快速发展及其与社会经济活动的广泛融合,把人类社会带入一个全新的大数据时代。大数据成为国际竞争、国家发展的重要领域,给人们的生活、学习和工作带来新的模式,采用合理的方法针对大数据进行挖掘和利用,将有助于获取有价值的信息。高校的发展也应迎合大数据新环境的要求,在教学理念上做出适合学生能力发展的调整,并切实在教学实践中付诸行动,增强学生的就业竞争优势。

目前,面向大数据相关人才的迫切需求,我国各大高校的计算机科学、信息管理等专业开设了“数据挖掘”课程。大数据环境下的互联网约95%的数据以文本数据形式存在,文本挖掘技术及其应用已经成为新的研究热点,是数据挖掘技术发展的重要方向[1]。在各类相关教材中,也只将文本挖掘作为Web挖掘的一个小知识点,并没对其知识构成和主要技术做全面介绍。针对这一现象,本文将对文本挖掘这一知识点进行系统概述,对其区别于其他形式数据的挖掘技术特点进行阐述。

1 文本挖掘概述

文本挖掘一词最早出现于1998年第十届欧洲机器学习会议上,它是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程[2]。文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识,其本质是自然语言处理(Natural Language Processing,NLP)过程,NLP是将无结构的自然语言转换成结构化数据自然语言,便于计算机的理解、存储和管理。

1.1 文本挖掘的应用场景

文本挖掘的应用场景丰富,主要包括以下几个方面:新闻检索归类,如谷歌新闻;社交网络分析,如微博、推特热点发现、谣言识别等;舆情监测分析,如股票分析、房产分析等;顾客反馈评价,如电子商务评价情感分析;用户画像,如用户兴趣偏好分析。

1.2 文本挖掘与数据挖掘的联系和区别

广义上,文本挖掘是数据挖掘的一个分支领域,挖掘目标也分为预测和描述两种。预测是利用数据库中已有的变量预测未知或将来的数值;描述是用于探索已有数据的性质,对数据中的模式或关系进行辨别,注重发现描述数据的模式,提供给用户解释和表述。狭义上,如果将文本挖掘作为一个单独的研究领域,其研究对象是无结构或半结构的文本,而非结构化数据;以提取概念和知识以及做出描述和预测为目标,而非预测未来的状态;挖掘方法以提取短语、形成概念为主,与数据挖掘的传统方法类似,也包括聚类、分类、关联分析等。另外,由于文本数据是各类网站的主要数据形式,它广泛应用于社交网站、电子商务平台、文献集合、知识库、电子邮件等媒介。

2 文本挖掘过程

如何使得文本数据可被计算机理解?如何利用计算机帮助解读文本数据?要解决这些问题,皆要求文本挖掘具备数据获取、数据分析和数据建模3方面的能力,以下5个步骤阐述了文本挖掘过程。

2.1 文本数据获取

通常通过爬虫程序实现网络海量文本数据的抓取,具体过程是根据挖掘目的设计爬虫程序,爬取相关的数据,以形成文本数据挖掘的初始数据。

2.2 文本挖掘的预处理

预处理过程是对编码、缺失值、分布分析等问题进行处理,是能否获得有效挖掘结果的关键。由于文本数据的特征,文本数据的预处理方法区别于其他类型数据的预处理方法,具有其特殊性,因此这部分知识点是文本挖掘教学内容的重点,预处理过程一般划分为以下几个环节。

2.2.1 编码处理

首先需要对文本数据进行标准化处理,因为不同编码格式,有些软件可能会不识别导致出错,统一编码(如将编码转化成“UTF-8”)将方便进一步的主题特征抽取。

2.2.2 分词处理

分词处理将确定语句的词(words)或词项(terms),即文档粒度。不同于英文语句中的词与词之间自带空格的构句特点,中文句子往往因为断句的不同而引起歧义,因此,中文分词方法显得额外重要。中文分析方法分为词典分词和无词典分词两种,前者是利用词典中包括的领域术语,根据设定好的切词字数,通过最大正向匹配将语句从左至右进行切分。后者是利用统计思想来分词,如最大概率法公式为:一个词的概率=其出现的次数/语料中总的词数,以此区分词在一个文档中的重要程度。另外,还有一些常用的切词工具如StandardAnalyzer,ChineseAnalyzer等都各具优势。

2.2.3 文本数据的表示—DTM矩阵生成

分词处理之后需要进行数据的表示,通过文档—词项矩阵(Document-Term Matrix,DTM)矩阵实现对本文数据的结构化处理,它由文档为样本(行)、词项为变量(列)、词频为观测值(元素)构成,如表1所示3个文档(Doc1,Doc2,Doc3)的各个词项(“欢迎”“来到”等)的词频值为1或0,1表示该词项在文档中出现,0表示该词项在文档中未出现。

2.2.4 文本信息过滤—停用词及常用词处理

词项中有些停用词(如表1中的“的”“与”)无法给予我们有价值的信息,因此,需要借助词典对停用词进行处理。需要注意的是,在分析具体行业时,一些常用词也可以处理掉,如只分析房地产行业时,“房地产”一词本身的意义就不大了。

2.2.5 文本特征筛选TF-DIF处理

词频—逆文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一个词在A文档中出现频率高(对A重要),而在其他文档中出现次数相对低(对全局具有个性化),那么认为该词对于A文档是重要的,它对A文档有信息代表性,这将有利于进行文本分类,从而方便提取规律和进行检索。

表1 数据挖掘与文本挖掘的区别

2.2.6 文本特征抽取—LDA主题模型

与TF-IDF不同,文档主题生成模型(Latent Dirichlet Allocation,LDA)则将分析粒度从词映射为词的组合(构成主题),从而使得分析粒度变大,分析维度降低。

2.3 文本数据分析与挖掘

根据挖掘目的和任务的不同,将文本挖掘分析与挖掘划分为以下几个功能。(1)关键词检索:与传统的信息检索使用的技术类似,关键词检索功能通过建立倒排文件索引实现。(2)相似检索:找到相似内容的文本,通常利用向量空间模型、余弦相似度模型进行相似度计算。(3)词语关联分析:聚焦在词语(包括关键词)之间的关联信息分析上。(4)文本分类和聚类:文本分类是有监督地将文档分为指定类;文本聚类是无监督地将文档分为若干类。实际上,多种分析方法经常混合运用,如进行数据特征化处理使数据降维,从文档中抽取能反映研究主题的一些特征后,再使用分类器进行训练,而分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。(5)自然语言处理:揭示自然语言的涵义,实现文本语义挖掘,如运用LDA模型生成文本主题。

2.4 文本数据可视化

数据可视化就是把复杂的数据转化为直观的图形,有利于进行数据分析以及方便人们洞悉数据规律。目前研究领域和Web上最受欢迎的文本内容可视化方法是标签云和Wordle,它们都是基于关键词的方法。另外还有文本特征可视化、情感分析可视化、文本关系可视化等。

2.5 挖掘结果和策略

为辅助决策,文本挖掘的结果必须被用户所理解,因此,需要对挖掘结果进行评估。评估标准一般分为客观标准和主观标准,其出发点均是判断挖掘结果是否具有新颖的、有趣的、有价值的性质。

3 结语

本文对文本挖掘的教学内容做了系统、全面的设置,梳理了此知识点的基本概念,着重介绍区别于其他数据挖掘预处理的分词技术及矩阵表示方法,并阐述了主要挖掘和分析方法及其应用场景。实践教学中,将利用开放的互联网数据库资源,使课堂教学、上机实验案例相结合,引导学生掌握文本数据挖掘技术的知识结构,调动学生的学习积极性和兴趣。未来工作中,将进一步引入前沿的文本挖掘问题应用于“数据挖掘”课程的教学中,丰富教学案例,提高教学效果。

[参考文献]

[1]袁军鹏,朱东华,李毅,等.文本挖掘技术研究进展[J].计算机应用研究,2006(2):1-4.

[2]JIAWEI H,MICHELINE K,JIAN P,等.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2012.

猜你喜欢
分词文档数据挖掘
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
分词在英语教学中的妙用
基于并行计算的大数据挖掘在电网中的应用
基于RI码计算的Word复制文档鉴别
一种基于Hadoop的大数据挖掘云服务及应用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于GPGPU的离散数据挖掘研究
论英语不定式和-ing分词的语义传承