王姝
摘要:
互联网为人们获取大量的文本数据提供便利,然而这些文本数据的质量相对偏低,难以充分发挥文本数据的利用价值,为此要重点研究和探讨计算要文本信息挖掘的文本表示和术语识别两项技术,进行文本信息的合理高效分类、过滤和筛选,帮助使用者获得真正需要的知识,挖掘海量文本信息中的隐藏知识和信息,较好地提高计算机文本信息获取质量。
关键词:
计算机;文本信息;挖掘;文本表示;术语识别
中图分类号:
TP391.1;F724.6;F274
文献标识码:
A
文章编号:
1672-9129(2020)15-0004-01
互联网为人们获取、发布、交换和共享信息提供了便利,然而人们获得的文本信息数据大多相对表浅,难以真正挖掘到具有价值的知识和信息。本文重点探讨计算机文本表示技术和术语识别技术,帮助人们快速高效地进行文本信息的搜集、分类、过滤、筛选和利用,提高计算机文本信息获取质量和效率。
1 计算机文本信息挖掘技术概述
文本信息挖掘技术要从海量的计算机文本数据中抽取隐藏的、具有价值的知识和信息,并对其进行重新组织、分类、标引、过滤和筛选,仅限于对文本数据的挖掘,重点针对非结构化或半结构化自然语言文本的挖掘,其主要的文本信息挖掘任务包括有以下几种:(1)文本分类。这是一种有监督的机器学习方法,需要一定数量的有类别标记的训练数据进行先验引领和指导,是对文本语料库中的每个文本赋予其一个或多个类别标记的过程,主要用于信息检索、搜索引擎、领域知识加工和服务等活动。(2)文本聚类。这是一种无监督的机器学习方法,无须训练过程,是将文本语料库的数据自动聚集为若干个类别簇,包括文本表示、文本距离度量标准的选择、聚类算法的选择等流程。
2 计算机文本信息挖掘技术分析
2.1文本表示技术。文本表示关键技术是在计算机技术、统计学和语言学知识的依托下,对自然语言形式的文本进行转换,使之成为计算机内部能够直接处理的数据模型,其基本流程包括有:特征提取、特征降维、特征权重计算等,快速高效地抽取文本特征相关信息,具体来说包括有:(1)统计信息。文本中关键词的统计分布规律信息,如:关键词的词频、逆文本频率、关键词之间的互信息、共现频率等。(2)语义信息。主要是指计算机文本中关键词的语义信息,如:上下文环境中的特定信息、关键词之间的同义/反义信息等。
由于自然语言文本体现出天然的线性结构,因而通常采用布尔模型、向量空间模型和概率模型将文本表示为线性结构的文本向量,并采用关键词作为文本特征,从而简单直观地表达出线性文本的结构。其中:布尔模型主要采用0或1的布尔值表示其关键词,无须进行关键词特征的降维处理,衍生的模型有扩展布尔模型和模糊集合模型,然而其缺陷在于无法精准地计算关键词的权重。概率模型主要是利用概率论基础知识和概率排序原理,计算关键词的权重,衍生出的文本表示模型有推理网络模型和信任度模型,有着良好的应用前景;然而其缺陷在于关键词权重计算过于繁琐复杂。向量空间模型是应用最为广泛的文本表示模型,关键词权重计算方法更加简洁、准确和有效,然而其不足之处在于缺乏文本语义表示能力,可以采用基于短语的VSM和基于概念的VSM进行文本特征提取的优化,并采用统计语言模型、奇异值分解进行文本特征权重计算的改进和优化。
2.2术语识别技术。术语是特定专业领域中表达一般概念的指标,是用于文本信息处理领域中概念表达的书面语,字符长度通常在2-8个字符,主要特性主要表现为以下几个方面:(1)语言特性。是指术语的内外部结构特性与一定的语言学或统计学规律相契合,大多由名词、动词、形容词组成。(2)单元性。术语的单元性用于描述术语内部的高内聚性和外部的低依赖性特点,较好地评测术语在字符串结构上的稳定性。(3)术语性。主要用于评测和度量语言学单元及其所属语料领域的强弱相关性,有时需要借助于背景语料进行完整清晰的描述和表达。(4)领域相关性和一致性。术语在其所处的领域中分布相对均匀,而在其他领域语料中则表现出分布不均匀的状态。
对于常用术语来说,可以采用如下方法加以识别和表达:(1)基于规则的方法。主要是借助于文本语料库中词语的语言特性构建词性规则模板的集合,并以此匹配语料库中词序列作为术语。这种方法需要极强的专业领域和计算机语言学背景,在规则模板的制定上存在差异性,难以满足领域术语更新的需求,表现出对领域的极强依赖性,无法进行该方法的扩展应用。(2)基于统计的方法。可以设计一种中文术语识别系统,利用文本语料中字符串的稳定性,抽取候选术语集合,再剔除基本词,获悉术语识别结果。也可以利用关键词的TF-IDF值及关键词在文本中出现的位置,提取文本的主题关键词。以新闻术语为例,可以下载网络新闻语料,借助于互信息参数抽取语料中的质串,识别具有复杂结构的合串,将其作为新闻术语。(3)基于规则和统计相结合的方法。主要是将术语的语言特征和统计特征相结合,判断词序列结构的稳定性,抽取术语候选,再利用语言规则进行后处理,获悉术语集合。(4)基于机器学习的方法。这是利用一定规模的语料生成机器学习模型,进行术语的最终识别。
结语:综上所述,计算机文本信息挖掘是文本信息处理的重要内容,要重点研究和探讨计算机文本表示技术和术语识别技术,进行语义的精准量化描述和表达,并快速准确地进行术语识别,为计算机信息检索、搜索引擎、信息抽取、领域本体构建及自然语言处理提供信息支持,更好地推进计算机文本挖掘技术的发展,后续还要进一步提高文本信息挖掘技术的可扩展性,提高术语识别效果的收敛值。
参考文献:
[1]李爱琳.计算机文本信息挖掘技术在网络安全中的应用研究[J].数字通信世界,2020(02):199.
[2]管祥甫,管子涵.计算机文本信息挖掘技术在网络安全中的应用[J].电子技术與软件工程,2019(21):184-185.