大数据时代基于统计特征的情报关键词提取方法

2014-10-09 07:28叶翔
关键词:情报网页词语

叶翔

摘要:伴随着经济的发展,科学技术取得了飞速发展,互联网在各行各业的发展建设中取得了广泛的应用。随着市场经济的变革,消费者、企业和各个经济领域采取多种措施发掘大数据的潜力,随着改革浪潮的逼近,大数据技术取得了广泛的研究和应用。笔者结合多年工作经验,从大数据的含义及特征着手,对大数据时代基于统计特征的情报关键词提取方法做了简单介绍。

关键词:大数据 统计特征 情报关键词 关键词提取 方法

1 大数据的含义及特征

大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。

4 结束语

目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。

参考文献:

[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.

[2]蒋昌金.基于关键词提取的中文网页自动文摘方法研究[D].华南理工大学,2010.

[3]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012.endprint

摘要:伴随着经济的发展,科学技术取得了飞速发展,互联网在各行各业的发展建设中取得了广泛的应用。随着市场经济的变革,消费者、企业和各个经济领域采取多种措施发掘大数据的潜力,随着改革浪潮的逼近,大数据技术取得了广泛的研究和应用。笔者结合多年工作经验,从大数据的含义及特征着手,对大数据时代基于统计特征的情报关键词提取方法做了简单介绍。

关键词:大数据 统计特征 情报关键词 关键词提取 方法

1 大数据的含义及特征

大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。

4 结束语

目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。

参考文献:

[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.

[2]蒋昌金.基于关键词提取的中文网页自动文摘方法研究[D].华南理工大学,2010.

[3]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012.endprint

摘要:伴随着经济的发展,科学技术取得了飞速发展,互联网在各行各业的发展建设中取得了广泛的应用。随着市场经济的变革,消费者、企业和各个经济领域采取多种措施发掘大数据的潜力,随着改革浪潮的逼近,大数据技术取得了广泛的研究和应用。笔者结合多年工作经验,从大数据的含义及特征着手,对大数据时代基于统计特征的情报关键词提取方法做了简单介绍。

关键词:大数据 统计特征 情报关键词 关键词提取 方法

1 大数据的含义及特征

大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。

4 结束语

目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。

参考文献:

[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.

[2]蒋昌金.基于关键词提取的中文网页自动文摘方法研究[D].华南理工大学,2010.

[3]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012.endprint

猜你喜欢
情报网页词语
情报
容易混淆的词语
情报
情报
找词语
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
交接情报
一枚词语一门静