闪存数据库磨损均衡控制中数据元模型设计研究

2015-10-11 07:07
铜仁学院学报 2015年4期
关键词:信息库词条词频

胡 萍

(铜仁学院 信息工程学院,贵州 铜仁 554300 )

闪存数据库磨损均衡控制中数据元模型设计研究

胡萍

(铜仁学院 信息工程学院,贵州 铜仁 554300 )

Web闪存数据库磨损数据元是信息提取与优化研究的重要内容。本文主要从闪存数据库磨损切分技术和磨损特征提取与特征表示两方面入手,对最大闪存磨损匹配法和闪存磨损向量空间模型(VSM)进行研究改进,以实现闪存磨损均衡控制中数据元模型的优化设计。

闪存数据库;磨损;均衡控制;数据元

1.前言

随着信息技术的发展,Web数据信息的利用率越来越高,越来越多团体、机构和个人利用Web路径获取信息。从Web自身特点看,其具有动态化、无结构的特点。因此人们在通过Web获取信息的过程中,很难准确得到,有时像大海捞针一样。为解决这一问题,需要Web技术和数据元技术结合在一起,对闪存数据库磨损数据信息进行优化提取,提高数据信息获取效率。

从目前看,人们对数据信息的数据元越来越重视。因 Internet呈现数据信息的多样化,一个 Web数据信息里面包括多种数据类型,比如文章、词汇、数据、歌词、数字图书馆、新闻报道、微博、邮件等。对此类非结构化的数据信息挖掘非常重要,此类数据信息的信息源都是数据元。数据元在Web系统中表达了丰富的数据信息,同时也包含了很多文本信息之外的知识。面对丰富多彩的数据信息,传统文本数据信息提取方式无法满足需求,需要通过Web技术和数据元工具结合在一起,满足用户数据信息获取需要。

2.Web闪存数据库磨损数据元

Web闪存数据库磨损数据元是信息提取与优化研究的重要内容,可以发现Web中各种数据信息知识。Web闪存数据库磨损数据元主要利用一些智能算法对数据信息进行优化,主要包括案例推理算法、蜂群算法、神经网络、可能性推理等。把此类算法和数据元提取技术结合在一起,对大量非结构化数据信息进行优化,建立关键词和文字之间的关系,同时对文档内容进行分类,满足不同用户需求,提取有价值的闪存数据库磨损。Web闪存数据库磨损数据元流程设计如图1所示。

通过Web闪存数据库磨损数据元过程分析,可以对文本数据信息进行初步提取。因此Web闪存数据库磨损数据信息优化预处理流程设计如图2所示。

3.Web闪存数据库磨损切分技术

Web闪存数据库磨损数据信息特征提取过程中,需要对闪存数据库磨损数据信息进行预处理,主要是对的词条进行模式优化,实现对的词条切分。

闪存数据库磨损切分过程中,需要对中文句子中各个分隔符进行分析;设计过程中需要对词频进行计算。分词在计算过程中需要从分隔符开始,在各个文本之间加上相应的分隔符,保证文本数据信息符合数据元格式要求。闪存数据库磨损数据信息处理过程中需要从连续和离散两种形式出发。

图1 Web闪存数据库磨损数据元流程设计

图2 Web闪存数据库磨损数据信息的预处理

Web闪存数据库磨损数据信息处理领域,需要对中文自动分词设计方法进行研究,提出了一种闪存数据库磨损分词方法。通过对最大分词匹配算法的研究,可以优化数据信息数据元。最大闪存数据库磨损匹配法的思想有:从中文数据信息流中取最大字符串(本文取8个字符串),在Web中文字典中查找,如果匹配成功产生数据输出,继续进行数据信息提取,获取后返回,继续在文本中查找,直到数据信息的长度为1,此种情况下需要在输入流中前进一格,直到整个数据信息流输入完毕。

通过对此算法进行分析,可以看出需要不断地进行数据库访问,导致数据信息提取效率低下。现对方法进行以下改进:

Step1:对闪存数据库磨损数据信息库建索引,并且把数据信息输入到相应的字符串fstr中。

Step2:按照数据元设计方法,在数据信息记录集rs中进行数据信息匹配,确保数据信息匹配能够进行合理搭配,进入输入流进行移动。

Step3:按照最大匹配算法,在记录集rs中进行数据信息匹配,按照数据信息集的要求进行匹配,产生相应输入流进行流动。

Step4:重复第二步,输入流结束之后,整个循环退出。

面向Web闪存数据库磨损分词算法分割的因素中,需要对信息库进行优化,信息库对整个数据元分解会产生重要的影响。

闪存数据库磨损主要是针对Web文档,有的时候是计算机文档。技术文档需要对其特征进行综合分析,识别专业词汇,因此不需要对普通词汇进行词频统计和切分。系统设计过程中需要解决系统运行效率和实时性问题,需要避免大型通用词典的使用,需要建立相应的专业词条库,对Web文本进行切分。专业词典设计过程中需要利用本领域的词条,比如说“虽然”、“的”、“但是”等。

4.Web闪存数据库磨损特征提取与特征表示

Web闪存数据库磨损特征提取需要对每个特征项进行分析,特征项可以代表文档,用词条或者描述方式进行分析。特征项处理过程中可以采取文本分类和聚类模式处理,实现对非结构化Web闪存数据库磨损进行处理。系统设计中聚类和分类是核心,Web闪存数据库磨损数据信息提取算法的优劣对文档聚类和分类会产生直接的效果。Web闪存数据库磨损特征提取模型有多种,常见的有概率型、布尔逻辑型、向量空间型等。本文将对向量空间模型(VSM)进行研究。

Web闪存数据库磨损的优点可实现文本内容的转化,最终通过数学手段对向量进行表述,按照各种相似预算的规则进行计算,保证闪存数据库磨损排序成为可能。闪存数据库磨损检索、文本摘要提取、文本过滤都会用到文本向量,当前已经取得良好效果。

Web闪存数据库磨损向量空间模型设计中需要对词间关系进行设定,形成正交假设,此种方式在实际处理中很难满足多样性文本需求,因此文本中各种词之间存在相关性,即会出现“斜交”现象。比如说“电脑”、“微机”、“计算机”三个词可以表示成一个概念。如果不能从这个角度进行词条分析,那么提取过程中会造成特征不明显现象,甚至出现特征集庞大的问题。Web闪存数据库磨损信息提取过程中为了解决语言多样性问题,需要在信息库上进行设置。

Web闪存数据库磨损提取过程中设置 3个信息库,分别为同义词信息库、主词信息库、蕴含信息库,同时需要对信息库词频进行统计,根据词频特征进行信息提取,按照主词信息库中词条进行信息优化。词条频率统计公式为:

其中Tf表示信息库中主词条f的词频;TM f表示信息库中主词条f的词频权值;TTfi表示信息库中同义词条f的词频权值,通过设计其共有m1个同义词;TIfi表示信息库中蕴含词条f的词频权值,通过设计其共有m2个蕴含词; e表示加权值。该公式表示Web中文词条在数据文档中出现的频数由三部分之和组成,即为同义词词条、主词条、蕴含词词条三个部分词频数的权值相加获取。

在VSM中,将文本文档视为由一组词条(T1,T2,……,Tn)构成,每一词条都赋以一定的权值Wi,通过对Web闪存数据库磨损文档数据映射,可以对某一个组词的矢量结构进行分析,同时产生相应的向量空间。Web闪存数据库磨损匹配过程中需要对向量空间进行处理,确保向量空间符合数据元信息优化的要求。

Web闪存数据库磨损设计中需要对词、词组、短语进行分析,形成文档的基本元素,确保元素在中文文档中出现的频率具有规律性,以适应Web文档特征项的要求。Web文档中不同的词条在文档中表示不同的功能,比如“的”、“和”等虚词在文档中出现的频数较多,而稀有词在整个训练文档中出现的次数很少,这些词在文档中计算频数是有一定难度的,通常把其称为不确定特征项,设计系统时把其滤除。

[1] 汤显,孟小峰,梁智超,卢泽萍.基于代价的闪存数据库缓冲区置换算法[J].软件学报,2011,22(12):2951-2964.

[2] 邢玉钢,王曼丽,王翰虎,陈梅.基于列式存储的闪存数据库查询优化策略[J].计算机技术与发展,2011,21(12):131-134.

[3] 鲍程锋,杨小虎.基于影子页面和混合日志的MMDB恢复方法[J].计算机工程与设计,2011,32(7):2373-2376.

[4] 邵璐,费洪晓.内存数据库技术在移动实时累加系统中的应用[J].计算机系统应用,2011,20(8):169-173.

[5] 邢玉钢,王翰虎,马丹,陈梅.一种改进的闪存数据库Sort-Merge-Join算法[J].计算机应用研究,2012,29(2):614-616,620.

Research on Design of Data Element Model in Flash Memory Database Wear Balanced Control

HU Ping
( School of Information, Tongren University, Tongren, Guizhou 554300, China )

Web flash memory database wear data element is the important content of research on information extraction and optimization. From two aspects: flash memory database wear segmentation technology and wear characteristic extraction and characteristic presentation, research is made on maximum flash memory wear matching method and flash memory wear vector space model (VSM) to optimize the data element model in flash memory database wear balanced control.

flash memory database,wear,balanced control,data element

TP301

A

1673-9639 (2015) 04-0114-03

(责任编辑 毛志)(责任校对 徐松金)(英文编辑 田兴斌)

2014-12-12

胡萍(1983-),女,贵州江口人,讲师,硕士,研究方向:闪存数据库、计算机应用技术。

猜你喜欢
信息库词条词频
利用简单的公式快速分隔中英文词条
借助BIM构建动态造价信息库的新思路
基于普元EOS平台的信息库的设计与实现
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*