教育资源服务下海量云存储优化机制的研究

2014-09-25 00:18黄石华卢珍菊李晓乐李海茗
中国教育信息化·高教职教 2014年7期
关键词:聚类分析

黄石华+卢珍菊+李晓乐+李海茗

摘 要:目前教育资源的数据量以爆发式增长,导致教育资源服务面临着海量数据管理困难、数据存储成本高、响应速度慢等难题。本文尝试从教育资源数据访问特性的角度出发,采用基于模糊c均值的聚类算法,建构相应的教育云存储的副本管理策略,以此来优化云存储的存储机制,从而提高教育资源的服务效率与质量。

关键词:教育云存储;聚类分析;副本管理策略

中图分类号:TP315 文献标志码:A 文章编号:1673-8454(2014)13-0034-03

一、引言

提供快速、高效的教育资源服务一直是教育公共服务平台追求的目标。早在2010年7月,教育部发布的《国家中长期教育改革和发展规划纲要(2010-2020年)》(公开征求意见稿)中就明确提出,“要建立开放灵活的教育资源公共服务平台,促进优质教育资源普及共享”。而在当今21世纪的信息时代,信息技术得到了飞速发展,如何应用信息技术提高教育资源服务的效率与质量,进而加快我国教育信息化进程是我国教育发展规划中的一个重要命题。

随着教育信息化进程的不断深入,教学模式、教学内容、教学方法也以多样化的形式发展,但随之而来教育资源的数据量也会以几何级数增长,导致教育资源服务面临着海量数据管理困难、数据存储成本高、响应速度慢等难题。而随着云计算的出现,其提供的云存储是一个易于扩展的、虚拟化的存储资源池,可以向用户提供海量的信息存储,使国内外有关教育存储的学者将研究的视角转移到云存储领域当中。但他们更多关注的是如何把云计算技术移植到教育领域中,忽略了教育资源本身具有的特性,如强交互性、多态性、个性化等特点,而现有云计算提供通用的存储机制难以满足这些教育特殊性的需求。因此,如何结合教育资源自身的特点对云存储的存储机制进行优化则成为现代教育资源服务技术迫切需要解决的重点问题之一。本文尝试从教育资源数据访问特性的角度出发,采用基于模糊c均值的聚类算法,建构相应的教育云存储的副本管理策略,以此来优化云存储的存储机制,从而提高教育资源的服务效率与质量。

二、相关研究

1.云环境下的副本管理策略研究

海量数据的存储与管理不仅给资源管理与调度带来了挑战,对副本管理也提出了新的要求,良好的副本管理策略不仅可以有效地提高海量数据处理平台的性能,也能有效地保障数据的可靠性,提高数据可用性和可扩展性。为了提升云存储系统的效率与性能,许多学者都在关注副本机制的研究。YIJIE WANG等[1]对分布式系统中的数据副本技术提出了间接副本算法,可以减少副本重复存储和存储开销,使存储系统的持久性和安全性提高。Mohamed Y.Eltabkh[2]等针对Hadoop缺少对同一组节点协同定位相关数据的能力,提出了CoHadoop的数据放置策略。魏青松[3]等提出了一种旨在用最小的代价获得最高的效益,同时提高云存储性能和负载平衡的CDRM模型。许信等[4]提出了一种面向可靠性副本管理策略,该策略将副本放置的过程分为副本初次放置与自适应放置,在初次放置时主要考虑节点的存储剩余空间、当前QoS负载Load、失效次数、历史访问次数等参数,从而得到副本放置倾向度,然后选择倾向度最高的节点进行放置。熊润群等[5]提出了基于QoS偏好感知的副本选择策略,该策略使用了层次分析法建立了副本选择的三维QoS模型,并使用模糊综合法对节点进行综合评价,最终得到具有最高QoS满意度的副本节点,来为各类个体服务质量敏感的用户提供合理的副本策略。可以看出,许多学者提出的云存储优化机制,通常都使用了副本技术。副本技术是云存储系统的关键技术之一,通过研究对数据副本进行合理的管理,可以改进客户访问数据的性能,加快各种服务的反应时间,同时还可以平衡系统的负载。但以上提出的存储优化方案缺少领域的针对性,目前结合教育资源特性来优化云存储的研究还比较少,也缺乏相关的实践验证。

2.数据访问模式的研究

随着资源越来越数字化与网络化,使资源的数据访问模式得到越来越多的关注,许多研究开始关注资源数据访问特性来提高资源服务质量,包括资源的重用性、相似性、聚集性、生存性等特性。Francisco等[6]对校园的移动无线用户聚集现象进行了统计,经过分析发现对于无线接入来说13%的网站占据了70%的访问量,而且当地理位置比较接近的用户更有可能查询相同数据,对于出现这种现象的环境具有查询和信息的空间聚集性。HUANG Lan等[7]基于Hadoop框架从web日志数据中提取用户信息,进而分析用户的访问行为,这是云存储中考虑用户访问模式的一个重要研究。吴俊杰[8]等对数据访问的重用性、相似性与亲和性这三种特性进行分析与优化,并基于这三种特性提出一种层次存储的访问分析与优化方法,这是考虑解决存储墙问题的一个重要研究。李梦源[9]等从用户体验质量的角度,分析云环境下用户访问服务的行为,利用其访问服务的偏好性,提出基于用户行为特征的服务选择策略,在保证较高性能的同时也提高了云服务的质量。根据以上分析,可以看出目前的数据访问模式很少有结合云存储技术进行研究的,即使有,也并没有明确地提出一个提高云存储效率的解决方案。

综上所述,国内外对海量资源优化、功能服务的研究重点是满足通用性需求,但目前满足教育领域资源云服务需要的研究比较少见,而结合教育资源数据访问模式研究云存储优化策略更是少见。为此,探究如何结合教育资源自身的特点对云存储的存储机制进行优化则成为现代教育资源服务技术关注的研究热点之一。

三、基于教育资源数据访问特性的云存储优化策略的设计

本文提出的基于教育资源数据访问特性的云存储优化策略的设计主要有两个步骤:第一个步骤是先要对教育资源数据访问特性进行优化;第二个步骤是对教育资源副本管理策略进行优化。其中,对教育资源数据访问特性的优化结果是副本管理策略优化的基础,其存储优化的框架如图1所示。endprint

1.基于模糊聚类算法的教育资源数据访问特性优化策略的设计

教育资源的数据访问模式与一般的科学计算的数据访问模式有所不同,它属于多属性的访问模式,因为每个教育资源都有与之对应的元数据记录,该元数据在用户创建文件上传时,就描述了对应文件的属性,而每个属性都可以作为数据访问的一个特性。通过分析教育数据访问特性,发现影响数据访问较大的特性有:一是数据的访问量(聚集性);二是数据访问的生存周期(生存性)。为了体现教育用户对教育资源需求是多方面的,利用模糊聚类技术对用户的数据访问进行聚类,就可以很好地体现用户需求多兴趣大的特点,在进行聚类分析的时候能够得到更有效的聚类结果。本文通过采用基于模糊c均值的聚类算法对这两个访问特性进行分析与优化设计,并依据该优化策略结合副本管理策略来对云存储机制进行优化。其基于模糊c均值的聚类算法对数据访问特性优化算法的设计如下:

(1)根据相应的教育资源标准分类法对教育资源进行分类,如本文采用中图法对教育资源进行分类。

(2)分析和统计资源数据访问量和访问的生存周期,结合教育资源的分类,生成用户数据访问向量表,如表1所示。由此得到资源分类的向量:Ui=(Wi1,Wi2,…,Wik,…Win),其中,Wik表示用户Ui对某种资源第K类的需求强度,n表示某种资源的类别总数,且■nk=1Wik=1,其需求强度Wik=Wv×V+Wt×T,Wv代表第K类资源的用户数据访问量的权重,V代表第K类资源的用户数据访问次数,Wt代表第K类资源的用户数据访问的生存周期的权重,T代表第K类资源的用户数据访问生存周期。

(3)相似用户的聚类计算,使用模糊c均值算法(FCM)对相似用户进行计算,输入参数为:聚类数目c和用户数据访问向量表。其输出结果:用户在各聚类中的隶属度和各聚类的聚类中心,从而可以获得各资源类别的热度文件。

通过以上算法设计,就可以对数据访问特性进行优化,从而为下面云存储副本管理策略优化提供优化条件的依据。

2.云存储副本管理策略优化的设计

根据上述数据访问特性优化获得各资源类别的热度文件,结合引入副本池对云存储副本管理策略进行优化。引入副本池,可以有效地提高用户的访问热点文件的传输质量。本文的副本管理策略设计主要是由副本创建策略和空间替换策略组成。副本创建策略主要是为了保证副本池中存在用户访问的热度文件副本,而空间替换策略主要是为了新到的副本创建请求提供存储空间。其算法设计流程如下:

(1)定义副本池的更新周期和副本池热度文件的生命周期。更新周期的赋值主要通过判断新的热度文件是否达到一定量来衡量。

(2)判断是否达到副本池的更新周期,若不达到,则跳至(5);若达到,则根据前面数据访问特性优化得到的用户向量值,将本次更新周期的副本池的各类热度文件与上一次更新周期的各类热度文件做比较,选择出新的热度文件加入副本池的文件,并将这些文件设为文件集N。

(3)判断副本池中副本存储空间文件集N的存储空间大小,设副本池的可用空间大小为SE,文件集N所需的存储空间大小为SN。若没有,则跳至(4),若有,循环文件集N中的每一个热度文件,获取每一个请求创建副本的热度文件,选择相应的资源类别的服务节点Si,然后通过副本定位服务,找到该文件的存储位置,然后通过空间替换策略,在副本池中创建该热度文件副本。

(4)选择一个最长时间没有副本更新的节点,采用LRU的方法删除该节点中旧的副本,并更新副本池中可用存储空间的大小SE。如果SE

(5)判断服务器资源的使用情况,对服务器处于低能耗的时间内,执行该步骤:对已达到生命周期的热度文件进行删除,以释放副本池的存储空间,并返回副本池,可用存储空间大小为SE。

通过以上优化设计,可有效云存储的各类资源节点得到充分利用,优化云存储的服务调度。

四、结束语

教育云存储机制的优化是教育公共资源高度共享和资源的有效利用的关键技术之一,它一直是教育信息化发展的主要研究内容和研究方向。本文尝试从教育资源数据访问特性的角度出发,采用基于模糊c均值的聚类算法,建构相应的教育云存储的副本管理策略,以此来优化云存储的存储机制。实验表明该方法可以有效地控制数据存储成本,同时也提高了用户访问的响应速度,从而提高教育资源的服务效率与质量。

参考文献:

[1]YIJIE WANG, SIJUN LI. Research and Performance Evaluation of Data Replication Technology in Distributed Storage Systems. In 2006 Computers and Mathematics with Applications,pages 1625-1632,2006.

[2]Giuseppe De Candia,Deniz Hastorun,Madan Jampani,Gunavardhan Kakulapati,Avinash Lakshman,Alex Pilchin, PeterVosshall, Werner Vogels. Swaminathan Svasubramanian.Dynamo:Amazons Highly Available Key-value Store[C].SOSP07,October 14-17,2007.

[3]Qingsong Wei,Bharadwaj Veeravalli,Bozhao Gong,etc.CDRM:A Cost-effective Dynamic Replication Management Scheme for Cloud Storage Cluster[C].2010 IEEE International Conference on Cluster Computing.

[4]许信.云存储系统服务质量控制与可靠性技术研究[D].浙江大学,2011.1.

[5]熊润群,罗军舟,宋爱波,金嘉晖.云计算环境下QoS偏好感知的副本选择策略[J].通信学报,2011(7):32,93-102.

[6]Francisco Chinchilla, Mark Lindsey, Maria Papadopouli. Analysis of Wireless Information Locality and Association Patterns in a Campus. In IEEE,2004.

[7]HUANG Lan,WANG Xiao-wei, ZHAI Yan-dong, YANG Bin.Extraction of User Profile Based on the Hadoop Framework.In IEEE,2009.

[8]吴俊杰.层次存储的访问分析与优化方法研究[D].国防科学技术大学,2009.9.

[9]李梦源,刘宴兵,肖云鹏.云计算下用户行为特征的服务选择策略[J].重庆邮电大学学报(自然科学版).2013(5):639-643.

(编辑:王天鹏)

1.基于模糊聚类算法的教育资源数据访问特性优化策略的设计

教育资源的数据访问模式与一般的科学计算的数据访问模式有所不同,它属于多属性的访问模式,因为每个教育资源都有与之对应的元数据记录,该元数据在用户创建文件上传时,就描述了对应文件的属性,而每个属性都可以作为数据访问的一个特性。通过分析教育数据访问特性,发现影响数据访问较大的特性有:一是数据的访问量(聚集性);二是数据访问的生存周期(生存性)。为了体现教育用户对教育资源需求是多方面的,利用模糊聚类技术对用户的数据访问进行聚类,就可以很好地体现用户需求多兴趣大的特点,在进行聚类分析的时候能够得到更有效的聚类结果。本文通过采用基于模糊c均值的聚类算法对这两个访问特性进行分析与优化设计,并依据该优化策略结合副本管理策略来对云存储机制进行优化。其基于模糊c均值的聚类算法对数据访问特性优化算法的设计如下:

(1)根据相应的教育资源标准分类法对教育资源进行分类,如本文采用中图法对教育资源进行分类。

(2)分析和统计资源数据访问量和访问的生存周期,结合教育资源的分类,生成用户数据访问向量表,如表1所示。由此得到资源分类的向量:Ui=(Wi1,Wi2,…,Wik,…Win),其中,Wik表示用户Ui对某种资源第K类的需求强度,n表示某种资源的类别总数,且■nk=1Wik=1,其需求强度Wik=Wv×V+Wt×T,Wv代表第K类资源的用户数据访问量的权重,V代表第K类资源的用户数据访问次数,Wt代表第K类资源的用户数据访问的生存周期的权重,T代表第K类资源的用户数据访问生存周期。

(3)相似用户的聚类计算,使用模糊c均值算法(FCM)对相似用户进行计算,输入参数为:聚类数目c和用户数据访问向量表。其输出结果:用户在各聚类中的隶属度和各聚类的聚类中心,从而可以获得各资源类别的热度文件。

通过以上算法设计,就可以对数据访问特性进行优化,从而为下面云存储副本管理策略优化提供优化条件的依据。

2.云存储副本管理策略优化的设计

根据上述数据访问特性优化获得各资源类别的热度文件,结合引入副本池对云存储副本管理策略进行优化。引入副本池,可以有效地提高用户的访问热点文件的传输质量。本文的副本管理策略设计主要是由副本创建策略和空间替换策略组成。副本创建策略主要是为了保证副本池中存在用户访问的热度文件副本,而空间替换策略主要是为了新到的副本创建请求提供存储空间。其算法设计流程如下:

(1)定义副本池的更新周期和副本池热度文件的生命周期。更新周期的赋值主要通过判断新的热度文件是否达到一定量来衡量。

(2)判断是否达到副本池的更新周期,若不达到,则跳至(5);若达到,则根据前面数据访问特性优化得到的用户向量值,将本次更新周期的副本池的各类热度文件与上一次更新周期的各类热度文件做比较,选择出新的热度文件加入副本池的文件,并将这些文件设为文件集N。

(3)判断副本池中副本存储空间文件集N的存储空间大小,设副本池的可用空间大小为SE,文件集N所需的存储空间大小为SN。若没有,则跳至(4),若有,循环文件集N中的每一个热度文件,获取每一个请求创建副本的热度文件,选择相应的资源类别的服务节点Si,然后通过副本定位服务,找到该文件的存储位置,然后通过空间替换策略,在副本池中创建该热度文件副本。

(4)选择一个最长时间没有副本更新的节点,采用LRU的方法删除该节点中旧的副本,并更新副本池中可用存储空间的大小SE。如果SE

(5)判断服务器资源的使用情况,对服务器处于低能耗的时间内,执行该步骤:对已达到生命周期的热度文件进行删除,以释放副本池的存储空间,并返回副本池,可用存储空间大小为SE。

通过以上优化设计,可有效云存储的各类资源节点得到充分利用,优化云存储的服务调度。

四、结束语

教育云存储机制的优化是教育公共资源高度共享和资源的有效利用的关键技术之一,它一直是教育信息化发展的主要研究内容和研究方向。本文尝试从教育资源数据访问特性的角度出发,采用基于模糊c均值的聚类算法,建构相应的教育云存储的副本管理策略,以此来优化云存储的存储机制。实验表明该方法可以有效地控制数据存储成本,同时也提高了用户访问的响应速度,从而提高教育资源的服务效率与质量。

参考文献:

[1]YIJIE WANG, SIJUN LI. Research and Performance Evaluation of Data Replication Technology in Distributed Storage Systems. In 2006 Computers and Mathematics with Applications,pages 1625-1632,2006.

[2]Giuseppe De Candia,Deniz Hastorun,Madan Jampani,Gunavardhan Kakulapati,Avinash Lakshman,Alex Pilchin, PeterVosshall, Werner Vogels. Swaminathan Svasubramanian.Dynamo:Amazons Highly Available Key-value Store[C].SOSP07,October 14-17,2007.

[3]Qingsong Wei,Bharadwaj Veeravalli,Bozhao Gong,etc.CDRM:A Cost-effective Dynamic Replication Management Scheme for Cloud Storage Cluster[C].2010 IEEE International Conference on Cluster Computing.

[4]许信.云存储系统服务质量控制与可靠性技术研究[D].浙江大学,2011.1.

[5]熊润群,罗军舟,宋爱波,金嘉晖.云计算环境下QoS偏好感知的副本选择策略[J].通信学报,2011(7):32,93-102.

[6]Francisco Chinchilla, Mark Lindsey, Maria Papadopouli. Analysis of Wireless Information Locality and Association Patterns in a Campus. In IEEE,2004.

[7]HUANG Lan,WANG Xiao-wei, ZHAI Yan-dong, YANG Bin.Extraction of User Profile Based on the Hadoop Framework.In IEEE,2009.

[8]吴俊杰.层次存储的访问分析与优化方法研究[D].国防科学技术大学,2009.9.

[9]李梦源,刘宴兵,肖云鹏.云计算下用户行为特征的服务选择策略[J].重庆邮电大学学报(自然科学版).2013(5):639-643.

(编辑:王天鹏)

1.基于模糊聚类算法的教育资源数据访问特性优化策略的设计

教育资源的数据访问模式与一般的科学计算的数据访问模式有所不同,它属于多属性的访问模式,因为每个教育资源都有与之对应的元数据记录,该元数据在用户创建文件上传时,就描述了对应文件的属性,而每个属性都可以作为数据访问的一个特性。通过分析教育数据访问特性,发现影响数据访问较大的特性有:一是数据的访问量(聚集性);二是数据访问的生存周期(生存性)。为了体现教育用户对教育资源需求是多方面的,利用模糊聚类技术对用户的数据访问进行聚类,就可以很好地体现用户需求多兴趣大的特点,在进行聚类分析的时候能够得到更有效的聚类结果。本文通过采用基于模糊c均值的聚类算法对这两个访问特性进行分析与优化设计,并依据该优化策略结合副本管理策略来对云存储机制进行优化。其基于模糊c均值的聚类算法对数据访问特性优化算法的设计如下:

(1)根据相应的教育资源标准分类法对教育资源进行分类,如本文采用中图法对教育资源进行分类。

(2)分析和统计资源数据访问量和访问的生存周期,结合教育资源的分类,生成用户数据访问向量表,如表1所示。由此得到资源分类的向量:Ui=(Wi1,Wi2,…,Wik,…Win),其中,Wik表示用户Ui对某种资源第K类的需求强度,n表示某种资源的类别总数,且■nk=1Wik=1,其需求强度Wik=Wv×V+Wt×T,Wv代表第K类资源的用户数据访问量的权重,V代表第K类资源的用户数据访问次数,Wt代表第K类资源的用户数据访问的生存周期的权重,T代表第K类资源的用户数据访问生存周期。

(3)相似用户的聚类计算,使用模糊c均值算法(FCM)对相似用户进行计算,输入参数为:聚类数目c和用户数据访问向量表。其输出结果:用户在各聚类中的隶属度和各聚类的聚类中心,从而可以获得各资源类别的热度文件。

通过以上算法设计,就可以对数据访问特性进行优化,从而为下面云存储副本管理策略优化提供优化条件的依据。

2.云存储副本管理策略优化的设计

根据上述数据访问特性优化获得各资源类别的热度文件,结合引入副本池对云存储副本管理策略进行优化。引入副本池,可以有效地提高用户的访问热点文件的传输质量。本文的副本管理策略设计主要是由副本创建策略和空间替换策略组成。副本创建策略主要是为了保证副本池中存在用户访问的热度文件副本,而空间替换策略主要是为了新到的副本创建请求提供存储空间。其算法设计流程如下:

(1)定义副本池的更新周期和副本池热度文件的生命周期。更新周期的赋值主要通过判断新的热度文件是否达到一定量来衡量。

(2)判断是否达到副本池的更新周期,若不达到,则跳至(5);若达到,则根据前面数据访问特性优化得到的用户向量值,将本次更新周期的副本池的各类热度文件与上一次更新周期的各类热度文件做比较,选择出新的热度文件加入副本池的文件,并将这些文件设为文件集N。

(3)判断副本池中副本存储空间文件集N的存储空间大小,设副本池的可用空间大小为SE,文件集N所需的存储空间大小为SN。若没有,则跳至(4),若有,循环文件集N中的每一个热度文件,获取每一个请求创建副本的热度文件,选择相应的资源类别的服务节点Si,然后通过副本定位服务,找到该文件的存储位置,然后通过空间替换策略,在副本池中创建该热度文件副本。

(4)选择一个最长时间没有副本更新的节点,采用LRU的方法删除该节点中旧的副本,并更新副本池中可用存储空间的大小SE。如果SE

(5)判断服务器资源的使用情况,对服务器处于低能耗的时间内,执行该步骤:对已达到生命周期的热度文件进行删除,以释放副本池的存储空间,并返回副本池,可用存储空间大小为SE。

通过以上优化设计,可有效云存储的各类资源节点得到充分利用,优化云存储的服务调度。

四、结束语

教育云存储机制的优化是教育公共资源高度共享和资源的有效利用的关键技术之一,它一直是教育信息化发展的主要研究内容和研究方向。本文尝试从教育资源数据访问特性的角度出发,采用基于模糊c均值的聚类算法,建构相应的教育云存储的副本管理策略,以此来优化云存储的存储机制。实验表明该方法可以有效地控制数据存储成本,同时也提高了用户访问的响应速度,从而提高教育资源的服务效率与质量。

参考文献:

[1]YIJIE WANG, SIJUN LI. Research and Performance Evaluation of Data Replication Technology in Distributed Storage Systems. In 2006 Computers and Mathematics with Applications,pages 1625-1632,2006.

[2]Giuseppe De Candia,Deniz Hastorun,Madan Jampani,Gunavardhan Kakulapati,Avinash Lakshman,Alex Pilchin, PeterVosshall, Werner Vogels. Swaminathan Svasubramanian.Dynamo:Amazons Highly Available Key-value Store[C].SOSP07,October 14-17,2007.

[3]Qingsong Wei,Bharadwaj Veeravalli,Bozhao Gong,etc.CDRM:A Cost-effective Dynamic Replication Management Scheme for Cloud Storage Cluster[C].2010 IEEE International Conference on Cluster Computing.

[4]许信.云存储系统服务质量控制与可靠性技术研究[D].浙江大学,2011.1.

[5]熊润群,罗军舟,宋爱波,金嘉晖.云计算环境下QoS偏好感知的副本选择策略[J].通信学报,2011(7):32,93-102.

[6]Francisco Chinchilla, Mark Lindsey, Maria Papadopouli. Analysis of Wireless Information Locality and Association Patterns in a Campus. In IEEE,2004.

[7]HUANG Lan,WANG Xiao-wei, ZHAI Yan-dong, YANG Bin.Extraction of User Profile Based on the Hadoop Framework.In IEEE,2009.

[8]吴俊杰.层次存储的访问分析与优化方法研究[D].国防科学技术大学,2009.9.

[9]李梦源,刘宴兵,肖云鹏.云计算下用户行为特征的服务选择策略[J].重庆邮电大学学报(自然科学版).2013(5):639-643.

(编辑:王天鹏)

猜你喜欢
聚类分析
浅析聚类分析在郫县烟草卷烟营销方面的应用