黄泽 长沙市雅礼中学
随着互联网的普及和应用,各种各样的信息呈爆炸式的趋势增长,如何对信息进行有效的收集和管理,提高企业的信息利用率成为企业关注的重点问题。现如今,越来越多的企业选择建立企业竞争情报系统的方式收集自身所需的情报信息,因此对系统中的分布式WEB信息存储技术提出了更高的要求。
在WEB信息的压缩存储中主要采用文本压缩技术来实现,这种技术能够利用较少的比特或者字节还表示文本,从而减少在计算机中占用的存储空间。随着互联网技术的发展,信息量逐渐增加,有限的存储空间无法满足无限增长的信息,单方面依靠扩大内存也不是长久之计,因此通过对文本的压缩来实现减少占用空间的方式不失为一个行之有效的好办法。同时,利用此项技术还有利于减少系统输入或者输出管理的开销以及缩短信息延迟。在利用文本压缩技术时,主要的时间花费是在文本编码和解码上面,利用已经压缩文件的大小除以未被压缩文件的大小则能够得到该本文的压缩率。
进行存储文本压缩最大的挑战就是信息存取的随机性,若想在压缩文本中查找某个单词,通常需要将所需单词的所有本文进行解码,可以将较大的文本分割成几个小模块,再逐一寻找。但是随着模块越小,压缩率也就越低。因此,在选择文本压缩方式时,既应该考虑到空间的压缩率,又要注重压缩文档的编码以及解码的速度,尤其是解码的速度更为重要。例如,在企业的竞争情报系统中,将收集到的WEB信息进行存储之后,需要反复操作才能够被读出,影响了企业工作效率。
在现实网络环境中,同样的WEB信息将以不同版本的方式存在,例如新浪网的主页,地址都是新浪网站但每天的内容都在更新。还有些网站中的信息被以不同人的需要拷贝走进行更改,因此形成了多种多样的版本。因此,如何对这些大同小异的WEB信息进行管理成为分布式WEN信息存储系统中的主要难题。
分布式共享存储系统是分布式海量存储系统中的副本管理系统,它能够根据文件受欢迎的程度进行动态的管理,当其所管理的某个文件的点击频率超过设置的阈值时,则会自动生成副本,从而实现降低访问延迟以及平衡负载的目的。
负载平衡能够有效提升分布式WEB信息系统的整体性能,平衡策略设计的质量与分布式存储系统的存储均衡程度息息相关。设计质量较差的策略算法会给系统的负载带来较大不利影响,甚至会导致负载失衡。在选择均衡算法的同时,应根据算法本身的适用环境和特点,可以结合不同算法和技术来使用。
2.1.1 轮询法
每个部分在任务队列节点中都具有相同的地位,轮询法能够实现将这些组成部分进行顺序轮转选择。在负载平衡的条件下,算法将会将新的请求轮流传达给节点队列中的一点节点,然后进行顺序轮转,如此反复下去,使得每个节点在轮转中都具有相同的地位参与其中。在轮询法中,假如有N个节点,则每个节点被选中的几率为N/1,因此较为容易算出节点的负载分布情况,也是操作性最强的一种方法。
2.1.2 最少连接法
在最少连接法中,主要是记录一些目前来看最活跃的连接,将新的请求传达给目前含有最少连接数的节点。这种算法主要应用于TCP连接,但是受网络延迟等因素的制约,将会产生当前连接数与实际反映应用负载不相符的情况,这主要是由于没有注重节点性能和请求强度的原因导致,使得平衡负载的效果明显降低。为了避免这个弊端的出现,应设置最大的连接数上限。
2.1.3 散列法
散列法是指按照一定的规则,利用单向性的函数将节点分配出去,但是在WEB信息量较大的情况下时,承担计算任务的每个Hash函数值的负担都比较重。
在负载平衡的WEB数据分布式模型体系中包含多个存储节点主机,每个主机都代表着网络“家族”中的一员,并且以单独的形式存在,具有单独的存储空间,能够动态的加入或者退出。在此模型中,能够在网络中各存储节点的空间磁盘中,建立一个大型的存储池,使得用户可以在全局空间内自由搜索自己所需的WEB信息,从而真正实现存储空间的分布式共享。同时,利用管理服务器能够对各个存储节点进行动态的信息表管理,当用户发送存储请求时,管理服务器中采用的负载平衡算法将能够实现各节点之间的动态分配。
虽然管理服务器中的功能多样,但是不能够对任何WEB信息进行保存,所有的WEB信息都放置在存储节点当中,并且另外配备一个备份服务器可以避免管理服务器突然失效产生不良后果。此外,所有的存储节点信息都在节点信息保存表中进行保存,其中包括节点目前的IP地质、节点状态、节点剩余空间等等。信息表的存在主要是为了能够维护一个完整的系统拓扑结构,根据节点的加入和推出不停的更新节点状态,从而保障其同步和有效。当对企业竞争情报系统中的其他模块发送存储请求时,应在存储节点信息表中进行查询,获得适应的节点集,再利用轮询法进行计算,从而获得最适宜的存储节点进行存储后更新WEB信息表。
综上所述,随着互联网中涵盖的商业信息量的增加,部分企业为了能够在激烈的市场竞争中抢得先机,都纷纷加强与互联网的融合,建立企业竞争情报系统。本文从分布式WEB信息存储关键技术方面对其进行分析,构建企业竞争情报系统应用模型,为企业提供更多可拓展、高效率的海量存储服务。
[1]许崇龙.分布式WEB信息存储关键技术研究[D].哈尔滨工业大学,2012.
[2]李韧.基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D].重庆大学,2013.