在电子图书馆文献资源优化中应用预测型线性规划及思考

2011-04-26 09:06武汉软件工程职业学院软件技术系武汉430205
图书馆理论与实践 2011年6期
关键词:拷贝约束条件决策

●杨 威 (武汉软件工程职业学院 软件技术系,武汉 430205)

1 问题提出

电子图书馆具有占地小,容量大,维护方便,占用人工少,易管理等诸多优点,其成本也因此而很低。但即便如此,成本问题还是不能完全不考虑。例如图书馆所能容纳的图书总容量是有上限的(仓位问题),每本电子书的版税是按查阅次数计算的(版税计算问题),引入一本书的起始资金(初始投入问题)等。在图书的引进和管理工作中,时常需要进行这样一类决策:在一定的仓位、初始投入、维护人员限制下,引进哪几种图书?拷贝引进量为多少?当图书引进来之后,在管理过程中还要遇到:在人员一定、服务器数量一定、运转维护资金一定的条件下,每个服务器配备多少个拷贝、多少管理人员,才能获得最大的收益?尤其是每本书的查阅数量并不是正态分布的,无法通过计算得出精确的数值,而只能对其进行基于历史数量的预测。也就是说,整个优化的决策过程实际上是具有博弈性质的。在这种情况之下,又该如何作出最优化决策?

2 资源优化若干问题的具体分析

2.1 仓位问题

虽然现代存储方式已经做到了占地面积小,海量存储,但是毕竟做不到无限存储。另一方面,由于载体的现代化,与传统的纸质媒介相比,电子图书馆承载的资料也呈多元化趋势。即使是普通文字资料,为了适应研究需求,也不能仅录入其文本部分。

2.1.1 传统书籍电子版的空间占用问题

传统图书馆的馆藏绝大多数都是书籍、字画等资料,当中的文字部分可以文本形式存储,磁盘占用很小。但是对于各种研究者而言,往往还需要文字以外的信息,尤其是古籍研究,很多时候涉及到字体研究、题跋、批注、纸质、版本演绎等方面,这就需要采用高清扫描件电子书,而这种格式的电子书的容量非常可观。目前的专业扫描仪一般都能达到19200线水平,几乎可以算纤毫必现,但是其文件也非常巨大,一本书的容量都在几十G。而一本58页的《模型世界》普清扫描版,一般仅需要60多M。假设某电子图书馆80万册藏书全是普清扫描版,平均每本书150页,全部装下则需要约117188G容量的硬盘,使用目前市面上流行的1T硬盘需要145块。这还仅仅是将书装入,没有扩展余地。此外图书馆必须能提供连续完整的服务,一般还需要做RAID镜像,于是需要额外再加上145块1T硬盘。以上仅仅只考虑到普清版本,一个好的图书馆,肯定会有相当数量的高清、超高清书籍,如果再考虑到为可持续发展所预留的空间,显然290块硬盘是远远不够的。

2.1.2 多媒体文件的空间占用问题

多媒体文件除了有的非常巨大,还有一个特点就是大小不均匀。有几十G的电影,也有几K的小文件。限于现在的电脑技术,存放大文件的磁盘的格式有限,一般好的管理方法应该是将大小差不多的文件存放在一处,然后通过索引技术对其进行逻辑分类。但图书馆管理中一般却是以内容为基本分类依据。这个问题在读者方面虽然可以通过电子索引技术解决,但是对于管理员却并不方便。一个存放4G左右文件的磁盘可能含有电子书、音频、程序标本等。一旦此硬盘被移动或由于物理原因挂起,则会影响到这些文件各自所在的逻辑群。

2.2 引入成本的问题

电子图书馆引入一本书的成本是很复杂的,这首先应该归咎于目前电子出版物的知识产权保护相关法律法规尚处于起步阶段这一事实。电子在线阅读作为一种新兴传媒有其特殊性。

对于传统纸质图书,一般稿费的计算有几种模式,如按字数付费、版税制等。具体的模式和比例由作者和出版商协商。由于纸质图书的码洋是一个实体,因此比较好计算稿费。而电子图书因为文件可以复制,所以管理一直是个大问题。目前世界上还没有一个比较好的方法能实施完全版权保护。电子图书馆由于是借阅经营,因此一般都采取会员制度和有效期制度,按照不同级别的会员身份在规定的时间内给予其不同的借阅权限,并依次或计时收费。

由于网络出版物传播速度远远高于传统媒体,因此出版时对于作品字数等要求则会更高一些。一般来说10万字以上才有可能签约出版,也才有可能进入图书馆的收藏范围。图书馆为了保证其书籍的合法性并兼顾可操作性,一般会和出版社签订买断协议,即付出一定费用,获得书籍的出借权(具体的协议会在操作中有所不同),这是目前最流行、也是最合理的做法。这个买断的费用,也就是引入成本。

2.3 维持成本

维持成本包括人工费用、设备维护费用、场地维护费用等。人工费用主要是付给工作人员的佣金,设备维护费用包括了设备维修、升级、扩展、耗材等方面,而场地费用则是由地租、场地修缮等费用组成。

一般来说,图书馆是公益性质的,由政府拨付资金和场地。但是电子图书馆现在很多是由私人企业构建,有营利性,因此会收取读者的费用。在核算成本时,一般都把维护成本折算成时间轴上的一个常量以便于计算。

3 基于预测型线性规划的应用

3.1 引入预测型线性规划的原因

线性规划是运筹学中十分常用的一种方法,但普通线性规划并不能满足电子图书馆的需求,因为普通线性规划存在以下几点问题:(1)所谓线性规律,其反映的模型是静止的,即约束条件是静止的,不随时间和环境而变化。这就是很多决策过程中虽然应用了普通线性规划仍然导致失败的根本原因。(2)即使时间和环境并不影响约束方程,但是约束方程中含有灰数,则普通线性规划方法就无法处理这些情况,只能导致失败的结果。(3)虽然定义在凸集上的凸函数理论有解,但在实际工程应用中由于模型的不同而导致的计算技巧、技术存在巨大差异,因此并不是每一个凸函数都一定能将求解过程完成,从而使耗费大量人力物力构建的模型失去其应用价值。

正是由于普通线性规划存在以上这些问题,使其实用性大大降低,只能作为一种理论指导,所以本文试图引入灰色线性规划中的预测型线性规划。

选择预测型线性规划而不是漂移型线性规划的原因是基于对图书馆这一行业的特殊性考虑:读者的借阅种类是多样化的,且其兴趣会随时发生改变,但是不同的行业、教育背景、地域的读者,其借阅趋势又是可统计并预测的。所以预测型线性规划能更好地适应图书馆文献资源优化工作。

预测型线性规划解决的是这样一类问题,如有矩阵约束:

AX≤b,其中A为系数矩阵,X为决策变量,b为约束值。如果b是以时间序列进行描述,则可以对b建立GM(1,1) 模型。这个模型就可以用来对约束值的发展变化进行预测。当对没有发生的约束值进行线性规划求解,则一组约束值就对应一组线性规划解,也就是决策需要的依据。

3.2 一个简化模型实例

下面将以一个实例,简单介绍将预测型线性规划法在电子图书引入策略上的应用。

环境说明:某图书馆经商议,决定2010年引入两本书B1和B2。其中,B1每个拷贝需4元,B2每个拷贝需5元;B1有多种不同文件格式,每个拷贝占用磁盘1—9G不等,B2每个拷贝占用磁盘4G。每年人力成本平均到每个拷贝上,B1为3个单位,B2为10个单位。B1每个拷贝预计能产生700元效益,B2每个拷贝预计能产生1200元效益。现在该图书馆有仓位360G,人力资源300个单位,其前4年在引入同类两本书的初始成本见表:

表 初始成本序列

现在需要规划2010年对于B1和B2两本书的引入策略,使图书馆的收益达到最大化。

这个问题是一个最简单的实例,显然一个图书馆每年引入的图书不会只有两本,这个例子只是为了向读者说明规划的方法。引入更多的书籍拷贝只需要在这个基础上加以递归即可。将目标收益以100元为单位以便于阅读,设f为两种书最后产生的总收入,则:

f=7B 1+12B 2

由上可知,影响决策的约束条件有4项:仓位、人力资源、拷贝引入成本和对每年初始成本的预测。上表可以对每年的初始成本进行灰色预测。仓位约束可以写成:○B 1+4B 2≤360;人力资源约束可以写成:3B 1+10B 2≤300;而拷贝引入成本约束则可以写成:4B 1+5B 2≤b(0),其中,○∈[1,9]。

显然,第一步要做的就是预测2010年在这两本书上的预算值b(0)。这在上表中已有,记做b(0)。对 b(0)做AGO可得b(1)。然后建立GM(1,1) 模型,得约束值 预 测 模 型 为 :b(1)(k+1)=3829.125e0.0442k-3661.125。于是可以得到2010年的预算预测值:b(0)=197.95717≈198(元)。

这个值就是通过灰色理论预测的,带有不确定性。接下来在仓位约束条件中取○~=9,即最大值(每个拷贝占用最大空间)。于是仓位约束就可以表述为9B1+4B2≤360。到此为止进入灰色系统,上述不等式实际上都是灰色的,如拷贝引入成本就没有能表明精确的引入成本,仅仅只是一个通过预测函数得到的上限。显然需要加入松弛变量,从而上述不等式可化为等式:

9B1+4B2+B3=360……①

3B1+10B2+B4=300……②

4B1+5B2+B5=198……③

为了求得f=7B1+12B2的最大值,应增加式中系数较大的决策变量(这里为B2)。根据上面3个不等式可知,在B1≥0条件下,当不考虑B1时,B2满足约束条件,则此时得到的B2肯定为最大值。于是令B1=0,根据上述3个不等式分别可得:

B2≤90;B2≤30;B2≤39.6。显然只有 B2≤30同时满足3个不等式。而B2≤30对应的关系式为3B1+10B2+B4=300,可得B2=30-0.3B1-0.1B4。带入到其他约束方程中可得:

B3=240-7.8B1+0.4B2;B5=48-2.5B1+0.5B4;f=360+3.4B1-1.2B4

我们的任务就是使f尽量大,所以应该增大B1。B1有约束条件,例如上面的B2表达式。由于B2是松弛变量,是灰数,且B4≥0,于是可得:0.3B1+B2≤30。为了使B1尽可能大,于是令B2=0,于是有B1≤100。又根据B3=240-7.8B1+0.4B2可知:B3≥0.4B4。将这个B3-0.4B4看成松弛变量,则最大可能的B1就满足7.8B1≤240,即 B1≤30.76。

这里要说明的是,虽然B3和B4都没有确定,但是我们仍然可以假设B3≥0.4B4,然后在最后的决策中去验证。事实上,B3=B4=0是最优解(当然满足B3≥0.4B4),下面将会看到。

再次考虑B1的约束方程,根据B5=48-2.5B1+0.5 B4,仍然假设B5≥0.4B4,可得B1≤19.2。再将这个条件带入到表达式中,可得f=425.28-0.52B4-1.36B5。显然B4=B5=0可使f最大。在B4=B5=0的条件下,B1=19.2,B2=24.24。

于是可得结论:2010年的B1和B2的初始预算为198元,在这个前提下,最优决策为B1购入拷贝19.2个,B2购入拷贝24.24个。因为拷贝数量为正整数,所以可取B1=19,B2=24。当然也可根据其他因素考虑,各增加1个拷贝。而最大收益则为f=425.28(百元) =42528元。

3.3 进一步分析

因为B4=0,所以说明人力成本得到充分利用,没有浪费。又由于B5=0,则说明每个拷贝的引入成本都产生了价值。但是如果将B1=19.2,B2=24.24代入仓位的约束方程,则有:

9B1+4B2=269.76<360(G)

这说明还有磁盘空间没有用完。这其实是一件好事,多余的空间可以划给其他书籍储藏使用。

从上面的结果看的出来,当每个拷贝的价格增加的时候,应允许B1增大,而B2减小。不过总收益确实是随拷贝单价一起上涨的。

这个例子圆满解决了本文预设的问题,但毕竟是一个简化模型,还有很多约束条件没有涉及到。例如前面提到过的文件大小分类等。而且出于简明目的只考虑了两本书的情况,而实际上很多图书馆一年的进出数量都是上万册,那时只能依靠计算机对约束矩阵进行计算。约束矩阵的列法及解法与本论文并无二致,可直接使用。

4 思考

本文所使用的方法在没有过多人为干扰情况下能很好的完成规划任务。但需要注意的是:方法是死的,情况是多变的。约束条件列得再详细,也可能还是会被具体发展中的变数所击败,从而无法达到预期目标。预测型线性规划本身就是灰色的,可以作为参考,但不能作为绝对的决策依据。预测型线性规划模型的最大优势在于可以根据已有条件对未来的不确定作出一个最稳妥的预测,但其在电子图书馆的文献资源优化中也有局限性:首先,预测型线性规划作出的决策都偏向保守。这是因为其决策依据是建立在对已有数据的线性分析上的,是通过对已有数据的发展趋势来预测未来时刻的情况,然后再将这种预测值作为已知量代入,从而最终决策。但事物的发展趋势未必总是线性的,采用这种方法得出的结果和实际情况还是会有一定的误差,有时甚至会偏离实际曲线很多,造成决策失误。其次,预测型线性规划在分析初期所需要的约束条件越多则决策越精确,成功率越高。但对约束条件本身的分析会加大决策难度。简单来说,事先考虑越细,则约束条件越多,相对应的分析量和计算量则会呈几何级数上升。虽然现在有计算机作为辅助工具,但根据约束条件编制程序的过程本身的难度,已经远远高于计算本身。于是就形成了一个悖论:分析越细则决策越难得出,分析越粗则决策越不可靠。因此只能在分析约束条件时取一个平衡。

本文提出的方法是为了电子图书馆在信息时代能更好地发展。这种新的借阅模式很快将会成为业界的主流,对于其经营者,应该从多个方面细致地考虑馆藏图书的引入和管理。

[1] Panos Constantopoulos,Ingeborg TSolvberg.Research and Advanced Technology for Digital Libraries[M].New York:Springer Publishing House,2001.

[2] Saul IGass.Linear P rogramming[M].New York:Courier Dover Publications,2003.

[3] Lenore Blum,etc.Complexity and real computation[M].NewYork:Spinger-VerlagNewYork,Inc,1997.

[4]白国仲.线性不可微规划:基于可持续发展的决策技术[M].北京:中国社会科学出版社,2008.

猜你喜欢
拷贝约束条件决策
基于一种改进AZSVPWM的满调制度死区约束条件分析
为可持续决策提供依据
决策为什么失误了
唐氏综合征是因为“拷贝”走样了
文化拷贝应该如何“拷”
基于半约束条件下不透水面的遥感提取方法
基于硬盘还原卡的数据传送技术在高校网络机房中的应用
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过
漫话拷贝