零散有存档权PDF文件的采、编、检管理工具

2012-01-29 00:59毛垣生汤乃军郑友红
中国现代教育装备 2012年15期
关键词:文件名全文馆藏

毛垣生 王 宁 常 红 汤乃军 郑友红

1.天津医科大学 天津 300070 2.北京唯博赛科技有限公司 北京 100089

1 研究背景

对于零散的PDF文件进行保存在国内外都是一个难题,图书馆参考咨询部门对此又有强烈的需求。于是我们通过“电子文献网络结构技术”研究,将零散的PDF文件名通过云计算自动采集题录入库,形成PDF文件名对照表。再将PDF文件名按照PMID编号重新命名,将PMID编号重新命名的PDF文件重新入库,建立主关键字索引文件和搜索引擎,实现PDF文件名自动更名、自动分类、自动编辑、时时检索管理工具。

2 项目介绍

要想建立数字资源即采、即编、即检管理系统,首先要解决好知识产权问题。目前电子资源即采、即编、即检管理系统已经成为世界各国十分关注的问题。用户电子资源存档和知识产权问题成为研究的焦点[1]。近年来,许多国际出版社考虑到用户的核心利益,在保护知识产权前提下,允许图书馆在中心馆和专业馆进行不同方式的电子资源存档,作为特殊情况下馆藏使用[2]。特别值得注意的是,很多数据库厂商都授予国内单位数据存档权,在合同中标明在数据库发生故障无法使用时,或者合同到期订购关系终止时,购买单位可以启用电子存档数据。电子资源存档得到出版社的许可,是电子资源进行长期合法保存的关键[3]。

2.1 目前出版社许可的电子资源存档方式

第一种方式:允许用户购买电子资源停定以后,数据库厂商将电子数据库给用户安装在本地进行存档和长期使用,给用户安装所有购买过的数据并允许用户永久使用。

第二种方式:购买电子资源后,数据库厂商提供给用户一套全文光盘进行存档,允许单台计算机上永久使用。

第三种方式:允许用户购买电子资源后,在中心馆或专业馆由用户自己做电子馆藏。还可以提供给用户存档工具,存档数据在订购的数据库发生自然灾害时供给读者使用。

第四种方式:允许用户保存开放获取(OA)电子资源。免费数据库允许用户作为馆藏永久使用。因此用户不仅具有对所购买的电子资源在IP范围内的访问权,还具有永久使用权。

2.2 研发的基本条件和用途

在尊重知识产权的前提下,首先在国际互联网上收集OA电子期刊全文,以及与全文相对应的题录。根据读者零散保存的PDF文件PMID编号,采集PubMed中的Summary题录入库,将文献PDF文件名按照PMID编号进行更名入库,再按照PMID作为主索引字段进行索引,最后在本地发布,提供本地检索查询使用。

研发使用硬件环境:P2.8 G处理器,G内存,500G硬盘。

软件运行环境:WindowsXP,.Net2.0以上,Offi ce2003中的ACCESS数据库。

通过对开放获取和有存档权的医学电子资源进行手工和自动即采、即编、即检管理系统机制的研究,通过医学网络文献结构和自动挖掘方法,以及云计算、自动更名、自动分类、自动发布等技术,进而实现采、编、检一条龙文献馆藏查询系统。

数据使用:平时师生个人、参考咨询部门学习和科学研究;遇到不可抗拒的自然灾害及政治因素等特殊情况导致数字资源终端不能使用时使用;作为数字资源馆藏缴存和战略容灾储备。

3 项目实施

3.1 技术开发思路

由于该系统建设主要采集有存档权的OA医学电子期刊作为图书馆的馆藏,整体设计思路是教师在知道文章出处情况下在本地计算机上查找馆藏,因此以查找为主设计思路。目前采用WindowsXP平台,.NET软件,数据库采用Office Access 2003数据库。随着数据库数据量的增多,可以将数据导入到SQL,ORCL数据库进行编辑、发布使用。因此该系统适合个人以及大、中、小图书馆用来建设医学图书馆电子期刊馆藏使用。

3.2 文献网络结构设计思路

按照PubMed编号对采集的PDF文件名重命名,就可以将不同期刊的电子文档PDF文件命名统一化,用PMID编号作为数据库的唯一主关键字字段。通过云计算和PMID编号在PubMed数据库采集该篇文献的题录信息入库。这样就可以根据题录信息中的刊号、年、卷、期、页、作者、题名、摘要等字段查找文献。由于不同出版社数据库的PDF文件名组织形式各不相同,首先要解决PDF文件名组织形式统一问题,如何将各个出版社和数据库厂商PDF文件名组织形式统一化是解决问题的关键。

如何手工和自动对文件名进行更名?手工对文件更名:将零散下载的文献和文献传递的PDF文件在PubMed中查找到后,每一个PubMed文献都标注了PMID编号,因此很容易按照PMID重新给PDF命名。利用采集工具自动对PDF文件更名,可以利用采集的文献题录库自动给不同编号PDF更名为统一按照PMID编号的PDF文件。

“PubMed中PMID编号自动链接到PDF全文”功能。图书馆大量开放存取文献如果没有人进行整理,全文文件则不能作为图书馆的馆藏。新的读者要索取同一个有存档权的全文文件,只有再发出索取同一个文件的全文传递请求,造成重复传递。而且互联网出口流量增加,需要重复花费文献传递费用,文献传递时间也很长。针对上述问题,在遵守知识产权保护法规的基础上,采用垂直搜索技术,将原始PDF文件的文件名转换PMID编号的PDF文件名,成功地实现了PubMed中PMID编号自动链接到PDF全文功能。

3.3 技术研究路线

第一步,采用手工方法将文献传递来的PDF文件通过Adobe Acrobat打开,在工具栏上选取[文本]工具,选定文章“题名”,将PDF的“题名”转换成文本文件“题名”,核对无误后,将文本文件“题名”复制到剪贴板。再打开“PubMed”,在输入框中粘贴“剪贴板”中的文章“题名”后,点击[GO]按钮,进行“题名”检索。检索到该篇文章,在题录中寻找如:PMID:17615536的编号,将PMID的编号“17615536”复制下来,将PDF的文件名更改为PMID编号的PDF文件名。

第二步,将按PMID更名的PDF文件入库,进行索引倒排,生成按PMID编号PDF文件的搜索引擎。然后进行发布,读者就可以找到的PMID编号文献进行检索,直接下载文献传递过的全文文件,实现馆藏建设。

第三步,考虑如何使用垂直搜索技术实现PubMed中PMID编号自动链接PDF全文功能。首先,分析了手工操作方法在PubMed中找到既有PMID:17615536的编号,又有PDF链接的页面。使用信息采集工具,按既有PMID:17615536的编号,又有PDF链接的页面进行配置共有字段的主键,将PMID:17615536,PDF文件名、文章题名、PDF链接地址链接成一个库。然后进行索引倒排,将PDF文件名用PMID编号成批替换更名后,再按照PMID字段进行索引倒排,生成新的数据库,从而实现PubMed中PMID编号自动链接PDF全文功能。

第四步,读者需要全文传递时,首先在免费的PubMed中进行检索,检索到文章摘要中的PMID编号,将PMID编号输入到可以自动链接PDF全文的检索框中,只输入PMID编号就可以进行全文检索,为读者提供“立等可取”的全文文献提供服务。这个检索查询系统减少了互联网出口流量,节省了有存档权的全文传递的成本,实现了PDF全文本地化建设,增加了图书馆全文馆藏,提高了图书馆文献传递的速度和服务质量。

4 结果讨论

经天津大学、南开大学、天津高等教育文献信息中心、北京大学医学部、北京首都医科大学、中国人民解放军图书馆、中国医学科学院医学信息研究所、武汉大学图书馆、天津医科大学总医院、天津医科大学第二附属医院、天津市人民医院等单位测试或试用得到好评。2011年6月28日通过了天津市高新技术成果转化中心组织的科研成果专家鉴定会。

该成果实现了本地允许保存零散的PDF文件再标引,通过云计算技术实现了对文献题录的时时采集、时时编辑、时时发布,从而达到了即采、即编、即用的理想目标。通过PubMed中PMID编号自动链接PDF,实现允许保存的零散PDF电子资源即采、即编、即检管理系统的馆藏建设。特别适合参考咨询部门保存、管理、查询零散的PDF全文,是一件具有实用价值的软件工具。

5 未来发展

该系统是单机版进而开发网络版文献整合管理工具,目前只适合PubMed收录的期刊进而扩大到OA期刊所有期刊,用同样方法就可以实现理、工、农、医全学科的本地PDF数据采、编、检。

[1] 翟建雄,图书馆馆际互借和文献提供中的版权问题:美国的立法和司法判例介绍[J].法律文献信息与研究,2006(3):1-11.

[2] 翟建雄,信息开放存取中的版权问题及图书馆的对策[J].法律文献信息与研究,2006(4):1-28.

[3] 王少辉,数字馆藏长期保存中的版权问题研究[J].档案管理,2006(5):37-38.

猜你喜欢
文件名全文馆藏
馆藏几件残损《佚目》书画琐记
博物馆的生存之道:馆藏能否变卖?
右键调用多重更名更方便
Excel轻松提取文件名
把我的秘密藏起来
知还印馆藏印选——古印篇
青年再造
发现“西方中医”
反腐
来信