利用VB读取中国知网过刊数据提取元数据的研究

2016-05-18 10:40杨海亮林清华付示威
电脑知识与技术 2016年9期
关键词:中国知网元数据

杨海亮++林清华++付示威

摘 要:元数据的提取和发布为网刊发布工作中的重要内容。为实现自动提取元数据功能,该文以中国知网提供的自定义文本数据为对象,建立了提取元数据的数学模型,同时提出尾部分割算法。然后利用基于对象的VB编程软件编写了自动提取元数据程序。在分析了中国知网数据的特点之后,建立了分割关键词的列表文件,最后将提取的元数据保存到Excel文件中。实际应用表明,仅几秒钟就可以完成一次数据的提取工作,一次提取可以是1年的数据也可以使十几年的数据,在完善过刊信息的工作中提供了很大的作用。

关键词:网刊发布系统;元数据;中国知网;VB;自动提取

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)09-0090-03

在国内,绝大部分读者是从期刊网站获取期刊全文,进而进行引用的。因此,期刊建立自己的官方网站,为读者提供论文检索、数据核对、实现在线出版,对扩大期刊的影响力和传播力至关重要[1]。网刊发布系统为期刊建立一个实现现刊和过刊的浏览、查询等功能的网刊数据提供了技术平台[2-3]。以此为基础,建设期刊自己的网站时,需要对期刊数据进行网刊发布,对于一般编辑部来说,历史期刊,有的只是纸质的,需要对历史期刊电子化,转化为电子版的期刊还需要进一步进行元数据的提取工作[4-8]。

一般来说,各个编辑部在发布网刊工作中都是采用手工粘贴拷贝的方式。这种方式不仅工作量很大,而且数据质量很低。另外,由于手工制作的工作量[9],导致了网站建设要么耗时很长、要么需要大量人力或物力。因此本文基于对象的VB语言编程软件,编写了能够批量提取元数据的程序,采用模式识别智能算法[10-11],从大型数据库[12]提供的信息中准确提取本期所有文章的元数据,并形成可直接发布到网刊系统上的Excel文件,大幅度提高工作效率。

5 结束语

在期刊数字化的工作中,对于很多新建网站的杂志社来说,有两部分工作:最新1期的元数据提取;历史期刊的元数据提取。对于很多期刊来说历史期刊的数据都已经不全了,因此通过大型数据库来完善网站的过刊数据成为比较可行的途径之一。通过本文实现的程序可以对1年的过刊数据甚至几十年的过刊数据一次性进行提取操作,工作效率大幅提升。

但是中国知网上的数据更新比杂志社期刊出版要延时约2个月,而且网刊发布系统中要求有的元数据有32项,而中国知网提供的仅有12项,所以本文方法并不适合使用在最新一期的元数据提取工作上。下一步工作重点研究对最新一期的排版数据进行元数据的提取上。

参考文献:

[1] 闫蓓,严谨,肖宏.搭建科学与大众的桥梁:谈科技期刊与大众媒体的新闻报道合作实践[J].编辑学报, 2009,21(4): 325-327

[2] 吉玉珠,胡兵.我国学术期刊数字化建设的分析与思考[J].图书与情报,2003(3):33-35.

[3] 张科,王景发.期刊网络采编系统研发及系统功能分析[J].自动化数字化网络化,2008(4):72-76.

[4] 洪鸥,姜春明,陈海清.上海市高校科技期刊数字出版现状及分析[J].学报编辑论丛,2011:172-176.

[5] 丁岩,吴惠勤,龙秀芬等.科技期刊数字化出版转型初探[J]. 编辑学报, 2011, 23 (sup1):3-6.

[6] 林有兴.关于促进科技期刊高效传播科技信息的思考[J].编辑学报, 2005,17(3): 165-166.

[7] 郑筱梅, 杨小玲. 期刊网络化趋势及科技期刊应对策略[J]. 编辑学报, 2009,21(1): 64-66.

[8] 孙远,朱晓红,喻伟.网络环境下科技期刊数字化建设初探[J]. 人民长江,2009,40(4):102-103.

[9] 洪鸥,姜春明,王宁.高校学报自然科学版网络出版现状[J].调查与思考,2014,25(7):895-901.

[10] 刘晓华.非计算机专业VB程序设计教学探讨[J]. 创新教育,2011(38):135-137.

[11] 刘杰华,杨雁.基于VB 界面的期刊数据库管理系统设计[J].计算机与数字工程, 2005, 33(2):127-128.

[12] 孔毅.万方数据资源系统与中国知网数据库对比分析[J].图书情报工作,2010(sup2):342-347.

猜你喜欢
中国知网元数据
AMLC与PSDS检测医学论文重复率结果分析