PubMed Central 的数字化出版简介*

2014-03-27 08:51盛晓阳王永武
中国科技期刊研究 2014年2期
关键词:医学期刊生物医学文档

■邹 强 袁 庆 康 林 盛晓阳 王永武

1) 上海交通大学医学院附属新华医院,上海市儿科医学研究所 《临床儿科杂志》编辑部,200092 上海市控江路1665号,E-mail:zooqiang@126.com2) 《中华健康管理学杂志》编辑部,100710 北京东四西大街42号,E-mail: yuanqing@cma.org.cn 3) 《外科研究与新技术》编辑部,200065 上海市普陀区新村路389号,E-mail: wangyongwu993@sohu.com

美国国立医学图书馆(NLM)下属的生物技术信息中心(NCBI),一直以来都是生物医学信息领域内容与技术的领跑者,为生物医学研究提供了大量的信息和各种数据库。PubMed Central(PMC)为NCBI于2000年2月创建的生物医学期刊开放存取(OA)仓储平台,致力于收集和保存生物医学文献,作为印刷版期刊收集的补充[1]。截至2013年8月2日,已收集有全文免费期刊1286种,NIH组合期刊257种,过往期刊2244种,免费的生物医学文献已超过280余万篇。免费获取(Free Access)是PMC创办的核心原则。

1 PMC数字化出版的基础

随着大数据时代的来临,NLM一直致力于对其所属数据库的优化和更新。2003年,NCBI发布第一版NLM归档和交换标记套件(Archiving and Interchange Tag Suite,AITS),以及2种文献类型定义(Document Type Definitions,DTDs)用于标记期刊文献,即归档与交换DTD(the Archiving and Interchange DTD)和期刊发布DTD(the Journal Publishing DTD)。2005年,NCBI发布第三种文献类型定义,文献制作DTD(the Article Authoring DTD)用于上传由美国NLM支持的科研成果的存档[2]。之后,NLM要求PMC收录期刊均按要求制作XML标记数据(XML Tagged Data),并以电子文件形式提交,从而大大缩短PMC收录期刊可检索时间与出版时间的时差[3]。这样,与传统的键盘录入和扫描方式相比,公众获取信息就会更快捷[4]。在PMC的影响下,世界各地大量的期刊出版者均使用AITS和DTDs,如Ingenta、HighWire等出版社[5],并反馈大量的信息。

基于上述多项技术,NCBI于2012年8月发布期刊文档标签套件(The Journal Article Tag Suite,JATS)——一组集XML元素、期刊文献标记属性、三种DTDs的标准[6]。该标准也成为美国国家标准(NISO Z39.96-2012)。为了推广作为NLM数字化出版核心技术的JATS,自2010年起NCBI每年举办一次JATS大会(JATS-con)[7]。

2 PMC数字化出版的应用

正是因为拥有以上多种数字化技术标准,PMC多年来一直是生物医学文献制作和发布的领导者。但PMC在其简介中强调,PMC并非出版商,也不出版期刊[1]。PMC的主要作用是在XML文献格式的基础上,使用扩展样式表转换语言(XSLT)把文献转换成HTML文档,并加入级联样式表(CSS)和Javascript(JS)技术,从而完成在传统PC客户端的不同浏览器上对文献格式、页面、导航、文字流和其他动态效果的呈现[8]。

3 HTML5技术应用于PMC

随着近年来各种智能手机、平板电脑等手持阅读设备的大量普及,针对传统PC客户端浏览器开发的显示模式已不再能完美地适应这些千差万别的显示屏幕。对于生物医学期刊来说,同样存在这样的问题。由于传统生物医学期刊往往含有复杂的图表,并且为了节省版面而分为两栏,因而读者更愿意选择阅读印刷版。目前PDF格式的电子版文献,还保留着其原始稿件的排版格式,不能很好地在目前普遍使用的小屏幕手持设备上解决文字缩放的问题[9]。2008年1月22日,万维网联盟(W3C)第一份正式HTML5草案发布,并于2010 年9 月正式向公众推荐[11]。截至2013年5月28日,W3C已将HTML5更新至HTML5.1[11]。HTML5以其一次开发,多次发布的特性,得到了广大程序开发者的认同。

2012年12月,PMC发布基于全新HTML5 和 CSS3技术的PubReader——PMC全新的呈现样式,可以随意在各种尺寸的显示屏上自由阅读生物医学文献,增强阅读体验[12]。NLM将其工具NCBITools/PubReader的代码共享在全球最大的社交编程及代码托管网站GitHub上,以供开发者下载并利用该工具将期刊文献转换为HTML5文档[13]。韩国医学会第一个利用GitHub资源,将其下属的122 种期刊的最新全文通过PubReader样式呈现[14]。

4 ePub技术应用于PMC

ePub是一种基于XML的数字出版物发行版本格式标准,用于传播和交换数字出版物和文档的格式。ePub是将内容发布在单一文档中的一种方式,涉及对结构化和高度语义化内容的表现、封装、编码,包括HTML5、CSS、SVG、图像和其他资源[15]。通俗点讲,就是ePub将电子书的内容压缩在一个单一的类似zip文件中(可以用解压缩工具解压缩)[16],这就大大方便了电子书的传播发送与档案管理。这一独特优势可以与HTML5形成互补,既满足读者不同平台下在线阅读电子书的需求,又满足读者将文献下载后离线阅读的需求[17]。

NLM也一直致力于研究如何将符合JATS标准的标记套件(JATS也是基于XML标准)转换为ePub文档。在2010年JATS-con上,这一技术被详细介绍[18]。ePub并不神秘,由于国际数字化出版论坛(IDPF)在设计ePub规范时,应用的都是现有的语法和标准,使得ePub更容易被理解和接受,仅需要学习很少的一些语法和利用现有的一些工具,就能够完成转换。即通过利用XML管道语言(XProc)去产生epub的容器,打包和内容标记等必要组分;应用XSLT来多次读取由JATS转换而来的统一的惟一标识符(UUID),生成ePub文档。其转换流程见图1。

A.产生UUID;XSLT通过读取UUID的中间过程,生成B、C、D。B.容器组分; C.打包组分;D.内容标记组分图1 JATS 转ePub的过程[18]

当然将JATS转化为ePub也存在着一定的问题需要解决:如(1)目标数据和源数据的差异问题;(2)在数据转换时对媒体类型呈现的支持差异的问题,为了减轻电子阅读器的负担,ePub仅支持核心媒体类型(core media types),而JATS支持更多的媒体类型;(3)对嵌套表格(nested tables)处理的问题,JATS是支持嵌套表格的,而如何将嵌套表格扁平化,以适应ePub规范,这一过程的可靠性存在问题,目前不能自动完成,而需要人工干预。PMC在发布PubReader的同时,也推出了ePub(beta),目前为ePub的测试版。这足以看出,ePub今后必然也是NLM的一种重要的数字化出版方式。

5 结语

对于生物医学的出版来说,OA出版模式是今后出版界的主要发展方向。目前国内OA期刊出版除了面临着人力和资金等瓶颈外,技术瓶颈也是一个重要问题[19]。为推动OA期刊发展,数字化出版技术的支持不可或缺。PMC作为生物医学领域最大的OA期刊仓储平台之一,除了提供适合传统PC上阅读习惯的HTML、PDF数字出版格式,更提供适应科技发展潮流的HTML5和ePub(目前为测试阶段)的数字出版格式,而推动其技术革新的主要因素,是其拥有JATS这一核心技术。国内生物医学期刊,如何利用已有的规范和技术,为OA期刊的数字化出版奠定基础,也是我国生物医学期刊出版人员应当关注的焦点。

1 National Center for Biotechnology Information.PMC Overview[EB/OL].[2013-08-02].http://www.ncbi.nlm.nih.gov/pmc/about/intro/

2 National Center for Biotechnology Information.JATS AND THE NLM DTDS [EB/OL].[2013-04-28].http://jats.nlm.nih.gov/about.html

3 刘淑萍. 美国国立医学图书馆标准出版数据X ML文件的制作. 编辑学报,2006,18(sup):156-159

4 周庆辉, 凌昌全, 白玉金等. 美国《医学索引》选刊与收录方法及中国期刊收录现状. 中西医结合学报,2005,3(1):70-78

5 沈锡宾,顾佳,包靖玲等. 中国科技期刊文档格式标准化任重道远.编辑学报,2013,25(1):25-30

6 JATS.Main Page[EB/OL].[2013-08-02].http://webservices.itcs.umich.edu/mediawiki/jats/index.php/Main_Page

7 National Center for Biotechnology Information.Journal Article Tag Suite Conference[EB/OL].[2013-08-02].http://jats.nlm.nih.gov/jats-con/

8 National Center for Biotechnology Information.PubReader? view of articles[EB/OL].[2013-08-02].http://www.ncbi.nlm.nih.gov/pmc/about/pubreader/

9 Lipman D. The PubReader View: A New Way to Read Articles in PMC.NLMTechBull,2012 Nov-Dec;(389):e7

10 刘华星,杨庚. HTML5——下一代Web 开发标准研究. 计算机技术与发展, 2011,21(8): 54-58

11 The World Wide Web Consortium.HTML 5.1[EB/OL].[2013-08-02].http://www.w3.org/TR/html51/

12 National Center for Biotechnology Information.New in PMC[EB/OL].[2013-08-02].http://www.ncbi.nlm.nih.gov/pmc/about/new-in-pmc/ day26

13 U. S. National Library of Medicine.NCBITools/PubReader[EB/OL].[2013-08-02].https://github.com/NCBITools/PubReader

14 Korean Association of Medical.KoreaMed Synapse: a digital archive & reference linking platform of Korean Medical Journals [EB/OL].[2013-08-02].http://synapse.koreamed.org/

15 International Digital Publishing Forum. EPUB[EB/OL].[2013-08-02].http://idpf.org/epub

16 施勇勤,须海茵.ePub3电子书格式标准的启示. 出版发行研究,2012,(3):49-52

17 Idan O. EPUB3 vs. HTML5[EB/OL].[2013-08-02].http://www.heliconbooks.com/article/epub3vshtml5

18 Kelly L. JATS to EPUB: Unraveling the Mystery[M/OL].[2013-08-02]. http://www.ncbi.nlm.nih.gov/books/NBK47314/

19 田海江,李若溪. 中国科技期刊开放获取的瓶颈问题分析.编辑学报, 2013,25(1): 64-66

猜你喜欢
医学期刊生物医学文档
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
山西医学期刊社简介
山西医学期刊社简介
浅谈Matlab与Word文档的应用接口
山西医学期刊社简介
山西医学期刊社简介
灵长类生物医学前沿探索中的伦理思考
南京航空航天大学生物医学光子学实验室
有人一声不吭向你扔了个文档
Word文档 高效分合有高招