基于Web的化学化工数据事实型数据库评析

2014-08-18 09:56袁欣
现代情报 2014年6期

袁欣

〔摘要〕该文介绍了化学化工等相关学科领域内常用的四个经典而重要的网络数据事实型数据库:Web of Science的化学子库、SciFinder、Reaxys、SpringerMaterials。分别对它们进行了数据来源、历史发展、收录范围等方面的简要介绍,并结合相同的检索实例:有机物蒽和无机物硫酸,使用了化合物分子式检索、化学结构检索等具有化学特点的检索方式,比较和分析了这4个数据库在检索途径以及所提供实验数据事实的数量、质量、种类等方面的共性和各自特点,并对该类型数据库的发展趋势作出归纳和预测。指出研究者应根据实际的实验需求,选取适宜的1个或多个数据库进行实验数据的查检和选用。

〔关键词〕化学化工;基于网络;数据事实型数据库;结构检索

〔中图分类号〕G254〔文献标识码〕A〔文章编号〕1008-0821(2014)06-0099-08

在化学化工相关学科的研究工作中,几乎每一个研究环节都与各种数据事实的检索密不可分。许多来自化合物及化学反应的各种宏观和微观数据,例如反应物的各种物理化学性质、化学反应的热力学和动力学数据,决定了必需的反应条件;新的产物生成,则需要进行各种检测,查找各种特征谱图与之对应,帮助确定特征元素和基团等等,小到反应试剂的购买,大到实验室安全,无不是随时需借助各种化学参考工具来支持实验的方方面面。从某种程度上来说,化学相关领域研究中,数据事实的查检决定了实验的成败。

在网络技术飞速发展的今天,化学化工类的数据事实型数据库正以其内容丰富、存储量大、检索方便、链接快捷等特点广泛使用于高校的化学化工类专业和科研机构中。本文将重点比较化学化工数据事实检索中Web of Science、SciFinder、Reaxys和SpringerMaterials 4个常用网络型数据库。

1各数据事实型数据库的基本介绍

1.1Web of Science

Web of Knowledge是美国Thomson Reuters公司开发的信息检索平台,Web of Science是该平台上的核心数据库,它是世界上有影响的多学科的学术文献文摘索引数据库,包含7个子库,其中有2个是化学数据库:Current Chemical Reactions和Index Chemicus,不但能提供文献信息,还能够为研究者们提供有机化学领域的数据事实。Current Chemical Reactions收录了1985年以来来自世界上化学领域的核心期刊和发明专利中新的一步或多步化学反应100多万种,提供翔实的反应综述,报导详尽的反应细节和条件;Index Chemicus则收录1993年以来世界上有影响专业期刊报导的新颖有机化合物,详细描述化合物的化学结构和相关性质,包括制备方法、生物活性、药理学研究等,数量超过260万[1]。

1.2SciFinder

SciFinder是美国化学文摘社的主要产品CA(Chemical Abstract)的网络版数据库,它不仅包括来自众多化学化工领域的文献信息,更重要的是它将来自化学化工文献中的各种物质和反应信息抽取出来,为研究者提供了大量的相关信息,成为化学化工领域权威的数据事实数据库。Scifinder中包含有6个数据库,其中2个是文摘数据库,4个是物质、反应等数据事实型数据库。数据事实型数据库中CAS REGISTRY是有关化学物质注册的数据库,是世界上最大最全的化学物质数据库,到2011年5月,已有超过6 000万个有机和无机化学物质、6 200万个生物序列登记注册[2]。该数据库除了提供化学物质登记号之外,还提供物质的系统命名、商品名、俗名、分子式、结构式、环数据,以及各种实验性质和计算性质、光谱信息。研究者还可以通过该数据库,定位到物质的商品信息和管制信息。

Reaxys数据库是荷兰的Elsevier公司在2009年推出的集检索和合成路线设计等功能于一身非常重要的化学化工领域的数据事实数据库。它是MDL Crossfire数据库的升级版本,不但将原有基于软件下载安装使用的客户端版本升级为直接基于浏览器的网络版本,而且在原有的两个主要数据库——Beilstein和Gmelin的基础上,增加了专利化学数据库。

Beilstein是世界知名的有机化学数据事实数据库,收录数据最早可追溯至1771年。其数据包含化合物相关的物理、化学等方面的性质;包含化学反应相关的各种数据;包含详细的药理学、环境病毒学、生态学等信息资源。Gmelin是世界知名的无机化学和金属有机化学数据事实数据库,其时间跨度从1772年至今;包含化合物详细的理化性质,以及地质学、矿物学、冶金学、材料学等方面的信息资源。新整合进来的专利化学数据库,收录了世界知识产权组织、欧洲专利局、美国专利局等专利信息。整个Reaxys的数据来源于精选的有机、无机以及金属有机领域的化学重点期刊、化学专利出版物,收录了2 800多万个化学反应和1 800多万个化合物,以及400多万条来源文献记录[3]。从该数据库中,既可以得到物质的熔点、沸点、临界参数、饱和蒸汽压、折射率、热容、摩尔蒸发焓等宏观数据,还可以得到分子偶极矩、电离能、键参数(键角、键长、键能)等微观数据。

1.4SpringerMaterials

SpringerMaterials是德国著名的科技出版社Springer公司推出的物理、化学、材料等科学与工程领域有关物质数值数据库。它是以经典的、具有Landolt-Bornstein丛书为基础,汇总了科学、工程所有领域最经典的物质数据。包括物理学、物理化学、地球物理学、天文学、材料技术与工程、生物物理学等,内容涉及相关科学与技术的数值数据和函数关系、常用单位以及基本常数等。Landolt-Bornstein丛书由德国施普林格出版社(Springer-Verlag) 于1883年开始出版。经过120年的发展,目前,LB已出版300多卷,成为一套以基础科学为主,系列出版的大型数值与事实型工具书,全世界千余名知名专家和学者常年为这套工具书提供系统而全面的原始研究资料。LB手册由传统的纸版发展为在线的电子图书,在2009年转变为基于网络的SpringerMaterials数据库。该数据库包含91 000份在线文档,其中包括165 000种物质及材料系统,以及3 000种属性,其数据来源于精选的400余部大型参考工具书中的100万篇文献[4]。主要数据涵盖了粒子、核子和原子,分子和自由基,电子结构与传输、磁学、半导性、超导性、结晶学、热力学、多相系统、先进材料、先进技术,天体物理学和地球物理学等方面。endprint

2各数据事实型数据库的检索实例

笔者分别以有机物蒽和无机物硫酸来作为实例,在这4个数据库中检索和比较这两种物质的相关性质。

2.1Web of Science中的化学子库

2.1.1实例之一:蒽

Web of Knowledge检索平台针对中国用户,有非常友好的简体中文检索界面,但检索词和检索结果,仍用英文显示。进入Web of Knowledge检索平台,选择Web of Science数据库上的化学结构检索途径。在绘图框内绘制具有3个苯环的稠环芳烃化合物蒽的结构,并在“化合物数据”的条件中限定蒽作为反应产物出现,要求进行精确匹配检索。

得到38条检索结果。这些结果中,蒽出现在中间产物和最后产物的情况,均有出现;作为惟一产物和混合产物的结果也均有出现。笔者选择蒽作为最终产物、惟一产物的一种结果(见图1),看到反应的信息和条件以列表的形式显示,包括反应式、反应的催化剂和溶剂,反应时间和产率。

2.1.2实例之二:硫酸

因为硫酸是无机物,所以检索式一般采用分子式或化学物质名称的方式较为方便,而该检索平台上支持分子式和化学物质名称的检索方式,检索途径选择普通的主题检索。试用分子式检索,发现结果数量巨大,有15 000多条记录,因此修改检索式为“H2SO4 SAME PROPERTIES”,结果仍然有2 300多条。目前的检索界面无法进一步限制和缩小当前的检索结果。这其中,尽管H2SO4和PROPERTIES同时在题名或关键词中出现,但绝大多数是报道硫酸作为一种溶剂或反应物出现在化学反应中,真正报道H2SO4性质的文献,需要大量阅读检索结果中文献的摘要,再通过查找原文才能看到具体数值。这点证实了Web of Science中的化学子库只是收录有机化学领域的物质和反应,所以有关无机物的性质,没有特别收录,只是作为文献内容出现。所以在查检无机物的相关反应和性质时,Web of Science中的化学子库不是研究者应该考虑的数据库。

2.2SciFinder

2.2.1实例之一:蒽

SciFinder的访问入口:https:∥scifinder.cas.org,与其它几个数据库不同的是,每次使用SciFinder时都需要用注册过的个人账号进行登录,高校和研究机构通常是购买一定数量的并发用户数量,在限定的并发用户数量之内才能进行使用。Scifinder有3种检索途径:文献检索(Explore References)、物质检索(Explore Substances)以及反应检索(Explore Reactions)。其中物质检索的途径下,有5种入口供选择:化学结构(Chemical Structure)、马库西结构(Markush)、分子式(Molecular Formula)、物质识别符(Substance Identifier(s),例如化学物质名称、化学物质登记号等),此外该平台新增加了性质(Property)入口。笔者选择其中的化学结构入口,在绘图框中画出蒽的结构图,要求系统进行精确匹配检索。

检索结果以表格的形式显示。系统检索出932种物质结构中都含有蒽的结构,从结果中选择化学物质登记号为120-12-7的蒽。从页面中可以看到有关蒽的细节信息,以及有关它的化学反应、商品信息、管制信息的链接等。

点击进入到蒽的详细信息界面(见图2),看到蒽的化学物质登记号、分子式、结构式、各种化学名称,有来自图书、会议录、学位论文、期刊、专利、报告以及预印本的3万多篇文献提供了蒽的各种信息。

对报道该化合物的文献,数据库按研究内容、是否专利文献、是否含非取代衍生物等等信息,进行聚类分析;另外数据库显示了该化合物的各种计算性质,以及通过实验实际测得的各种性质,包括物理、化学、结构、光谱等。以蒽的光谱性质为例,可以看到它的C13核磁共振谱、H的核磁共振谱、电子能谱、发光光谱、红外吸收光谱、紫外/可见吸收光谱、质谱等等。其中有些简单谱图已经直接收录进数据库中,有些复杂谱图还需要根据原文的来源信息去查看原文。1111图2SciFinder上查检到蒽的部分数据事实1111

在该物质的商品信息界面,还可以看到蒽的149个商品信息,包括了供应商信息、订购号、试剂规格等等。

2.2.2实例之二:硫酸

同样通过Scifinder平台上的物质检索途径。无机物通常使用分子式或者化学名称检索更为方便。使用H2SO4进行检索分子式检索,得到20个检索结果。这些结果中,有些是同素异形体,有些是同位素,有些是异构体,所以尽管分子式相同,却检索出了20种不同物质。

可以选择化学性质(Chemical Structure)等条件作为二次检索的限制条件对结果进行分析或者精炼,从而得到目标物质。结果显示Scifinder收录了16万多篇文献研究硫酸的各种性质。

在以表格形式列出的众多性质中,较为简单的数据,如密度、摩尔体积、沸点、熔点等等,都以数值的形式直接给出,而较为复杂的性质或需要辅以图形说明的数据事实,如生物活性、微观的键长键角等,则给出了原文的来源信息,研究人员还需要进一步查找原文。

2.3Reaxys

2.3.1实例之一:蒽

Reaxys的访问入口:https:∥www.reaxys.com。相比之前客户端版本的MDL Crossfire来说,Reaxys的检索界面显得简单明了、直观易用。Reaxys也有3种检索途径:化学反应(Reactions)、物质和性质(Substances and Properties)、文献信息(Literature)。选择物质和性质的入口,在绘图框内绘制结构图。对于较难绘图的无机物和复杂的有机金属而言,Reaxys数据库还特别提供给研究者从化合物名称生成结构(Generate structure from name)的功能来查看复杂结构,并可进一步利用该结构来进行反应设计。endprint

网格显示的结构检索结果(见图3)让人一目了然,可以看到662个物质满足检索要求。但仔细查看就会发现许多包含蒽结构的物质也在其中。可选择结构完全一致的、无特殊电价、无特殊结构的稠环芳烃化合物蒽,有7 000多篇文献报道了有关蒽的各种性质和反应。

点击进入查看详细信息就会发现,在Reaxys数据库中,化合物蒽的各种性质,数据整理非常详尽,仅物理性质一项中就含有71个子项,有关热力学、动力学、电学、磁学、光学、晶体学、生物学等等许多方面,不同条件下的不同结果都在列表中显示,每一结果的来源文献信息也一一对应。

在光谱信息中,显示了包括核四级共振谱、荧光光谱、磷光光谱、拉曼光谱等在内的12种光谱性质。每一种光谱都以列表的形式显示了具体详尽的特征峰位置所在。对于Reaxys的工作人员来说,这些数据的加工是非常细致、深度而专业化的;对于化学化工领域的专业研究人员来说,这些数据都可以直接使用,不需要再去查看原文的相应信息。

2.3.2实例之二:硫酸

对于硫酸的检索,可以利用从名称生成结构(Generate structure from name)的功能,输入硫酸的分子式、国际化工标识符、化学物质登记号或化学名称来检索。如果选择分子式的入口,则需要排除同分异构体的情况,以及包含该结构的情况。检索结果显示,该数据库中硫酸的相关性质来自于27 000多篇专业文献。同其它物质一样,从结果中研究者可以了解到硫酸的合成信息、商品信息以及各种详尽的数据事实。

2.4SpringerMaterials

2.4.1实例之一:蒽

除了用分子式、化学物质名称等方式进行方便快捷的全文检索之外,SpringerMaterials数据库在2012年6月份新推出了结构检索的功能[5],因此现在与其它几个化学化工领域的数据事实型数据库一样,也可以在此数据库中通过绘制化合物结构实现有机物蒽的检索。从结果中可以看到在丛书中有391处涉及到蒽的各种性质,除了查看这些详细信息之外,在该数据库中还可以看到该物质动态的三维结构(见图4)。

2.4.2实例之二:硫酸

SpringerMaterials数据库web版的首页非常简洁,主要的检索界面类似于google的检索界面,左边是LB手册的主要目录。由于这是以电子书为基础数据的数据库,所以在此界面上设置了书架(Bookshelf),便于用户将自己常用的部分,直接放置在书架当中,以便经常使用。检索主页的左侧,是该套丛书的若干分组(Group),研究者可以从左侧目录直接进入某一分组(Group)的下属层级(Volumes、Subvolumes、Parts、Chapters)浏览,也可以使用主界面的搜索引擎。

在主检索界面输入硫酸的分子式H2SO4,系统会将相似化合物、衍生化合物、关联化合物或含有结晶水等不同情况的同种化合物在下拉菜单中供用户选择。这种便捷的全文检索功能,以及快速输入的方式,能为用户提供潜在搜索元素的动态列表。点击Go之后,显示出检索结果如图5所示。若使用高级检索功能,则可以对硫酸的某一性质进行限定。

检索结果将硫酸的相关性质在左侧目录各分组中显示出数量来,右侧显示出全书中具体的420个检索结果。点击进入,具体的检索结果会以PDF文件的形式或表格的形式呈现出来。

值得一提的是,SpringerMaterials数据库提供了元素周期表的检索方式,可以极大地方便合成材料工作者,在探索新材料之前对新材料的组成、结构、名称、分子式、多相相图等信息都不确定的情况下,充分了解前人所做的科学研究和科学数据。

3各数据事实型数据库的特点评析

纵观Web of Science中的化学子库、SciFinder、Reaxys、SpringerMaterials 4个基于网络的数据事实型数据库以及以上的检索实例,不难发现它们存在以下一些共性。

3.1发展历史悠久,数据来源可靠

这4个数据库都是由历史悠久而且业内非常知名的纸本参考工具书发展而来,几乎都经历了一二百年的发展历程,在计算机技术和网络技术的飞速发展下,走向基于Web的数据事实数据库。这4个数据库收录的化学化工数据事实,都来自于化学化工领域重要的期刊、图书、专利、会议录等各种专业文献。这些数据的背后都有强大的专业人士和专家团队做相关数据的整理和审核工作,它们不仅仅提供经专业人士整理好的数据事实,更将大量的、用于支持数据的原引文献信息呈现出来,为研究者进一步查找原文提供捷径。

3.2收录范围广,数据更新快

这4个数据事实的数据库,涵盖了化学化工及相关学科的各个方面,因此即便有上百年的发展历史,它们的数据更新也非常及时到位,其中更新最快的是SciFinder,每天都在更新数据,曾经有一份由CuraGen 公司提交的专利说明书,长达5 509页,包含有6 322个生物序列,是迄今为止世界上内容最多的专利文献,正式发布2天后,在SciFinder中就可找到相关的记录,30天后包括6 000多个生物序列在内的索引就已经完全做好,提供给全世界专业研究人员使用。数据更新最慢的SpringerMaterials,也能作到每季度更新。相比而言,传统的参考工具书的更新速度是远远落后于网络版数据事实数据库的。

3.3检索界面友好,提供化学结构检索功能

这4个数据库的检索界面都非常人性化,为读者提供简单易掌握的检索规则。对于化学化工相关信息的检索,它们除了提供主题、作者等常规的检索途径外,还都支持绘制化合物结构式和化学反应式进行检索(需要安装JAVA等插件),这个功能对于专业研究者来说,是非常方便有效的,易于查全和查准。此外,它们都支持分子式、化学名称等检索方式。

3.4检索功能强大,二次检索便利endprint

在实际的检索过程中,研究者可以进行有针对性的限定,例如Web of Science中的化学结构检索,可以使用复选框指定特征描述:化合物名称、生物活性和/或分子量;化学反应可以检索的任意化学反应条件以及所需的反应关键词等。面对复杂的检索结果,研究者可以根据不同要求进行二次检索,可以随时用亚结构或子结构检索来放宽条件,或用不同的性质要求来缩小检索结果。另外,对检索结果随时进行各种聚类分析或排序处理,从中很快得到精准的数据事实。

4各数据事实型数据库的发展趋势

从以上4个数据库的简介和使用比较中,可以看到化学化工领域内的数据事实型数据库有以下发展趋势。

4.1从数据量来看,各数据库在最近十年中发展非常迅速例如Web of science中的化学子库,收录的有机物质由2006年的200万发展到现在的260万,有机反应由2006年的65万[6]发展到现在的100万;CAS REGISTRY上的有机物和无机物数量,已由2002年不到2 000万发展到现在6 000万;Beilstein和Gmelin中的有机物和无机物数量,由2002年报道的900万[7]发展到现在的1 800种。由此可见,随着科技的发展,化学化工领域的研究方兴未艾,在网络技术的支持下各大数值型数据库收录新物质和新反应的数量也成倍增长。随着新研究成果的不断涌现,各数值型数据库收录的范围还将持续快速增长。

4.2从数据库的使用设计来看,这些化学化工领域知名的数据事实型数据库在检索功能和后处理方式上不断相互取长补短,朝向以用户为中心的方向发展例如2004年Web of Science升级时增加了化学结构检索的功能。在推行基于Web的数据库版本之前,SciFinder、Reaxys还分别经历了客户端版本的阶段,这两种数据库的客户端版本,都根据各自数据库的典型特征而建,读者使用起来,更像使用一种软件,而各自的检索规则也相对更为复杂和繁琐。现在SciFinder的客户端版本已经逐步退出历史舞台;Reaxys更是于2009年展示了全新的网络版,还增加了由名称产生结构的功能。SpringerMaterials的前身则以典型的电子图书的形式推出,所能支持的检索和浏览形式非常简单,对于寻找专业数据的研究人员来说,很难从海量的信息中快速找到自己需要的数据事实。现在这个新形式的数据事实型数据库还在不断补充和完善新的功能,例如在2012年6月新推出的结构检索功能,更加方便使用者对于结构已知的物质的检索。

4.3从数据内容来看,各数据库仍然保持着特点鲜明、独树一帜的风格特点尽管各数据事实型数据库的数据数量在不断增长,检索平台设计日趋人性化,但它们仍保持并发扬各自的优势和特色所在,不盲目跟风。从上文中两个相同的检索实例在各个数据库检索过程及结果比较可以看出个数据事实型数据库各有侧重。例如Web of science数据库收录的100多种化学化工专业期刊,都是行业领域内非常有影响力的期刊,其影响因子直接反应了来源期刊和文献的科技含金量;两个化学子库中的数据库集中于有机化学领域;数据显示方式简明扼要。Scifinder数据库以其化学化工领域文献覆盖面广而全、更新快而著称,从对有机物蒽、无机物硫酸的检索结果中可以看到它在收录文献数量和数据量上,与其它事实型数据库相比有绝对优势,因为其特点在于创建了为每一种物质分配一个惟一的登记号的作法,所以全面是它的最大特色。它收录了50多种语言、180多个国家的文献,其中非英语国家的文献量占到相当比例。Reaxys数据库中数据的加工深度大,可供检索的数百个检索点都是加工对象,因此为研究者提供了非常全面而细致的数据,研究者可以不用查看原文就使用这些可靠的数据。SpringerMaterials侧重于材料方面的数据非常经典和全面,它本身的数据来源就是400多种参考工具书,因此数据值得信赖、直接可用;还可以利用元素周期表进行检索,研究者只要选择化学元素,就可以检索到不同元素组合而成的化合物的性质。对于研究合成材料的工作者来说,这一功能非常实用。

5结语

综上所述,这4个常用的数据事实型数据库,都具有数据来源历史悠久、检索功能强大、数据可靠权威,在业内颇具影响力等诸多优势,但其又各有侧重点,有的以数据全面取胜,有的以来源权威著称。化学、生物、化工、材料、环境等领域学科的研究者可以从实际科研需要出发,适当选择不同的数据库和合适的检索方式、相互配合使用,可以得到令人满意的全面翔实的数据事实信息。

参考文献

[1]Thomson Reuters.Current chemical reactions[EB/OL].http:∥thomsonreuters.com/,2012-07-10.Thomson Reuters.Important research goes far beyond the past decade[EB/OL].http:∥wokinfo.com/,2012-07-10.

[2]American Chemical Society.CAS REGISTRY Keeps Pace with Rapid Growth of Chemical Research,Registers 60 Millionth Substance[EB/OL].http:∥www.cas.org/,2012-07-13.

[3]清华大学图书馆.Reaxys(CrossFire Beilstein/Gmelin升级版本)[EB/OL].http:∥www.lib.tsinghua.edu.cn/database/reaxys.htm,2012-07-17.

[4]Springer.SpringerMaterials数据库[EB/OL].http:∥www.springer.com/,2012-07-17.

[5]Springer.whats new:Available June 30,2012[EB/OL].http:∥www.SpringerMaterials.com/,2012-07-18.

[6]关志英,郭依群.网络学术资源应用导览(科技篇)[M].北京:中国水利水电出版社,2006:349-350.

[7]任平,孙维莲,杨毅.Chem Village、CA on CD、Chemistry Server和Beilstein/Gmelin CrossFile的比较分析[J].情报科学,2003,21(5):499-505.

(本文责任编辑:马卓)endprint

在实际的检索过程中,研究者可以进行有针对性的限定,例如Web of Science中的化学结构检索,可以使用复选框指定特征描述:化合物名称、生物活性和/或分子量;化学反应可以检索的任意化学反应条件以及所需的反应关键词等。面对复杂的检索结果,研究者可以根据不同要求进行二次检索,可以随时用亚结构或子结构检索来放宽条件,或用不同的性质要求来缩小检索结果。另外,对检索结果随时进行各种聚类分析或排序处理,从中很快得到精准的数据事实。

4各数据事实型数据库的发展趋势

从以上4个数据库的简介和使用比较中,可以看到化学化工领域内的数据事实型数据库有以下发展趋势。

4.1从数据量来看,各数据库在最近十年中发展非常迅速例如Web of science中的化学子库,收录的有机物质由2006年的200万发展到现在的260万,有机反应由2006年的65万[6]发展到现在的100万;CAS REGISTRY上的有机物和无机物数量,已由2002年不到2 000万发展到现在6 000万;Beilstein和Gmelin中的有机物和无机物数量,由2002年报道的900万[7]发展到现在的1 800种。由此可见,随着科技的发展,化学化工领域的研究方兴未艾,在网络技术的支持下各大数值型数据库收录新物质和新反应的数量也成倍增长。随着新研究成果的不断涌现,各数值型数据库收录的范围还将持续快速增长。

4.2从数据库的使用设计来看,这些化学化工领域知名的数据事实型数据库在检索功能和后处理方式上不断相互取长补短,朝向以用户为中心的方向发展例如2004年Web of Science升级时增加了化学结构检索的功能。在推行基于Web的数据库版本之前,SciFinder、Reaxys还分别经历了客户端版本的阶段,这两种数据库的客户端版本,都根据各自数据库的典型特征而建,读者使用起来,更像使用一种软件,而各自的检索规则也相对更为复杂和繁琐。现在SciFinder的客户端版本已经逐步退出历史舞台;Reaxys更是于2009年展示了全新的网络版,还增加了由名称产生结构的功能。SpringerMaterials的前身则以典型的电子图书的形式推出,所能支持的检索和浏览形式非常简单,对于寻找专业数据的研究人员来说,很难从海量的信息中快速找到自己需要的数据事实。现在这个新形式的数据事实型数据库还在不断补充和完善新的功能,例如在2012年6月新推出的结构检索功能,更加方便使用者对于结构已知的物质的检索。

4.3从数据内容来看,各数据库仍然保持着特点鲜明、独树一帜的风格特点尽管各数据事实型数据库的数据数量在不断增长,检索平台设计日趋人性化,但它们仍保持并发扬各自的优势和特色所在,不盲目跟风。从上文中两个相同的检索实例在各个数据库检索过程及结果比较可以看出个数据事实型数据库各有侧重。例如Web of science数据库收录的100多种化学化工专业期刊,都是行业领域内非常有影响力的期刊,其影响因子直接反应了来源期刊和文献的科技含金量;两个化学子库中的数据库集中于有机化学领域;数据显示方式简明扼要。Scifinder数据库以其化学化工领域文献覆盖面广而全、更新快而著称,从对有机物蒽、无机物硫酸的检索结果中可以看到它在收录文献数量和数据量上,与其它事实型数据库相比有绝对优势,因为其特点在于创建了为每一种物质分配一个惟一的登记号的作法,所以全面是它的最大特色。它收录了50多种语言、180多个国家的文献,其中非英语国家的文献量占到相当比例。Reaxys数据库中数据的加工深度大,可供检索的数百个检索点都是加工对象,因此为研究者提供了非常全面而细致的数据,研究者可以不用查看原文就使用这些可靠的数据。SpringerMaterials侧重于材料方面的数据非常经典和全面,它本身的数据来源就是400多种参考工具书,因此数据值得信赖、直接可用;还可以利用元素周期表进行检索,研究者只要选择化学元素,就可以检索到不同元素组合而成的化合物的性质。对于研究合成材料的工作者来说,这一功能非常实用。

5结语

综上所述,这4个常用的数据事实型数据库,都具有数据来源历史悠久、检索功能强大、数据可靠权威,在业内颇具影响力等诸多优势,但其又各有侧重点,有的以数据全面取胜,有的以来源权威著称。化学、生物、化工、材料、环境等领域学科的研究者可以从实际科研需要出发,适当选择不同的数据库和合适的检索方式、相互配合使用,可以得到令人满意的全面翔实的数据事实信息。

参考文献

[1]Thomson Reuters.Current chemical reactions[EB/OL].http:∥thomsonreuters.com/,2012-07-10.Thomson Reuters.Important research goes far beyond the past decade[EB/OL].http:∥wokinfo.com/,2012-07-10.

[2]American Chemical Society.CAS REGISTRY Keeps Pace with Rapid Growth of Chemical Research,Registers 60 Millionth Substance[EB/OL].http:∥www.cas.org/,2012-07-13.

[3]清华大学图书馆.Reaxys(CrossFire Beilstein/Gmelin升级版本)[EB/OL].http:∥www.lib.tsinghua.edu.cn/database/reaxys.htm,2012-07-17.

[4]Springer.SpringerMaterials数据库[EB/OL].http:∥www.springer.com/,2012-07-17.

[5]Springer.whats new:Available June 30,2012[EB/OL].http:∥www.SpringerMaterials.com/,2012-07-18.

[6]关志英,郭依群.网络学术资源应用导览(科技篇)[M].北京:中国水利水电出版社,2006:349-350.

[7]任平,孙维莲,杨毅.Chem Village、CA on CD、Chemistry Server和Beilstein/Gmelin CrossFile的比较分析[J].情报科学,2003,21(5):499-505.

(本文责任编辑:马卓)endprint

在实际的检索过程中,研究者可以进行有针对性的限定,例如Web of Science中的化学结构检索,可以使用复选框指定特征描述:化合物名称、生物活性和/或分子量;化学反应可以检索的任意化学反应条件以及所需的反应关键词等。面对复杂的检索结果,研究者可以根据不同要求进行二次检索,可以随时用亚结构或子结构检索来放宽条件,或用不同的性质要求来缩小检索结果。另外,对检索结果随时进行各种聚类分析或排序处理,从中很快得到精准的数据事实。

4各数据事实型数据库的发展趋势

从以上4个数据库的简介和使用比较中,可以看到化学化工领域内的数据事实型数据库有以下发展趋势。

4.1从数据量来看,各数据库在最近十年中发展非常迅速例如Web of science中的化学子库,收录的有机物质由2006年的200万发展到现在的260万,有机反应由2006年的65万[6]发展到现在的100万;CAS REGISTRY上的有机物和无机物数量,已由2002年不到2 000万发展到现在6 000万;Beilstein和Gmelin中的有机物和无机物数量,由2002年报道的900万[7]发展到现在的1 800种。由此可见,随着科技的发展,化学化工领域的研究方兴未艾,在网络技术的支持下各大数值型数据库收录新物质和新反应的数量也成倍增长。随着新研究成果的不断涌现,各数值型数据库收录的范围还将持续快速增长。

4.2从数据库的使用设计来看,这些化学化工领域知名的数据事实型数据库在检索功能和后处理方式上不断相互取长补短,朝向以用户为中心的方向发展例如2004年Web of Science升级时增加了化学结构检索的功能。在推行基于Web的数据库版本之前,SciFinder、Reaxys还分别经历了客户端版本的阶段,这两种数据库的客户端版本,都根据各自数据库的典型特征而建,读者使用起来,更像使用一种软件,而各自的检索规则也相对更为复杂和繁琐。现在SciFinder的客户端版本已经逐步退出历史舞台;Reaxys更是于2009年展示了全新的网络版,还增加了由名称产生结构的功能。SpringerMaterials的前身则以典型的电子图书的形式推出,所能支持的检索和浏览形式非常简单,对于寻找专业数据的研究人员来说,很难从海量的信息中快速找到自己需要的数据事实。现在这个新形式的数据事实型数据库还在不断补充和完善新的功能,例如在2012年6月新推出的结构检索功能,更加方便使用者对于结构已知的物质的检索。

4.3从数据内容来看,各数据库仍然保持着特点鲜明、独树一帜的风格特点尽管各数据事实型数据库的数据数量在不断增长,检索平台设计日趋人性化,但它们仍保持并发扬各自的优势和特色所在,不盲目跟风。从上文中两个相同的检索实例在各个数据库检索过程及结果比较可以看出个数据事实型数据库各有侧重。例如Web of science数据库收录的100多种化学化工专业期刊,都是行业领域内非常有影响力的期刊,其影响因子直接反应了来源期刊和文献的科技含金量;两个化学子库中的数据库集中于有机化学领域;数据显示方式简明扼要。Scifinder数据库以其化学化工领域文献覆盖面广而全、更新快而著称,从对有机物蒽、无机物硫酸的检索结果中可以看到它在收录文献数量和数据量上,与其它事实型数据库相比有绝对优势,因为其特点在于创建了为每一种物质分配一个惟一的登记号的作法,所以全面是它的最大特色。它收录了50多种语言、180多个国家的文献,其中非英语国家的文献量占到相当比例。Reaxys数据库中数据的加工深度大,可供检索的数百个检索点都是加工对象,因此为研究者提供了非常全面而细致的数据,研究者可以不用查看原文就使用这些可靠的数据。SpringerMaterials侧重于材料方面的数据非常经典和全面,它本身的数据来源就是400多种参考工具书,因此数据值得信赖、直接可用;还可以利用元素周期表进行检索,研究者只要选择化学元素,就可以检索到不同元素组合而成的化合物的性质。对于研究合成材料的工作者来说,这一功能非常实用。

5结语

综上所述,这4个常用的数据事实型数据库,都具有数据来源历史悠久、检索功能强大、数据可靠权威,在业内颇具影响力等诸多优势,但其又各有侧重点,有的以数据全面取胜,有的以来源权威著称。化学、生物、化工、材料、环境等领域学科的研究者可以从实际科研需要出发,适当选择不同的数据库和合适的检索方式、相互配合使用,可以得到令人满意的全面翔实的数据事实信息。

参考文献

[1]Thomson Reuters.Current chemical reactions[EB/OL].http:∥thomsonreuters.com/,2012-07-10.Thomson Reuters.Important research goes far beyond the past decade[EB/OL].http:∥wokinfo.com/,2012-07-10.

[2]American Chemical Society.CAS REGISTRY Keeps Pace with Rapid Growth of Chemical Research,Registers 60 Millionth Substance[EB/OL].http:∥www.cas.org/,2012-07-13.

[3]清华大学图书馆.Reaxys(CrossFire Beilstein/Gmelin升级版本)[EB/OL].http:∥www.lib.tsinghua.edu.cn/database/reaxys.htm,2012-07-17.

[4]Springer.SpringerMaterials数据库[EB/OL].http:∥www.springer.com/,2012-07-17.

[5]Springer.whats new:Available June 30,2012[EB/OL].http:∥www.SpringerMaterials.com/,2012-07-18.

[6]关志英,郭依群.网络学术资源应用导览(科技篇)[M].北京:中国水利水电出版社,2006:349-350.

[7]任平,孙维莲,杨毅.Chem Village、CA on CD、Chemistry Server和Beilstein/Gmelin CrossFile的比较分析[J].情报科学,2003,21(5):499-505.

(本文责任编辑:马卓)endprint