基于STNext系统检索天然产物文献的方法

2023-02-14 04:07常娟

甘肃科技 2023年12期

常娟

（国家图书馆，北京 100081）

天然产物的来源都是自然界中存在的物质，包括植物、动物、微生物等生物体内所生成的化合物，以及地球化学过程中形成的化合物。这些天然产物一般具有广泛的多样性以及生物活性，对人类、动物和植物都具有重要的作用。许多天然产物中存在着大量结构新颖作用独特的化合物，具有重要的药用价值，包括抑制疾病、促进健康等方面，如屠呦呦等人从青蒿中发现了该植物治疗疟疾的有效成分青蒿素，可以有效降低疟疾患者的死亡率；抵抗禽流感的药物达菲的主要成分莽草酸是从八角茴香中提取、分离得到的。此外，天然产物在农业领域、食品和调味品等领域都有广泛应用，因此天然产物的相关研究受到广大学者关注。

STNext系统创建于1983年，由美国化学文摘社（CAS）和德国卡尔斯鲁厄信息中心（FIZ-Karlsruhe）联合运营，在日本由日本国际化学情报协会（JAICI）代理，是提供世界科学信息的集成平台，收录200多个科学和技术数据库，涵盖了生物科学、生物技术、商业、化学、能源与环境、工程学、健康与安全、材料学、医学以及纳米科技等领域，提供以科学技术领域为中心的文献、专利，以及化学物质及其物性、毒性等广泛的信息，被全世界的专利局、企业、研究机构作为信息检索工具使用。下面将结合案例介绍如何利用STNext进行天然产物检索。

1 数据源

在STNext系统中，CAS提供了2个重要的化学文献数据库，即REGISTRY数据库（CAS REGISTRY）和CAPLUS（Chemical Abstracts Plus数据库），这2个数据库是查询化学信息的主要工具。其中CAS登记号的权威来源是REGISTRY数据库，该数据库存储了自1957年以来的物质记录，其中包含1.95亿种有机和无机物质，包括合金、配位化合物、矿物、混合物、聚合物和盐，以及7 000万种蛋白质和核酸序列，其记录内容包括化学物质登记号、准确的化学名称、分子式、化学结构图等信息。CAPLUS数据库的文献来源包括8 000多种国际性刊物、专利、同族专利、技术报告、书籍、会议录、学位论文等，覆盖了1907年以来世界上发表的约1 800多万篇化学化工及相关学科文献，其记录内容包括题目、作者、出处、索引项、文摘等信息。CAPLUS数据库每天增加3 000条新纪录，每周增加14 000条索引记录，它是最新的CA数据库[1]。

NAPRALERT数据库（Natural Products Alert）是经美国国会论证后建立的专门从公开发表的文献中收集来自植物、微生物和动物提取物（包括天然产物的次生代谢物）的化学成分、药理活性和临床研究的数据库[2]。资料来自全世界大约700种期刊，当前内容包括从1650年至今的115 000篇科研论文和书籍提供的数据，其中80%是1975—2011年文献的系统概括。该数据库涉及129 000种化合物、48 000种植物、海洋生物、微生物和动物，可提供150万份与上述生物活性相关的报告。

CABA数据库（CAB Abstracts）是由国际农业和生物科学中心（CABI）出版的数据库，是全球最大以及专业的农业数据库，选自世界上150多个国家、50多语种的7 500种期刊及3 500种其他类型文献，涵盖了1973年至今的约1 000万条数据，数据包含书目信息、摘要、索引信息以及CAS的化学物质登记号，其内容覆盖农业、林业、生物技术、遗传学、人类医学、人类营养、兽医学等多种相关学科，数据规模大，质量好，是最具权威性的农业、林业文摘数据库之一。

2 检索方法

为提高检索功能和增强检索便利性，STNext对物质结构式、物质的特定反应、物性数据、生物物种信息、地理信息等进行了有效标引，支持主题检索、结构检索、物种检索、数值检索等多种检索方式，针对不同需求以及不同数据库的特点，可采用不同检索方法。以下将结合不同的案例对不同的检索方法进行详细介绍。

2.1 案例一

收集现有文献公开的花色苷结构信息及其生物活性相关文献。

花色苷是一类重要的天然水溶性色素，广泛存在于果蔬中，是蓝莓等浆果中的主要功效成分，具有多种生物活性，如抗氧化、抗癌、抗炎和抗菌等，在食品和制药领域应用广泛。花色苷属于酚类化合物中的类黄酮，其母核结构如图1所示[3]。

图1 花色苷母核结构

由于天然产物结构具有复杂性和多样性，如果想获取比较全面的结构式会有一定的困难，可以借助STNext系统中的REGISTRY和CAPLUS数据库，并从主题词和结构检索2个方向入手，来探寻相对全面的结构式结果集。

在STNcxt中，有多个数据库都有一个或多个词典，词典是一个查找检索词语的丰富资源，是经过标引的概念词和物质，利用词典可以快速建立起在基本索引里进行检索的检索式。通过借助CAPLUS中的词典工具（CAS Lexicon）提取花色苷名称，利用EXPAND（E）命令可以获取花色苷下位类的物质名称，新版的STNext中将CAS Lexicon更直观地展示在了检索界面，便于操作。下面结合案例具体检索步骤如下。

1）FILE CAPLUS（打开CAPLUS数据库）

2）E Anthocyanins/CT（使用词典扩词）

3）E E3+ALL

4）S E26-E131/BI（获取花色苷在CAPLUS中的相关文献，得到结果集L1）

5）d L1 1-2 ti so pi hitstr

使用“D HITSTR”命令进行目标化合物结构的浏览，可以节省文献阅读浏览时间，此方法仅适用于结果集比较小时，由于上述案例结果集数量庞大，仅浏览功能费时费力，可以选择在REGISTRY数据库中直接获取花色苷的公开结构。

6）File REGISTRY（打开REGISTRY数据库）

7）S E26-E131/CN AND OCCU/RL（在化学名称中检索并利用OCCU/RL限定为天然来源的物质结构，得到结果集L2）

结果命中84个相关的公开结构，由于花色苷的种类过于繁多，其结构也数量庞大，使用主题词检索难免会有遗漏，如果想获得所有花色苷已公开的结构，也可以尝试结构检索。

REGISTRY数据库作为一个物质数据库，有着丰富的物质信息数据，比其他同类数据库都要多。如果目标是求全，REGISTRY数据库是一个很好的选择。花色苷是一类以花青素为配基，与一个或多个葡萄糖、半乳糖、鼠李糖、阿拉伯糖等分子通过糖苷键形成的化合物，因此可以通过花色苷的母核结构来进行检索。将要检索的结构通过结构编辑器画好，就可以利用搜索引擎检索出数据库中相匹配的结构结果。下面结合案例具体检索步骤如下。

1）File REGISTRY（打开REGISTRY数据库）

2）在结构编辑器画出结构并上传，见图2（得到结果集L3）

图2 编辑器画出的结构（已标注可变基团）

3）s L3 SSS FUL（亚结构检索，获取任意开放点有取代的物质，得到结果集L4）

4）s L4 AND OCCU/RL（利用OCCU/RL限定为天然的物质结构，得到结果集L5，获得相关结构）

5）s L2 or L5（得到结果集L6）

结果命中550个相关结构，与目前已报道的700余种花色苷类化合物比较接近[4]，与主题检索的结果相比更符合预期。由于REGISTRY数据库不仅包含天然结构，还包含大量的人工合成结构，因此案例中通过“OCCU/RL”命令可以将人工合成结构排除在外，更精准地获取目标结构。

在上述案例中使用的“/RL”是在化工、医药等领域检索中经常会用到的字段“CAS Roles”，是物质相关的具体研究信息，由CAS科学家创建的强大的索引术语，有助于精确筛选指定物质的特定研究文献或者反应，包括天然来源、分析研究、生物研究、组合研究、合成制备、工艺研究、应用研究等11个超级角色，用4个字母的缩写形式表示，超级角色下有特定角色，用3个字母的缩写形式表示。如案例中用到的超级角色OCCU，其下位类包括GOC（地质、天文事件）、NPO（天然产物发生）、OCU（天然来源，未分类）、POL（污染物）等4个特定角色。在天然产物检索过程中，可以通过使用“NPO/RL”命令可精准获取来自天然产物中的物质，大大提高了检索效率。此外，在检索花色苷生物活性相关文献时，在获取花色苷在CAPLUS中的相关文献后，可使用“BAC/RL”命令进行结果限定“s L1（L）BAC/RL”，获取目标文献。同样，在检索花色苷的制药用途的相关文献时，也可以使用“THU/RL”进行筛选，通过“s L1（L）THU/RL”命令获取目标文献。但是这种3个字母的特定角色代码仅适用于CAPLUS数据库中，在REGISTRY数据库中需使用超级角色代码，即案例中所用的“OCCU/RL”命令。

2.2 案例二

茶树提取物的抗菌作用，以及是否会诱发人类皮肤炎。

茶树自古以来就被用作药草使用，其提取物茶树油具有广谱杀菌和抗菌作用，可防治皮肤等的细菌感染，被广泛应用于制药、日化、食品、香料等行业。

NAPRALERT作为天然产物数据库包含很多源于自然界的已知结构代谢产物的化学和药理学数据（包括体内研究），是检索天然产物不可或缺的工具，NAPRALERT数据库有2大特点，一是物种可以在/orgn字段中限定；二是其中的数据对每个物种的药理活性和生物活性等作用进行分类，可检索分类代码表，用分类代码/CC进行精确检索。下面将以茶树提取物为例详细介绍使用NAPRALERT数据库的检索步骤。

1）fil NAPRALERT

2）s tea tree（得到结果集L1）

3）d ORG（得到物种名称，ORGN Class: DICOT Family: MYRTACEAE Genus: MELALEUCA Species:ALTERNIFOLIA）

4）s MELALEUCA/ORGN（L）ALTERNIFOLIA/ORGN（用物种名称检索时，属名、种名间用（L）运算符，得到结果集L2）

5）s antibacterial activity/CC or antimicrobial activity/CC or 14001/CC or 14002/CC（抗菌活性的分类，得到结果集L3）

6）s L2（L）L3（P）ACTIVE（得到结果集L4，被确认为活性（ACTIVE）或未被确认（INACTIVE）的记录与分类代码组合时用（P）运算符）

7）d scan

8）s dermatitis producing effect/cc or 15044/CC（得到结果集L5）

9）s L5（P）"in humans"/STY（L）L2（得到目标结果集L6）

上述案例中使用的“STY”是NAPRALERT数据库中常用到的“Type of Study”字段，包括不同的研究类型，如临床试验、体内研究、体外研究、人类研究、植物研究等，在研究类型（sty）内进行链接时，使用（P）运算符即可。此外，NAPRALERT数据库中的geographic area（GT）字段对地理信息也进行了标引，可获取物种所对应的地理信息。

2.3 案例三

蓝莓花色苷的提取工艺方法，要求在该工艺条件下花色苷的提取量不低于5 mg/g；由于温度过高花色苷会逐步降解，因此需要提取温度在20～50 ℃的花色苷提取方法。

CABA数据库的检索功能非常强大，比较有特色的有CAB词典以及分类代码表，其中CAB词典包括主题词表（/CT）、地理信息词库（/GT）和物种名词库（/ORGN），此外还可以通过CAS的化学物质登记号进行检索。这里要注意的是，CABA数据库中的物种名词库（/ORGN）仅限于“ORGN”字段中的属名信息，支持SEARCH和EXPAND命令，为检索提供便利；而在NAPRALERT数据库中的“ORGN”字段则包括该物种的科、属、种名、常用名、有机部分以及地理区域，可以说NAPRALERT数据库是了解天然产物物种信息的不二选择。以案例中的蓝莓“blueberry”为例，在CABA数据库的“ORGN”字段中提取的为“Vaccinium”，在NAPRALERT数据库的字段中提取的信息选取其中一条展示如下：

ORGNClass:DICOT Family:ERICACEAE Genus:VACCINIUM Species:ANGUSTIFOLIUM

[AIT.]

Common name（s）: LOWBUSH BLUEBERRY

Organism part: RIPE-DRIED FRUIT

Geographic area（GT）:USA-MS;NORTH AMERICA

此外，CABA数据库还有特定的物性数据集（/PHP），支持物性的数值检索功能，可使用相应的字段代码在标题和摘要字段中进行检索。下面结合案例详细介绍使用CABA数据库的数值检索功能如下。

STNext系统中的数值检索有其特有的检索方法和特点，一般情况下使用数值检索采用s 数值单位/数值检索字段命令即可，在STNext内可以实现自动单位换算。此外，由于每个数值检索字段有对应的单位，因此在数值后面也可以不写单位，在检索时将数值换算为相应单位的数值即可，即s 数值/数值检索字段。如果不指定具体数值，也可以检索包含有相应物性数值数据的文献，即s数值检索字段/PHP。

1）fil CABA

2）s blueberry（s）（anthocyanin? or cyanidin）（s）extract?（得到结果集L1）

3）s（anthocyanin? or extract?）（6a）DOS＞=5 mg/g（得到结果集L2）

4）s L1 AND L2（得到目标结果集L3）

5）s（anthocyanin? or cyanidin）（s）extract?（得到结果集L4）

6）s extract?（5a）20-50C/TEMP.EX（得到结果集L5）

7）s L4 AND L5（得到目标结果集L6）

由此可见，数值检索功能可以为检索提供便利，如上述结果中还会得到“45 degrees”这种用单词表达的结果，而且STNext系统可以自动实现单位换算，有助于缩小检索范围，提高检索效率。此外，可在检索字段后加.EX进行检索，可以检索特定的数值，或者将搜索范围限定在已经指定了最大值和最小值的数值范围，从而排出一部分噪声文献，进行更精确的检索。

3 结语

通过对数据库的比较发现，每个数据库都各有特色，从收录时间来看，NAPRALERT数据库最早，包括了1650年至今的数据，可以检索到很早时期的数据。从数据总量来看，REGISTRY数据库包含1.95亿有机和无机物质，CAPLUS数据库收录超过6千万条数据记录，数据量大且全面。从功能来看，NAPRALERT是专业的天然产物数据库，其生物来源物种信息及其所在的地理位置、药理活性、生物活性等都被提取并进行规范化处理，便于粗略了解天然产物的概况，掌握天然产物的来源物种信息；REGISTRY和CAPLUS数据库文献量大、更新快且包含分子结构，便于进行文献调研，追踪前沿，了解化合物信息、结构、理化性质、生物活性、药理活性、用途等，是进行天然产物检索的优选数据库；CABA是专业的农林数据库，在STNext系统中有文本数值检索功能的大多为专利全文数据库，而CABA和FSTA（Food Science and Technolog Abstracts）作为农林、食品的非专利全文数据库，数据库资源相互补充，并且都有物性检索功能，包括55个物性种类，是检索过程中的一个相当便捷的功能。

此外，在REAXYS数据库中也包括天然产物及其衍生物数据，可以检索得到生物活性、理化性质、化学反应等内容。在REAXYS中，可以通过ReaxysTree中的动植物英文名称来进行天然产物检索，但目前这些名称均没有经过规范化处理，也即在通过这些名称进行检索时不进行扩展检索[5]，使用时需特别注意。

如果涉及到天然药物，可能还需要用到BIOSIS Previews、Embase、MEDLINE、International Pharmaceutical Abstracts等生物医药相关数据库，其中BIOSIS Previews、Embase和MEDLINE数据库是生物医学检索经常使用的数据库，International Pharmaceutical Abstracts数据总量较小，仅包含1970年至今的75万条数据记录。一般在检索过程中,可以使用多个数据库或数据库集群进行检索，以获取更全面的检索结果。

针对天然产物结构复杂性、生物活性多样化、用途广泛等特点，选取合理的检索方法及检索策略，可以提高检索效率，在检索时要抓住不同数据库的特点，使用合理的数据库，熟悉STNcxt的标引方式，理清思路，准确快速地检索到目标文献。