中药材化学成分的晶体结构数据集

2022-04-02 09:36李英勇
中国科学数据(中英文网络版) 2022年1期

李英勇

1.中国科学院上海有机化学研究所,上海 200032

2.国家基础学科公共科学数据中心,北京 100190

引 言

埃博拉病毒、SARS病毒和新冠病毒等疾病的持续性、大规模爆发,对人类的生命与健康造成了极大威胁,埃博拉病毒、SARS病毒和新冠病毒等疾病的持续性、大规模爆发,对人类的生命与健康造成了极大威胁,甚至显著改变了人类的生产与生活方式。面对疾病的不断威胁,药物研究受到了国家和政府长期持续的关注。20世纪初至80年代,化学药物研究获得了飞速发展,中外科研人员发明出了一系列重要的基本化学药物。但90年代以后,新药研究的风险越来越大,药物研发逐渐成为一个高投入、高风险、低产出的领域。美国食品和药品监管局(FDA)近期数据显示,在被研究的众多化合物中,最终能成为药物的仅占1/5000,如此低的研发成功率,导致仅有约30%的化学药物能够最终盈利。在新药研发过程中,对人体的安全性以及对疾病的有效性问题是导致化学药物临床研究失败的主要原因[1-2]。而天然产物的化学成分大多具有丰富的结构多样性和较好的生物活性,相对于纯粹化学合成的化合物,往往具有毒性相对更小的特点[1,3]。因此,天然产物逐渐受到药学研发人员的关注和深入研究。

作为天然产物的一个重要来源,中药材在东南亚,特别是在中国有着长期的治病历史,人们积累了丰富的中药材临床应用经验。因此,中药材作为寻找新药先导物的研究对象,逐渐受到新药研发人员的重视,中医药的现代化研究也取得了飞速发展,但科研领域仍没有开放的、格式严谨的中药材化学成分数据集可供使用,相关研究数据散布于中医中药类期刊文献中,其检索、筛选与使用都极为不便。

针对这一问题,收集整理了中医中药类科研期刊文献,人工提取出文献中包含的中药材数据和化学成分数据,建成了数据集。另外,由于化学物质的晶体结构数据在药物的化学成分分离、结构确认等研究中具有重要价值,特从化学类期刊文献中收集、录入了化合物的晶体结构数据,并通过化学结构与中药材的化学成分数据实现了整合,最终建成了中药材化学成分的晶体结构数据集,数据集内共包含527种中药材、270种化学成分和345个化合物晶体结构数据,并建立了三种数据间的对应关系。其中,中药材及化学成分数据来源于收集整理的131种中医中药类科技期刊,化合物晶体结构数据来源于101种化学晶体类科技期刊,数据集中提供了数据的来源文献信息,便于用户溯源。此数据集的建成,可为药学家和生物化学家开展中药化学成分与蛋白晶体结构对接、中药活性成分筛选[4-5]等研究工作,提供重要的基础数据支撑服务。

1 数据采集和处理方法

1.1 数据来源

中药材数据和化学成分数据来源于1983-2001年国内中医中药类科技期刊,共收集整理了131种科技期刊,来源文献如图1所示,文献中包含中药材数据和化学成分数据。

化合物的晶体结构数据来源于1945-2015年国外化学类科技期刊,共收集整理了101种科技期刊,偏重于化学类和化合物晶体结构类科技期刊。晶体数据往往以CIF[6]文件形式存在于期刊文献的补充材料中,晶体学信息文件(Crystallographic Information File, CIF)是一种以“.cif”结尾的计算机文件,它包含了晶体的详细信息,如晶胞参数、原子坐标、化合物数据、来源文献等。作为晶体结构描述、解析、传播和表达时最常使用的文件格式,CIF文件广泛应用于晶体结构绘图、XRD精修以及材料理论计算等各个方面,在材料科学和化学结构确认研究中有着重要作用。图2是CIF文件部分内容示例,完整的CIF文件数据示例见第2章。

图2 化合物晶体数据来源文件示例Figure 2 Compound crystal data source file example

1.2 数据采集方法

针对中医中药类期刊文献的内容特点,基于Microsoft®Office Access®软件开发了中药材化学成分的晶体数据加工处理系统,加工系统界面如图3所示。录入人员通过数据加工系统采集、整理和加工中医中药类期刊文献中的中药材数据和化学成分数据,最后汇集处理录入的数据。

图3 中药材化学成分信息标引系统界面Figure 3 Interface of Chemical constituents in traditional Chinese medicines information indexing system

中医中药类文献中往往在正文中表达研究的中药材信息,以及中药的化学成分信息。由于文章语言的结构松散与表达方式多样,中药材对象与化学成分间对应关系的确定具有一定难度,当一篇文献研究多个中药材对象时,多个中药材对象与多个化学成分间的对应关系就更加复杂。针对来源文献的这些特点,制定了中药材化学成分数据的数据采集与录入规则:

标引对象是来源文献中的中药材信息(包括中药材中文名称、拉丁名称),化合物信息(包括化合物名称、CASRN号),来源文献信息(包括期刊名称、年、卷、期、起止页数据),以及中药材信息、化合物信息以及来源文献信息间的对应关系。

中药材信息标引规则:与加工系统中中药材名称表记录匹配者是有效的中药材名称。如果遇到名称表未收录的新名称,则由专家审核确认后加入中药材名称表。

化合物信息标引规则:仅收录确定的化合物名称数据。如果化合物名称中包含模糊信息,或者无法根据名称确定对应的化学结构,则不收录。

来源文献信息标引规则:根据期刊信息描述规范,提取来源文献的期刊名称、年、卷、期和起止页数据。

中药材对象与化合物对象的对应关系信息提取规则:根据文献正文描述,如果能确定二者有包含或从属关系,则录入二者间的对应信息。

由于化合物的晶体结构数据以CIF文件形式存在于来源文献的补充材料中,所以先根据CIF文件格式设计开发CIF数据分析提取软件,然后制定了化合物晶体结构数据的具体处理流程:首先,采用下载软件批量下载目标文献补充材料中的CIF文件。然后,通过CIF数据分析提取软件从中提取出来源文献数据和化合物数据。如果化合物数据项为空,则由录入人员从来源文献中人工标引对应的化合物数据。最后,将化合物名称、CIF文件和来源文献数据导入目标数据集。

1.3 录入数据后处理

录入的中药材化学成分数据和化合物晶体结构数据都包含有化合物,可以通过化合物实现两类数据的整合,具体处理流程是:首先,采用化合物名称生成化学结构Web服务程序[7],将中药材化学成分名称和CIF文件对应的化合物名称分别生成化学结构SMILES数据[8](简化分子线性输入规范,一种用ASCII字符串明确描述分子结构的规范,广泛用于化学结构数据的数据库存储与网络交互传输);然后,通过化合物登录库Web服务系统[9]得到化学结构的SRN号(SIOC Registry Number,化合物登录库根据化学结构建立并发布的化合物标识码,由多位数字组成,可用于识别不同来源、不同格式的化学结构是否属于同一个化合物),并根据SRN号归并不同中药材的相同化学成分记录;最后,根据化合物SRN号建立起两类数据间的对应关系,从而实现了数据集内中药材化学成分数据和化合物晶体结构数据的整合。

2 数据样本描述

中药材化学成分的晶体结构数据集共包括4个数据表:中药材化学成分数据表、化合物信息表、化合物晶体数据表和晶体信息表。中药材化学成分数据表主要存储中药材数据、化学成分数据和来源文献数据;化合物信息表存储了化合物的中文名称、拉丁名称、SRN号、CASRN号和化学结构SMILES数据;化合物晶体数据表存储了化合物数据、晶体CIF文件ID号和来源文献数据;晶体信息表主要存储了晶体结构CIF数据。4个数据表的属性名称、属性说明和数据范例分别如表1-4所示。图4是数据集的实体关系图,展示了4个数据表实体间的逻辑关系。

表1 中药材化学成分数据示例Table 1 Example of chemical constituents in traditional Chinese medicines

图4 中药材化学成分的晶体结构数据集实体关系图Figure 4 Entity relationship diagram of the crystal structure dataset of the chemical constituents in traditional Chinese medicines

表2 化学成分数据示例Table 2 Example of chemical constituents data

表3 化合物晶体信息示例Table 3 Example of compound crystal information

表4 化合物晶体结构数据示例Table 4 Compound crystal structure data example

序号 属性名称 属性说明 范例_publ_author_name″R.F.Scheuerman″″R.L.Sass″_chemical_name_systematic;Valeric acid;_cell_volume 595.379_diffrn_ambient_temperature 138.15_refine_ls_R_factor_gt 0.11_refine_ls_wR_factor_gt 0.11_symmetry_cell_setting monoclinic_symmetry_space_group_name_H-M 'P 21/c'_symmetry_Int_Tables_number 14 loop__symmetry_equiv_pos_site_id_symmetry_equiv_pos_as_xyz 1 x,y,z 2 -x,1/2+y,1/2-z 3 -x,-y,-z 4 x,-1/2-y,-1/2+z_cell_length_a 5.55_cell_length_b 9.664_cell_length_c 11.341_cell_angle_alpha 90_cell_angle_beta 101.82_cell_angle_gamma 90_cell_formula_units_Z 4 loop__atom_type_symbol_atom_type_radius_bond C 0.68 O 0.68 loop__atom_site_label_atom_site_type_symbol_atom_site_fract_x_atom_site_fract_y_atom_site_fract_z C1 C -0.77920 0.41120 0.40650 C2 C -0.61380 0.34000 0.33240 C3 C -0.48260 0.44140 0.26280 C4 C -0.33930 0.35820 0.18050

序号 属性名称 属性说明 范例C5 C -0.18040 0.45530 0.11360 O1 O -0.90220 0.32800 0.46890 O2 O -0.80430 0.54030 0.41460

3 数据质量控制和评估

为保证录入中药材名称数据的正确性,根据《中国药典》[10]收录的中药材数据建立了中药材名称表,并整合到数据加工系统中。当输入人员录入中药材数据时,加工系统会依据中药材名称表实时检查录入数据的正确性,并及时反馈给输入人员,供后者检查、改正。如果录入员检查后标记数据为生僻中药材名称,则经专家检查、确认正确后,将其入库,并补充加入中药材名称表。通过这种方式,在保证加工系统灵活性的基础上,有效保证了录入中药材数据的正确率。

CASRN(CAS Registry Number)号码是一种化学物质的唯一数字标识符,由美国化学文摘社(CAS)发布。CASRN号码广泛应用于化学化工领域,化学文献中往往会提供化合物的CASRN号码,作为目标化合物的标识。根据CAS发布的CASRN号码规则说明[11],CASRN号最长是10位数字,用连字符“-”分为从左至右的三个部分,第一部分长度可变,有2-7位数字,第二部分是2位数字,第三部分是1位数字,作为整个CASRN号的校验码。CAS发布了校验码的标准计算方法,可以用于校验各种期刊文献中CASRN号码的有效性。根据CASRN号有效性标准校验方法,数据加工系统中设计开发了程序算法以检查录入CASRN数据的有效性。具体步骤是:

1.录入员输入CASRN号码后,数据加工系统先查询数据集,如果数据集中已有此号码,则返回正确标识,结束本流程;如果没有,则以连字符“-”拆分输入的CASRN数据;

2.拆分操作将CASRN数据分为三部分:从左起的2-7位数字是第一部分,接下来的2位数字是第二部分,最后1位数字是第三部分。若解析失败则返回错误标识,结束本流程;

3.将拆分得到的一、二部分字符串合并,作为被校验数,输入CASRN号有效性验证公式进行计算,并比较计算结果与第三部分是否相同。如果不同,则返回错误标识;如果相同,则返回正确标识。

通过以上CASRN数据校验方法,可有效保证录入CASRN号码的正确性。

中药材化学成分的晶体结构数据加工系统在开发完成后,进行了系统录入的正确性测试,具体测试方法是:首先,从收集的中药材期刊文献库中随机选取100篇文献,由专家人工标引,并将选取的文献导入数据加工系统中。然后,由录入人员通过数据加工系统标引同一批文献。最后,邀请一名专业领域的专家(高级工程师)检查两种标引结果。检查结果如表5所示,表中的错误包括不符合录入规范或者录入数据不正确,比如,中药材名称数据存在录入名称数据不完整、名称前后误录入不相关字词、名称不是拉丁名称等错误。采用数据加工系统标引数据,其各项错误率都显著低于人工标引方式。从表中数据可见,设计开发的中药材化学成分的晶体结构数据加工系统,能够显著降低数据录入操作的错误率。因此,数据加工系统的采用,使数据集的建设质量有了一定的保证。

表5 中药材化学成分数据录入质量评估结果Table 5 Quality evaluation results of data entry of chemical constituents in traditional Chinese medicines

4 数据使用方法和建议

中药材化学成分的晶体结构数据集共收录了500余种常见中药材的化学成分数据,主要包括化合物的中文名称、拉丁名称、化学结构SMILES数据和晶体结构CIF数据。为了增加数据集的开放性和应用价值,数据集还收录了化合物的SRN号和CASRN号数据,使用者可以方便地通过SRN号或 CASRN号将此数据集与其他中医药类或化学类数据集进行数据整合,比如化合物毒性数据集、化合物谱图数据集、中药材配方与临床应用数据集等,从而扩大本数据集的应用范围与领域,增大数据集的挖掘价值。

中药材化学成分的晶体结构数据集采用MDB文件格式存储,使用者可以通过Microsoft®Office Access®软件操作数据集文件,实现对数据集数据的浏览、检索、筛选和聚类分析等操作。数据集还提供了两个检索窗体:中药材检索窗体和化学成分检索窗体。在中药材检索窗体中输入中药材名称,可以检索得到中药材包含的所有化学成分数据,中药材检索如图5所示;在化学成分检索窗体中输入化学成分SRN号,可以检索得到包含此化合物的所有中药材,化学成分检索如图6所示。SRN号检索功能可识别、筛选中药材的非特征化学成分。使用者还可以按照本数据集的数据表格式,补充完善新的中药材化学成分数据和化合物晶体结构数据,以扩充、完善本数据集的数据量。

图5 中药材化学成分的晶体结构数据集药物检索示例Figure 5 Example of drug retrieval from the crystal structure dataset of chemical constituents in traditional Chinese medicines

图6 中药材化学成分的晶体结构数据集化学成分检索示例Figure 6 Example of compound retrieval in the crystal structure dataset of chemical constituents in traditional Chinese medicines

数据作者分工职责

李英勇(1978—),男,河南省南阳市人,硕士,高级工程师,研究方向为化学信息学。主要承担数据库设计和数据库建库工作。