医学科研活动是一种以探索真理、解决问题为主要目标的特殊认知活动。从信息学的角度来看,科学研究是一种通过信息的获取、评价、利用,进而对信息进行创新的过程。医学文献是医学科研信息的主要载体,对医学文献的检索、分析、利用贯穿于医学科研的全过程,在科研选题阶段体现得尤为突出。科研思维始于发现问题,准确的选题是科学研究的良好开端,是科研工作得以展开和深入的基础。爱因斯坦曾经在其论著《物理学上的进化》中说道:“提出一个问题往往比解决一个问题更重要,因为解决问题也许仅是一个数学上或实验的技能而已,而提出问题却需要有创造性的想象力,而且标志着科学的真正进步”。本文尝试以一个宽泛的研究主题“生物碱与戒毒”为例,阐述如何通过文献查全、查准的方法逐步缩小检索范围,从而提出假设并进行验证,即从文献检索的角度进行医学科研选题。
科研选题的首要任务是发现和提出可研究的问题,锁定研究目标。如研究人员欲从生物碱与戒毒领域选题,首先需要弄清楚目前已有的研究涉及了哪些生物碱、针对何种毒品、效果如何、得出了什么结论等。这需要查阅该领域的国内外文献,进行广泛的学术调研,了解该领域研究的现状、研究水平、发展趋势以及存在的问题。因此该阶段检索的目标就是查全,即把所有生物碱与戒毒方面的文献全面检索出来,尽量避免漏检。研究者可以遵循以下3个查全原则。
1.1.1 穷尽检索词的同义词
检索词的同义词是指和检索词具有同等检索意义的词,可以是检索词的学名与俗称、旧称与新称、简称与全称、不同译名或上下位词等。使用同义词检索的目的是尽量全面地把不同作者用不同词汇撰写的文献都检索出来,确保没有遗漏。 如生物碱和戒毒都是比较宽泛的概念,检索的时候如果仅用“生物碱 AND戒毒”检索,命中文献比较少。以中国生物医学文献数据库(CBM)为例,检索时间截至2018年4月,增加检索词的不同表达,命中结果则相应有所增加(表1)。
表1 CBM数据库常用字段检索结果
在检索策略#3中,对检索词的同义词进行了较多考虑,依然未穷尽生物碱和戒毒的同义词。在实际检索过程中为提高检全率,要全面考虑检索词的同义词,帮助研究者尽可能地避免漏检。
1.1.2 使用主题词检索
使用主题词检索,可有效提高检索的全面性和准确性。医学主题词为同一概念具有不同表达方式的词语提供了规范、标准的用语,使文献加工处理达到高度的统一和一致,为高质量的文献查询提供了极大的便利[1]。目前多数医学数据库采用的主题词来自医学主题词表(Medical Subject Headings,MeSH)。生物碱是一个宽泛的概念,难以根据经验来穷尽所有的生物碱化合物。MeSH词表却能清淅、明确地呈现不同表达之间的关系,包括与同义词的关系和上下位关系。在CBM的主题检索功能下,输入生物碱类查看到生物碱类的树状结构,即生物碱类的所有下位词,囊括了生物碱的所有类型(图1)。
图1 生物碱类的树状结构
使用主题词检索的扩展检索功能,可把涉及生物碱类主题词下的所有概念的研究全部检索出来。同理,找到戒毒的主题词为物质相关性障碍,可把其下的各种概念一并检出(图2)。利用主题词检索,查到4 412篇文献,检索结果见表2。
图2 物质相关性障碍树状结构
表2 CBM数据库主题字段检索结果
1.1.3 多个数据库联用
每个数据库的收录范围都有局限,为提高查全率,研究者需要尽可能地在多个数据库中检索。如分别在CBM利用主题词检索,在中国知网学术期刊全文数据库(CNKI)、维普中文生物医学期刊库(CMJD)用一些常用的表达检索,检索结果见表3。导入文献管理软件EndNote中进行去重,得到检索结果为4 477篇,高于每一个数据库的单独检索结果。要了解国外的研究现状,还应该选择外文数据库,如PubMed、Embase等。在检索词的选择上,也应遵循上述两条原则。
表3 CBM、CNKI、CMJD检索结果
查全文献的意义在于研究者可以根据检索结果分析了解该领域研究的现状,如有哪些生物碱类用于戒毒治疗、用于何种毒品或物质依赖;国内外研究水平,是基础研究还是临床研究;研究的发展趋势,如当前的研究是否证实生物碱用于戒毒有前景;研究进展,是否有新的生物化学研究成果证实生物碱在戒毒方面的作用;存在的问题,如生物碱用于戒毒有效或无效的原因、目前基础或临床亟待解决的难题等,从而找到研究的空白或突破口。
在查全的基础上进行文献阅读和主题分析,可以了解到研究涉及较多的主题概念,一一排除研究较多的主题概念,逐步筛选出研究较少的主题概念,从而逐步锁定可能的研究主题。对可能的研究主题概念进行准确性检索,进一步了解是否可以选题。该过程是从广泛检索到准确检索的过渡,是科研人员已有的专业积累和获取的信息的有机结合,是逐步使研究目标清晰化、明朗化的创造性思维过程。
2.1.1 检索词尽可能具体、准确
对研究较少的概念进行准确性检索,逐步筛选研究主题。以生物碱为例,在CBM中使用检索结果分析功能,按主题排序筛选出排名前50的研究,包括阿片生物碱类、颠茄生物碱类等。采用逻辑非运算依次排除这些研究较多的主题概念,找到的文献量较少的主题可能就是目前研究的薄弱环节或空白点。表4显示了从大的文献集中逐步排除研究较多的概念,获得较小文献集的过程。 在较小的文献集中,科研人员根据自己的学术积累,选择感兴趣的、报道较少的研究主题则较为容易,如文献较少的双氢麦角碱与海洛因依赖、青藤碱与海洛因依赖、辣椒碱与海洛因依赖等主题。直接对通过综述阅读了解到的小而具体的概念进行检索,往往会出现检索结果为零的情况,常常意味着选题的所在。
表4 在CBM数据库使用逻辑非缩小命中文献集
2.1.2 利用副主题词限定主题的研究方向和领域
副主题词是一类限定词,用于对主题词的具体研究方向进行限定,能将同一主题内容的文献按不同研究领域进行划分,以提高主题词的专指性。用户根据需要选择一个或多个副主题词对主题词进行限定,能提高文献的查准率[2]。将表4检索策略#1加副主题词限定,检索式为“物质相关性障碍/药物疗法 AND 生物碱类/治疗应用”,文献量从4 412篇缩减到1 464篇。
2.1.3 在准确检索的基础上达到“全”和“准”的平衡
检索结果为零,并不一定意味着所选主题的新颖性,也有可能是选词不当或检索字段不当造成的漏检。所以在查准时,也要考虑检索词选择的全面性,以达到“全”和“准”的平衡。用选定的某一较小概念进行检索时,也应遵循前述3条查全原则,尽量全面地检索出该较小领域的全部研究。如当检索范围缩小到“辣椒碱与海洛因依赖”时,要考虑辣椒碱的同义词如“辣椒素”“辣椒辣素”等,海洛因依赖的同义词如“海洛因成瘾”“海洛因滥用”“海洛因吸食”等,以及利用各自的主题词“辣椒辣素”“海洛因依赖”进行扩展检索,同时也要在多个数据库中进行检索。
一个好的科研选题,必须是同时具备新颖性和可行性的课题,即未见相同文献报道,又有足够多的相关文献和背景文献可供参考和借鉴。查准的意义在于准确地筛选出可以进行研究的主题及其研究方向并提出研究假设。如通过不断排除研究较多的主题后,提出辣椒碱用于海洛因依赖戒断的假设。此时使用较准确的概念“辣椒碱”及其同义词“辣椒素”“辣椒辣素”等和“海洛因依赖”及其同义词“海洛因成瘾”“海洛因滥用”“海洛因吸食”等分别检索,检索结果有较多文献。两个检索结果逻辑与检索结果为零,即初步可以认为该假设是新颖的,并且是有一定研究基础的。
经过查全到查准的过程,初步明确了自己的主题或假设是否成立,是否可行,是否还需要验证,此为选题之第三重境界。选题验证的过程就是一个证明新颖性、找寻假设的合理性和科学性的过程。验证可以依据前序研究结果和相关研究结论,也可以采用文献学非相关文献知识发现法,从而达到科学选题。
前序研究结果常常为后序更深入的研究提供研究基础和可能条件。如通过对筛选出的较小概念“青藤碱”进行检索,可以了解到基础研究证实青藤碱对阿片类依赖具有防治作用且没有成瘾性,临床上尚未见青藤碱单方制剂作为戒毒药物的相关研究,提示研究者青藤碱对阿片类依赖临床干预的安全性和有效性的假设可能成立。
在课题非常新颖未查到任何前序研究的情况下,分别检索相关概念,找到的基础研究的结论也可作为假设的理论基础。如上述辣椒碱用于海洛因依赖戒断的假设未查到任何文献,分别查找辣椒碱和海洛因依赖的文献,了解到辣椒碱具有消炎镇痛、心血管保护、抗癌以及消化系统保护等药理作用,而海洛因依赖者主要表现为哈欠喷嚏、流泪流涕、怕冷出汗、寒热交替、寒战震颤、恶心呕吐、厌食、腹痛、腹泻、肌肉疼痛、骨和关节痛、心悸、烦躁焦虑、怠倦乏力、失眠等症状。检索分析提示该假设逻辑关系成立,具有科学性和合理性。
非相关文献知识发现法是由美国芝加哥大学情报学教授 Don R.Swanson于1985年创立的一种科学研究方法。该方法的基本思想是两组非相关文献集 A 和 C可以通过某中间概念或中间文献B 建立关联,通过A、 B、 C 之间的关系挖掘文献的隐含知识,形成合理的假设指导科学实践[3-4]。基于该方法需要找到中间概念B,从而发现非相关文献的潜在联系,帮助我们提出有价值的假设。
此时可运用数据库的检索结果聚类分析功能,聚类分析是数据库将返回的检索结果进行聚类/分类等处理,使结果变得更加有条理的一种方法,方便用户查看感兴趣的主题或者根据聚类情况提出更准确的查询,缩减用户浏览的文献数量,缩短用户查询时间[5-8]。
基于前期研究已筛选出了A、C两个非相关文献集,如辣椒碱和海洛因戒断、双氢麦角碱与海洛因依赖、青藤碱与海洛因依赖等。以CBM为例,采用辣椒碱的主题词“辣椒辣素”进行主题字段检索,获得A文献集进行主题聚类分析,在疾病-病理状态、体征和症状-体征和症状类目下涉及的主题概念有疼痛、神经病学表现等;采用相同操作检索海洛因依赖获得C文献集,主题分析在体征和症状类目下涉及的主题也有疼痛。由此推想辣椒辣素A和海洛因依赖C之间可能存在概念B,即疼痛。表5显示了验证疼痛确实为概念B的过程,可认为辣椒辣素和海洛因依赖可能存在隐含关联,是一个有价值的假设。
表5 在CBM中验证“疼痛”为概念B
选题是科学研究的起点,是在有效利用文献基础上的继承和创新,对科学研究起着关键性、方向性、战略性和决定性作用[9-10]。只有全面准确地检索、分析和利用国内外文献,才能准确把握本专业领域的研究前沿动态,提出新颖的有价值的研究假设,形成新的思维指向,构成新的研究起点。利用聚类分析、战略坐标分析、社会网络分析和高频关键词分析等可视化知识图谱方法进行选题[9]受科研人员青睐,但操作相对复杂,需要信息分析人员与科研人员相互配合才能完成。本文提出的基于文献检索的医学科研选题是通过文献的查全阶段全面了解相关研究现状、查准阶段提出科研假设,并通过验证阶段检验所提出的假设的选题方法。该方法强调充分利用数据库现有功能,遵循查全、查准以及新颖性原则,是一种适合普通科研人员或刚入行的研究人员的、可以轻松把握且简单有效的选题方法。