从PubMed数据库中挖掘生物医学中的十大热点话题

2013-10-17 03:19丹,朱
计算机与现代化 2013年1期
关键词:突破点热点话题生物医学

许 丹,朱 斐

(苏州大学计算机科学与技术学院,江苏 苏州 215006)

0 引言

PubMed是由美国国立生物技术信息中心(NCBI)开发的用于检索生物医学文献的搜索引擎。生物医学因为更加注重理论方面的研究而从传统医学中独立出来,它包含生物学、微生物学、化学、生物化学、生理学、动物学等众多领域。正是因为生物医学拥有庞大的研究领域,所以找到众多领域中的热点话题显得至关重要。现在,虽然PubMed能够方便高效地查找数据,但还是不能直接得到热点话题。

笔者所做的工作是找出2007年到2011年间生物医学领域内的关键词,然后从中提炼出热点话题。用E-utilities编写程序自动搜索涉及每个关键词的文献数目并根据这些数据画出表格进行直观的分析,最终得到生物医学领域内的十大热点话题。一方面,这些热点话题可以帮助其他研究人员了解生物医学的主要研究方向;另一方面,也可以为普通人提供一个简单的了解生物医学发展的方法。

1 相关研究

许多研究人员在进行类似的项目研究。Prakash M.Nadkami和 Chirag R.Parikh共同完成了一个应用软件,该应用软件能够通过eUtils创建一个管道,连接特定领域的生物医学文献,即使不会编程的用户也能方便地使用该应用。Weiss J.,Kirsner R.S.和Hu S.在PubMed和SCOPUS数据库中搜索与皮肤癌有关的一些关键词,结果发现美籍西班牙裔预防皮肤癌的主要方法。Thieu T.、Joshi S.、Warren S.和 Korkin D.介绍并比较了两种新的方法,这两种方法能判断一个PubMed文献中是否包含所给的特定的词,其中一种方法是基于语言的,另一种是基于特征的。

2 实现方法

2.1 找出关键词

《时代周刊》有一个名为“各式各样的前十名”的栏目,里面有一整年大家讨论最多的话题。其中有一个系列叫做“医学十大突破点”,总结了从2007年到2011年每年的十大医学突破点。笔者从这些突破点中总结归纳出关键词(见表1),除去重复的词,一共是34个关键词。

表1 2007到2011每年的关键词

2.2 编写程序得到文献数目

E-utilities是PubMed提供的一系列接口,通过这些接口编程可以自动从该数据库中得到数据。为了得到这些数据,程序需要将URL传到NCBI,然后得到返回结果。程序可以用多种编程语言实现,如Perl、Python、Java、C++ 等。选用 C#语言,将得到的关键词写入文件,然后通过程序连接到数据库,依次得到文件中每个关键词从2001到2011年的文献数。在程序中定义了一个叫PubMedDownload的命名空间,里面包括一个名为 Download的类。函数 get-FromPub承担了大部分程序功能。

变量定义如下:

主要查找语句是:

esResult.Count即为所需要的文献数。记录所有关键词的所有数据的表格为表2。

表2 2001到2011年各关键词对应文献数及平均值

3 结论

根据表2中的数据,尤其是每个关键词的平均值,可以总结出十大热点话题。它们是Surgery、Age、Bacteria、Genome、Food、Inflammation、Neuron、Diabetes、Blood Test和 Stem Cell(见表3)。

表3 关键词中提炼的十大热点话题

不难发现,它们中的一些是疾病如Diabetes、Surgery和 Inflammation,但大多数是一些研究领域如Age、Food、Stem Cell和 Blood Test等。为什么这些词成为热点话题并且拥有如此巨大的文献数目呢?原因也许是很复杂的。在这里,仅给出笔者的一些看法。首先,这些领域都涉及成千上万的人,拥有庞大的研究对象群体。其次,这些领域都拥有悠久的研究历史和广阔的研究范围。就拿糖尿病来说,目前全球大约有三亿人受到该疾病的困扰与折磨,并且每年大约有四百万人因糖尿病而死去,所以糖尿病是威胁人类健康的重大疾病之一。另一个关于研究领域的例子是血液检测,它则是与每个人都息息相关。综上所述,这些词成为研究人员研究的热门领域是有一定道理与依据的。

4 结束语

找出近年来生物医学领域中的热门话题对研究者来说是很重要的。知道并了解热点话题可以在一定程度上帮助研究者确定自己的研究方向,发现生物医学里的最新的研究发展趋势以及预测未来的研究的发展方向。

[1]欧荣.PubMed,ISI—Medline,Google Scholar检索性能对比测评[J].医学信息学杂志,2009,30(12):37-40.

[2]何蛟,崔雷,侯跃芳.面向主题词/副主题词的PubMed数据挖掘软件[J].中华医学图书情报杂志,2005,14(1):49-51.

[3]Prakash M Nadkarni,Chirag R Parikh.An eUtils toolset and its use for creating a pipeline to link genomics and proteomics analyses to domain-specific biomedical literature[J].Journal of Clinical Bioinformatics,2012,2(1):9.

[4]Chaussabel D.Biomedical literature mining:Challenges and solutions in the‘omics’era[J].Am.J.Pharmaco Genomics,2004,4(6):383-393.

[5]Thieu T,Joshi S,Warren S,et al.Literature mining of host-pathogen interactions:Comparing feature-based supervised learning and language-based approaches[J].Bioinformatics,2012,28(6):867-875.

[6]Botsis T,Nguyen M D,Woo E J,et al.Text mining for the vaccine adverse event reporting system:Medical text classification using informative feature selection[J].J.Am.Med.Inform.Assoc.,2011,18(5):631-638.

[7]熊筱晶.R语言在PubMed数据库文献检索方面的应用[J].医学信息:上旬刊,2009,22(1):42-45.

[8]许昌泰.1947-2008年PubMed中神经递质相关文献计量学分析[J].中华医学图书情报杂志,2010,19(8):74-77.

[9]Li Hai-Yan,Cui Lei,Cui Meng.Hot topics in Chinese herbal drugs research documented in PubMed/MEDLINE by authors inside China and outside of China in the past 10 years:Based on co-word cluster analysis[J].The Journalof Alternative and Complementary Medicine,2009,15(7):779-785.

[10]李友仁,刘松岩,黄敏.PubMed检索概述[J].医学信息:上旬刊,2002,15(7):443-446.

[11]陈会果.数据挖掘技术浅析[J].科技创业月刊,2010,23(11):167-168.

[12]史书侠,杨华.中华眼科杂志2001至2004年载文分析[J].中华眼科杂志,2005,41(7):652-655.

[13]NCBI.E-utilities编程接口参数描述文档[EB/OL].http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_help.html,2012-09-13.

[14]Time.时代周刊主页[EB/OL].http://www.time.com,2012-09-13.

猜你喜欢
突破点热点话题生物医学
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
灵长类生物医学前沿探索中的伦理思考
国外生物医学文献获取的技术工具:述评与启示
2017年高考作文热点话题预测
二轮复习如何找突破点
基于SVM的热点话题跟踪实现过程研究
LED光源在生物医学中的应用分析
找到分级诊疗的突破点
面对复杂局面必须找到突破点
寻找县级公立医院改革的突破点