陈梁华++刘宇平++杨伟红+张新凤
[摘要] 呼吸系统疾病现已成为全球所有年龄组中死亡和伤残的重要原因之一,雾霾是继吸烟之后导致肺癌的又一大危险因素,认识呼吸疾病,对于了解人体疾病治疗发展趋势有着重要意义。本文通过SCI文献数据库收集呼吸系统领域的疾病数据,包括作者关键词数据、文章分类关键词、文章研究分类、重要研究型期刊影响因子等指标内容,运用词云分析技术及相关统计手段对现有数据进行归类及排序,从整体上对现有研究热点、趋势进行直观描绘,对临床防治研究、优化配置医疗资源具有积极的理论指导意义。根据分析数据表明,“肺”是研究最多的器官,而生物作用机制中的如何“表达”是研究者最热衷的内容,说明现有的研究主要集中在阐明疾病的发生原因、药物或治疗手段的作用机制。
[关键词] 呼吸系统疾病;词云;文献分析
[中图分类号] G350 [文献标识码] A [文章编号] 1673-7210(2017)02(c)-0168-05
呼吸系统疾病是一种常见病,随着科学技术的不断发展,其不同时期研究热点也呈现差异,为更好地把握区域发展趋势,抓住研究重点方向,有必要通过有效的统计方法对其当前研究现状开展分析,通过热点分析研究,可以找出能产生重大影响的杂志以及研究内容,对于把握正确研究方向、指导开展科研工作具有重要意义。研究表明,呼吸疾病的发病机制是目前该领域的研究热点,其中对T淋巴细胞、细胞因子、嗜酸性细胞、肥大细胞、炎症介质、黏附因子等在炎症中的作用机制研究较多。本文从杂志影响、SCI文章分类、作者关键词、文章分类词等方面开展聚类分析,以达到描述当前呼吸疾病发展趋势的目的。
1 呼吸疾病研究对居民健康和社会发展的意义
呼吸系统疾病是我国的常见病、多发病,其中,慢性呼吸道疾病患病率高,致残率和致死率高,随着近期PM 2.5指数的恶化,空气中携带的化合物也容易成为导致呼吸道疾病的背后推手。目前,中国慢性阻塞性肺疾病(COPD)患者约3280万例,40岁以上的患病率达8.2%;哮喘患者约1500万例,发病率约为1.2%[1-2]。根据我国人口疾病死因最新调查显示,呼吸疾病在农村地区疾病死因中居首位(23.5%),在城市中居第4位(12.6%)。世界卫生组织全球抗击慢性呼吸疾病联盟(GARD)的调查显示,中国死亡总数的17%来自慢性呼吸疾病。近20年我国肺癌的发病率和死亡率均迅速增加,已居国内城市恶性肿瘤的首位。目前我国肺癌患者约50万人,居世界第一。呼吸疾病不仅成为严重的公共卫生问题,也给家庭乃至社会带来沉重的经济负担。加快升级改造现有研究局面,有助于提升我国科学研究整体实力,改善居民卫生健康环境,提高生活质量,从而适应社会发展的需要。
2 根据聚类分析图,直观描述呼吸疾病领域概况
聚类分析是对一堆数据进行聚类[3-7],通过直观图表的数据点大小以及连接线的疏密情况来判断数据的关联程度,在现实生活中,能够进行分类的情况很多,在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中[8-10]。如根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家,而按照消费者的特征也可以对消费者进行分类,按照产品特征可以对产品进行分类。分类前并不知道存在什么类别,而是直接根据数据的特征确定。聚类分析就是按照对象之间的“相似”程度把对象进行分类[11-13],便于研究者通过分类发现和总结规律。因此,目前分类问题的研究具有十分重要的意义和作用。
根据图1所示的聚类分析图(数据内容源自汤姆森公司网站),排名第一的杂志为《LANCET RESP MED》,影响因子为15.328,排名第二的杂志为《AM J RESP CRIT CARE》,影响因子为13.118。
表1为呼吸疾病SCI杂志2015年度的影响排名数据,从表中不但可以清楚地看到各种杂志的影响力,而且可以知道其2015年度的引用情况,其中“特征因子”由华盛顿大学和加州大学圣塔芭芭拉分校的West、Bergstrom等人组成的研究团体构建和完善,其工作原理类似于Google的“网页排名”(PageRank)。两者都基于社会网络理论,区别在于Google利用网页链接,而“特征因子”则借助引文链接。它们都基于整个社会网络结构对每篇论文或每个网页的重要性进行评价。与期刊影响因子不同的是,“特征因子”不仅考察了引文的数量,而且考虑了引用期刊的影响力,即:某期刊如果越多地被高影响力的期刊引用,则该期刊的影响力也越高。正如Google考虑超链接的来源,“特征因子”也充分考虑引文的来源,并在计算中赋予不同引用期刊的引文以不同的权重。
图2为按研究类别聚类后的分析数据,结果表明,排名第一的为“ECONOMICS(经济学相关)”,该类一共有345种杂志,排名第二的为“MATHEMATICS(数学或应用数学相关)”,该类一共有312種杂志,表明以经济和应用数学相关为主题的杂志占多数,也为人们所热衷和普遍容易接受。
但杂志数量的多少、排名并不能反映学科研究热点及先进技术,而剔除杂志数量改按影响因子排名后发现,影响因子第一名为“CELL BIOLOGY(细胞生物学)”,影响因子为5.602;影响因子第二名为“CHEMISTRY,MULTIDISCIPLINARY(化学,多学科)”,影响因子为5.586;影响因子第三名为“ONCOLOGY(肿瘤学)”,影响因子为4.315;影响因子的大小也恰好反映研究的难易程度及技术含量。
3 运用词云分析方法,简明扼要描述学科发展趋势
在当今大数据时代,主要矛盾为日益增长的庞大数据生产、存储能力和媒体与数据分析、加工能力之间的矛盾。词云,在数据分析中以一种通过大小的直观可视化的分析来表达并渲染结果,对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。最常见的应用就是博客、演讲内容和CMS类站点中的标签云[14-16]。使用词云工具,可以对海量的文本数据进行分词处理,按照某一个词出现频率的高低进行排序并区分显示,经过大数据文本处理技术、排序算法后,能获得对内容关键信息的快速、精准、深度洞察。词云,实际上是将文档包含的词汇频率表进行了可视化。这些词汇的重要程度主要通过改变字体大小或颜色来表现。
通过攫取呼吸系统疾病类SCI文章的分类关键词,通过R STUDIO软件生成词云图,见图3。
根据图3显示结果,词频最高的为“EXPRESSION”,其中文意译“表达”,跟表达相关的有基因表达(基因中的DNA序列生产出蛋白质的过程),其影响包括分子遗传学、细胞分化与发育、基因表达与调控等多学科,说明SCI研究类文章目前多数注重深层次的追根溯源研究。通过CNKI搜索引擎,也可以找到相关结果1 604 280条。各种生物疾病都跟基因表达有一定的关系,包括目前方兴未艾的人类基因组计划(HGP)和人类基因组单体型图计划(HapMap)这两个超级研究项目的开展[17-18]。人类展开了针对由30亿个碱基对、大约数万个基因组成的基因组的研究,用尽一切办法寻找可能的致病因素。
而有关表达的研究有代表性的为EGFR,即Epidermal Growth Factor Receptor,上皮生长因子(EGF)细胞增殖和信号传导的受体。研究表明,在许多实体肿瘤中存在EGFR的高表达或异常表达[19-20]。现开展的研究有EGFR及其突变小分子抑制剂的筛选及生物学作用研究、EGFR及其突变体的生物化学与细胞生物学功能体系的构建等。应用蛋白相似性建立不同EGFR基因型的突变体的蛋白三维度空间模型,进行小分子抑制剂的设计,对具有较好开发前景的小分子抑制剂在多种动物模型上验证其体内抗肿瘤活性。
紧紧围绕并跟随首位关键词排名的是“obstructive”,意译为“阻塞性,梗阻性,妨碍的”,具有代表性的为慢性阻塞性肺疾病,简称慢阻肺(COPD),是一种破坏性的肺部疾病,是以不完全可逆的气流受限为特征的疾病,气流受限通常呈进行性发展并与肺对有害颗粒或气体的异常炎性反应有关。COPD也是一种高发病率、高致残率和高病死率的呼吸系统疾病,发病时不仅气流受限,还可以伴有其他肺外系统的异常表现,即COPD全身效应,较常见的有营养不良和体重减轻、神经异常症状、骨骼肌功能障碍、血液系统、心血管并发症及骨质疏松等,这些肺外效应常常导致患者症状的反复出现及降低生活质量。据世界卫生组织的最新数据显示:由于吸烟、空气污染等原因,目前全球已有6亿人患有COPD,预计患病率还会继续上升,到2020年将成为全球第三大致死疾病,在中国约有超过3800万例患者。更为可怕的是,如此高的致死率并没有引起人们对该病的重视。
COPD的危害主要表現在呼吸衰竭、自发性气胸、慢性肺源性心脏病和右心衰竭、睡眠呼吸障碍、胃溃疡,同时可能出现肺动脉高压和心律紊乱。吸烟是COPD的最主要发病原因之一,80%~90%以上的COPD患者源于吸烟。香烟及污染空气中的有害物质刺激易感人群气道炎症细胞等释放大量促炎因子和蛋白酶类,导致肺內氧化/抗氧化失衡、蛋白酶/抗蛋白酶失衡等一系列生理指征改变,最终导致肺气肿和慢性支气管炎。
随着环境的恶化,PM2.5指数起到指示空气质量的作用,空气中大量的粉尘携带化学物质,而人吸入这些复合物质后会导致疾病的发生。近年来,地毯编织、生物燃料、面包烘烤是肺疾病的重要危险因素,气体燃料、使用煤油、家禽饲料是相对危险因素。20世纪末,中国大气污染特征发生重大转折,SO2、PM10、NO2等一次污染下降,而O3污染和细颗粒物PM2.5导致的雾霾问题凸显,二次污染日趋严重。
以作者关键词为维度,从海量的数据中抽取后发现,研究最多是“lung”,其次为“cancer”,即肺为最多研究的对象,其次为呼吸相关的肿瘤,合并在一起,肺肿瘤为最多的研究对象,也是当今呼吸疾病研究的难点和重点。见图4。肺包括肺动脉高压、肺气肿、COPD等疾病,肺功能水平也是呼吸系统疾病的重要监测指标,肺功能检查是呼吸系统疾病的必要检查之一,对于早期检出肺、气道病变,评估疾病的病情严重程度及预后,评定药物或其他治疗方法的效果,鉴别呼吸困难的原因,诊断病变部位,评估肺功能对手术的耐受力或劳动强度耐受力及对危重患者的监护等方面有重要的指导意义。而肺癌方面的研究则每年都在发展,2011年克唑替尼获准用于治疗ALK阳性的NSCLC患者。2013年美国预防服务工作组(USTSPF)推荐低剂量螺旋CT。2014年Ceritinib(色瑞替尼)获批用于ALK阳性的肺癌患者。而2015年则是免疫治疗占肺癌治疗的半壁江山的一年,另针对不同靶点的药物治疗仍占据重要地位,包括二代ALK、三代表皮生长因子受体(EGFR)-酪氨酸激酶抑制剂(TKI)、MET抑制剂等。目前主要有两大治疗策略正在探索之中,被证明有一定疗效,一是释放身体的自然免疫反应以对抗癌症,二是帮助免疫系统发现并摧毁癌症细胞。
4 小结
了解呼吸疾病发展的趋势,如发病机制、药物的作用机制等对于人类卫生健康事业具有重要意义。本文运用词云分析技术及相关统计手段对现有数据进行归类及排序,从整体上对现有研究热点、趋势进行直观描绘,SCI文献数据库是一座知识宝库,采用现代手段对数据处理加工后可以得到更直观、简洁的描述结果,便于研究者进行分析参考。
[参考文献]
[1] 高静.关注呼吸慢病 院士开讲基层防治第一课[EB/OL]. [2015-10-20]. http://news.ifeng.com/a/20151020/45709386_0.shtml.
[2] 王瑶,潘旭东,王翎.国外老年COPD慢病管理的现状及启示[J].中国老年学杂志,2013,33(1):236-239.
[3] 李俊.大数据时代需要更多“词云”钥匙[J].中国记者,2013,72(4):2.
[4] 丛丽君.词云在英语词汇教学中的应用研究[J].南通航运职业技术学院学报,2016,15(3):121-124.
[5] 刘稼.聚类分析在中医药研究中的应用及意义[J].中医药学刊,2004,22(5):927-928.
[6] 杨天伟,张霁,李涛,等.基于主成分分析和聚类分析的不同产地绒柄牛肝菌红外光谱鉴别研究[J].光谱学与光谱分析,2016,36(6):1726-1730.
[7] 张方圆,李峥.近5年护理研究热点的共词聚类分析[J].中华护理杂志,2016,51(2):248-252.
[8] 王光沛,潘景昌,衣振萍.基于线指数特征的海量恒星光谱聚类分析研究[J].光谱学与光谱分析,2016,36(8):2646-2650.
[9] 海容,姜安丽.基于内容分析法的国际护理管理领域研究主题分析[J].护理研究:下旬版,2014,28(2):663-665.
[10] 李佳.共词矩阵在聚类结果分析中的作用[J].中华医学图书情报杂志,2009(4):77-81.
[11] 任晓龙,朱燕燕,王思云,等.在线社交网络结构与区域经济关联性研究[J].电子科技大学学报,2015,44(5):643-651.
[12] 朱建平,谢邦昌,骆翔宇,等.中国房地产网络舆情分析[J].数理统计与管理,2016,35(4):722-741.
[13] 王谦,罗长坤,刘东海,等.人类基因组计划推动下的美国生物医药技术发展及启示[J].中国科学基金,2002, 16(2):88-91.
[14] 李晶鑫,張寰,许芳秀,等.非吸烟女性肺腺癌患者肿瘤组织EGFR基因突变、miR-25表达与生理生育特征的关系[J].山东医药,2016,56(35):1-4.
[15] Andenaes R. Psychological characteristics of patients with chronic obstructive pulmonary disease:a review [J]. J Psychosom Res,2005,59(6):427-428.
[16] 焦周光,付绪磊,温占波,等.北京大气PM2.5对A549细胞炎性因子及DNA损伤的毒性[J].中国环境科学,2016,36(5):1579-1588.
[17] 段争,吴翠红.细颗粒物PM2.5暴露加重博来霉素致大鼠肺纤维化[J].基础医学与临床,2015,35(5):781-785.
[18] 木木-小新.ASCO2014:肺癌研究进展回顾[EB/OL]. [2014-06-01]. http://oncol.dxy.cn/specials/asco2014/article/77100.
[19] 许世广. ASCO 2015肺癌领域研究荟萃[EB/OL]. [2015-12-01]. http://www.haodf.com/zhuanjiaguandian/xushiguangdr_3425994640.htm.
[20] 丁香园. ASCO年度报告:2016年免疫治疗进展[EB/OL]. [2016-02-29]. http://oncol.dxy.cn/article/485450?keywords=ASCO2015.
(收稿日期:2016-10-24 本文编辑:程 铭)