刘金花
(山西医科大学汾阳学院卫生信息管理系,汾阳 032200)
领域性科研机构的研究热度评价方法
刘金花
(山西医科大学汾阳学院卫生信息管理系,汾阳032200)
科学技术的高速发展促使科技文献知识的研究也日益专门化,作为创新主体的科研工作者他们对快速获取有用的信息和知识变的更为迫切,在现实情况中,通过查找关键词在电子检索系统检索到的相关文献成千上万篇。很多准备从事科研工作的人员,希望能够对某一科研领域的主要研究机构有一个完整的、具体的认识;然后决定奔赴哪个科研机构学习或者是增加与哪个科研机构的学术交流等。
本文提出了科技文献科研机构的热度挖掘方法,文中综合考虑了某领域研究机构中研究人员的数量、发表文章的数量和学术水平三方面的因素,对科研机构在给定领域的研究热度进行打分。然后用同样的评价方法获得每个机构在各个时间段的研究热度值,我们就可以清晰的看出各个研究机构在给定领域的研究热度趋势,以便预测将来的发展趋势。
1.1数据来源
本文研究的数据来源于1999-2010年的中国学术期刊网站,以“机器翻译”作为搜索的关键词搜索文献。选取其中被引用频次超过一次(包含一次)的文献,抽取了文献数据中的论文标题、作者、摘要、标题、研究机构、发表时间、被引用频次、被下载频次、分类编号等10个字段,导入到MySQL数据库中。舍弃被引频次小于1的文献,是因为没有引用频次的文章我们可以认为这些文献的学术价值是比较低的,并且没有引用频次的文献大都不是来自主流的期刊和会议。
1.2文献机构信息统计
对于每篇文章所隶属的研究机构进行统计,因为论文的研究机构署名在不同的阶段单位名称会有稍微的差别,但是其实都属于一个研究单位,例如:“中国科学院自动化研究所”,有时候也简称为“中科院自动化研究所”。所以本文在统计机构信息时,对这些机构单位进行了统一处理,将同一所大学的整理为同一个研究机构。我们对本文的实验数据的机构信息及其所在1999-2010这12年间发表的文章数量做了统计,在“机器翻译”领域发表的文章中,署名的机构数总共有688个,大部分是高等院校,还有一些研究所等。表1中只列出了发文数量超过20(包括20)篇的研究机构。
由于绝大多数的人都关心的是某一领域中的核心研究机构,因为这些机构的研究人员和发文数量都是非常高的,故我们在对研究机构进行热度评价之前,可以进行一些过滤操作以确定主要的研究机构,然后再对这些主要的研究机构进行研究热度值评价。另外,各个研究机构对该领域研究热度可以通过该机构发表的论文数量、研究人员数量等信息来反映出来,但是一般反映一个研究机构的学术研究水平及研究的深度,仅仅通过数量是不够的,还应该考虑到该机构发表论文的质量。因此研究机构的热度分析可以按照以下流程进行,如图1所示。
图1 研究机构热度分析流程图
表1文献的机构信息及发文数量统计
2.1主要研究机构的确定
一般情况下,一个研究机构发表的论文数量越多,说明该机构对该领域的研究越深入,但是不能忽略掉一个因素——研究人员的数量。如果一个研究机构A在某一领域总共发表了论文数为100篇,但是A机构中的研究人员数为20;而另外一个研究机构B在该领域发表的论文数为20篇,但是B机构的研究人员为1人次。A机构与B机构的人均发文量是一样的,我们该认为哪个机构更有影响力?通常我们会认为机构A比B更有影响力。为了避免这种情况的大量发生,本文采取了对研究机构进行初步筛选的过程,过滤掉那些机构中研究人员特别少的或者是发表的论文数量特别少。制定的研究机构过滤准则如下:
(1)如果一个机构的研究人员的数量少于12,则去掉该机构。
(2)如果一个机构的发文数量少于12(包含12),则去掉该机构。
为了保证在12年间年均研究人员数是1人,年均发文量是1。述两条过滤准则的中提到的阈值都设为12。在上文已经对文献机构信息进行了统计共有688个机构,按照上述研究机构的过滤准则进行初步的过滤之后,剩下了31个研究机构。
另外,一个研究机构在某领域的研究水平,仅仅通过论文数量和人员数量是不行的,如果一个研究机构研究人员壮大,但是发表了一堆没有什么含金量的文章,那么我们也不能认为该机构是非常有影响力的机构。一般来说被引用频次是评价学术论文学术质量的重要指标,如果一个机构发表的论文的引用频次越高越能体现出该机构的学术研究质量,在一定程度上发表的论文的被引用频次、篇均被引频次能说明该机构的研究水平。下面对各个研究机构的人员分布和被引用情况的统计,表中列出了去掉了篇均被引率小于14的机构。
表2机器翻译领域主要的研究机构
2.2机构的研究热度评价方法
当我们确定了该研究领域的核心研究机构之后,接下来制定评价一个研究机构对某一领域的研究热度值,不光要考虑该机构投入的研究人员数量,还应该考虑该机构的产出量和学术水平,故本文综合了这三个因素来评价某一研究机构对特定领域的研究热度,如公式(1):
其中Hot(Oi)表示机构Oi的研究热度值,persons(Oi)表示机构Oi的研究人员总数,papers(Oi)表示机构Oi发表的论文总数,cited(Oi)表示机构Oi的文献被引用的总次数,m是已确定的核心研究机构的个数。因为公式(1)中三部分都是一个比例关系,这种比例值有时候会出现非常小甚至趋向于零的情况,因此为了计算的准确性本文在计算的过程中对最终的热度值Hot (Oi)进行了取对数操作。
表3 1999-2010年各个研究机构机器翻译领域的研究热度值
表3是本文根据上述的热度计算公式计算的在1999-2010这12年机器翻译领域各个研究机构的热度值。从表中来看,排在前几位的研究机构确实是在人员投入、发文的数量和质量方面都是比较高的,因此,用本文提出的对研究机构的热度值打分的方法一定程度上是有效的,但是对于排名靠后的机构的次序就不确定是否准确。
2.3研究机构研究热度趋势变化
类似的我们可以计算某一研究机构在不同年度的研究热度值,这样就可以描绘出该研究机构在该领域的研究热度曲线图。通过这个热度变化趋势可以进一步预测在接下来的时间内,该机构在该领域的研究趋势是处于较高状态还是较低的状态。如图2所示,是我们选取的五个主要的研究机构在“机器翻译”领域的研究热度曲线图。从图中趋势就可以预测在未来的几年之内中科院在机器翻译领域的研究会一直处于比较高的状态。
图2 1999-2010年五个研究机构在机器翻译领域的研究热度曲线
本文对某一领域文献知识进行了研究机构的热挖掘工作。并且以“机器翻译”领域来举例,从实验数据的设置到研究点的热度分析步骤,研究机构的热度分析步骤都做了详细的讲解,并且对实验的结果进行了分析,证实了此种方法在一定程度上还是可行有效的,而且用了可视化的方法展示给用户,符合了本文研究的初衷。另外,本文的热度挖掘方法不仅是针对机器翻译这一领域的,还可以运用到其他的领域,只要保证数据是文献数据,并且能够达到一定的规模,用本文提出的方法对某一领域的研究机构进行热度分析,都是可行的。另外,本文的针对科技文献的挖掘工作都是针对下载到本地的文献数据做的挖掘工作,但是现实生活中网络的发达,导致文献数据的更新很快,如果我们能够针对在线的数据进行挖掘工作,并且能够提供出可视化的热度分析趋势图,那将会造福很多的科研工作者。因此,基于实时性的在线文献挖掘工作也是将来工作的一个重点。
[1]HAN Jia-wei,Micheline Kamber,PEI Jian.数据挖掘概念与技术(原书第3版)[M].北京:机械工业出版社,2012.
[2]宗成庆.统计自然语言处理(第2版)[M].清华大学出版社.北京:清华大学出版社,2013.
[3]柯健,李超.我国社会科学领域数据挖掘研究的文献计量分析.现代情报,2010,31(6):102-106.
[4]黄永煤.读者需求分析中的数据挖掘技术[J].大学图书情报学刊,2006,24(4):48-50.
[5]邱均平,缪雯婷.文献计量学在人才评价中应用的新探索[J].评价与管理,2007,2(6):1-5
Literature Mining;Research Institutions;Evaluation of Research Hot
Research Hot Degree of the Evaluation Method of Research Institutions in a Certain Field
LIU Jin-hua
(Fenyang College Shanxi Medical University,Fenyang 032200)
1007-1423(2015)29-0045-04
10.3969/j.issn.1007-1423.2015.29.012
刘金花(1987-),女,山西汾阳人,硕士,助教,研究方向为自然语言处理、数据挖掘
2015-09-24
2015-10-07
从大量文献中快速获得某一领域的核心科研机构,对准备开展科研工作的科研人员具有极大的导向作用。爬取网上某一领域文献数据,综合考虑机构的研究人员数、发文量和被引文量,提出针对研究机构的研究热度的评价方法,并且对每一个研究机构在各个时间段进行热度评价,然后绘制出热度趋势图。
文献挖掘;研究机构;研究热度评价
It has a great role in guiding for research staff whom preparing to carry out research work,if we can obtain the core research institutions for a given field from a large number of scientific literature rapidly.Crawls a certain field literature data from Internet,and proposes an evaluation method of research hot value for each institute considering the number of researchers,the volume of published articles and the amount of the citation comprehensively,uses a visual way to display distribution graph of the field in a certain period.