唐福涛
(天津商业大学科研处 天津 300134)
研究主题是指某一研究领域内的主要研究内容,反映了该领域的科研工作者和管理者的研究热点和工作重点[1]。随着当今科技的不断交叉与融合,如何透过科技研究主题的演化分析和把握科技发展态势,对科技工作者尤为重要。国家科学技术奖代表了科学研究的最高荣誉,是反映国家科学技术进步的重要标尺,也代表各个行业科学攻关的方向,所以,对国家科学技术奖研究主题分析有重要的现实意义。
我国幅员辽阔,各省市自治区受地理位置、社会文化、自然资源等因素的影响,经济发展不平衡,在科研产出结构和优势领域的分布上差异性大。为了揭示我国各省市自治区的研究主题和优势领域,本文以2010—2019年国家科技进步奖获奖项目为数据源,统计分析了我国31个省市自治区(不包括港、澳、台)在各评审组中的科技进步奖项获得情况,并借助jieba分词功能对研究主题进行细化分析。
目前、国内外学者针对某一行业研究领域或者主题的分析已经很多,如大数据领域[2-3]、医药领域[4]、计算机集成制造领域[5]、国内环境治理领域[6]、卫生应急处置领域[7]等。但是,纵观目前对研究主题的分析,数据来源都集中在研究论文和专利方面,还没有对科学技术奖的主题分析,而国家科技进步奖作为科技研发的前沿和主要阵地,对科技发展意义不言而喻。另外,目前的研究多是针对某一个或几个特定的领域,具有一定的局限性。本文主要是从宏观层次上进行国家科技进步奖研究领域主题的分析。
本研究数据源来自国家科学技术奖励工作办公室网站[8],在国家科技奖励—国家科学技术进步奖栏目,从获奖项目目录即可查看历年的获奖项目。数据的筛选和处理分以下几个步骤:(1)下载2010—2019年国家科技进步奖通用奖项一、二等奖项目名单(不含专用项目),并导入Excel 表格;(2)整理获奖项目所属评审组,并对获奖项目所属省市自治区进行划分(含获奖参与单位);(3)利用Python 中jieba 中文分词包功能,对每个项目获奖名称进行分词处理并进行清洗统计。
统计2010—2019年31个省市自治区(不包括港、澳、台)参与国家科技进步奖项目的情况显示:整体上各省市的国家科技获奖项目数呈现“一超多强”的分布趋势,北京作为首都,获奖的次数明显多于其他省市,其他经济发达地区,如上海、广东、江苏、浙江获得奖项的次数也比较多,而西部欠发达地区,如贵州、青海、西藏等省市获得奖项的数量明显少,总体上,国家科技进步奖各省市自治区获奖频次存在着明显的东强西弱的特征。
分词是将由字符序列构成的句子按照一定的规则重新组合成词的集合,中文分词就是指将句子中汉字序列切分成词集合[9]。jieba中文分词工具是一款使用Python 语言开发的分词效果较好的分词器、开源分词工具,它的主要特点有3 个:(1)支持3 种分词模式,即精确模式、全模式和搜索引擎模式;(2)支持繁体分词;(3)支持自定义词典。jieba 分词的实现基于以下3 个原理[10]:(1)基于trie树结构,实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(directed acyclic graph,DAG);(2)采用动态规划,查找最大概率路径,找出基于词频的最大切分组合;(3)对于未登录词,采用了Viterbi 算法和基于汉字成词能力的HMM模型。
本研究是基于国家科技奖获奖项目的名称进行分词处理,获奖名称是对获奖项目的精确、浓缩概括,因此,采用jieba分词中的精确模式。该模式是jieba分词中最基础和自然的模式,它试图尽可能精确地划分语句,特别适合极短文本分析。
国家科技进步奖项目基本每年会设有30 个左右的评审组,范围涵盖了理、工、农、医类全部学科方向。随着时代发展,评审组也会有微调,如2010—2011年设有先进制造与重大装备、安全生产、循环经济3个评审组,2012—2019年则没有这3个评审组,2019年之前农艺学和农业工程学是在一个评审组,2019年之后农艺学和农业工程学分开评审。所以。本文在历年奖项评审组的基础上进行了微调,归纳了30 个评审组,汇总了2010—2019 各个省市自治区在评审组里面主要参与获奖频次,如图1所示。
由图1可知,北京作为全国政治经济中心,在国家科技进步奖获奖方面,获得评审组奖项的数量遥遥领先,地处长三角、珠三角地区的上海市、江苏省、浙江省、广东省参与获得国家科技进步奖的次数也比较多,获奖范围基本涵盖了多数的评审组领域,与这几个省份经济发达、学术资源丰富、各行业基础研究力量较强相关。
图1 各省市参与国家科技进步奖评审组情况统计
在全部30个评审组各省市自治区获奖次数里面,北京在26 个评审组里居于首位,另外的4 个评审组里面,通信组是广东省获奖次数最多,机械组、纺织组、工人农民技术创新组都是江苏省获奖次数最多。从各个省市在各评审组获奖的情况来看,北京市、上海市、江苏省、浙江省、广东省、山东省、湖北省不但获奖次数多,而且涉及的评审组也广,科技发展创新活力较强;其他省市比较典型的,如河南省在作物遗传育种与园艺、农业工程评审组获奖比较多,陕西省在动力电气与核电评审组里面参与次数比较多,湖南省、辽宁省在金属材料评审组里面参与次数比较多;而在经济薄弱的西部地区,如宁夏、西藏、青海等在各个评审组获奖都很少,科技获奖能力偏弱。
利用jieba中文分词功能,探究31个省市自治区的研究主题,包括3 个步骤:(1)对2010—2019年度获奖项目名称进行分词处理;(2)对数据进行清洗,剔除一些不能体现研究主题或内容的词语,如“关键技术”“开发”“应用”“工程”等;(3)整理31个省市自治区获得国家科技进步奖项目主要所属评审组及分词数据,如表1所示。由分词数据更能直观地看到各省市自治区的科技研究优势领域,各省市研究主题和所属评审组两者之间也有较高的关联性,例如:上海的外科与耳鼻喉组、内科与预防医学组与分词数据的临床、治疗、疾病互相关联;河南的作物遗传育种与园艺组、农艺组、农业工程组与分词数据的新品种、选育、小麦关联度高。由分词数据信息进一步反映了31个省市自治区的科技研究主题。
表1 31 省市国家科技进步奖主要所属评审组及分词数据
各省市自治区在国家科技进步奖中获奖频次受多方面因素影响,区域学术资源、经济发展状况、自然资源聚集都会对研究主题产生影响[11]。京津冀、长三角、珠三角地区无论是学术资源还是经济发展都走在前列,所以,在各评审组中都能斩获奖项。一些典型的自然资源聚集的省份在各自优势产业也有收获,如山西省是煤炭大省,其获奖主要来自于矿山工程评审组;广东省的电子通信业是其支柱产业,故其在通信组中排名首位。中西部地区只有四川省和陕西省在国家科技进步奖项目中能位于前十位,原因在于这两个省份都有8个双一流高校,还有部分科研院所,属于人才知识聚集地,其他西部偏远地区无论是自然资源还是经济活力、学术资源都比较劣势,科技创新能力较弱,在国家科技进步奖项目中获奖很少。
本文在归纳各省市自治区2010—2019年获得国家科技进步奖项目所属评审组基础上,对获奖项目名称进行分词处理并进行研究主题分析,主要得出了如下结论。(1)31个省市自治区获得国家科技进步奖的项目数呈现“一超多强”“东强西弱”的态势,北京处于遥遥领先位置,长三角、珠三角经济发达省市科技获奖能力较强,西部偏远地区获奖能力偏弱。(2)31个省市自治区的研究主题和地域的学术资源、自然资源密切相关,以适应当地经济社会发展的需要。(3)31个省市自治区获得国家科技进步奖项目所属评审组与项目名称分词数据关联性高,进一步反映了各省市的科技研究主题情况。
本文以国家科技进步奖项目为源数据,利用统计和jieba分词方法,探究了31个省市自治区科技研究主题,有助于科技工作者进一步把握科技发展方向,有助于政府和有关部门制定宏观科技发展战略。当然,研究还存在一定的局限,后续需进一步做优化处理。(1)分析对象是以国家科技进步奖为数据源,没有包括其他国家科技奖项,如国家技术发明奖、自然科学奖,虽然这些奖项数量比较少,但是也可以反映各省市自治区的科技研究主题。(2)此次统计整理各省市自治区获得国家科技进步奖项目的所属评审组和项目名称分词数据,未区分该省市是项目的主持单位还是参与单位,一个获奖项目的取得往往是多家单位合作的成果,机构在项目中排名能反映机构对项目的贡献度,后续可做各省市自治区研究深度的量化分析。(3)本次研究年限是2010—2019年,没有对31个省市自治区的研究主题进行分阶段分析,后续对研究主题的分析可分阶段进一步关注演化趋势。