黄晓林 王辉 黄卉 蒋欣宏
[摘要] 科技报告是与科研项目紧密相关的特种文献。基于科技报告数据,采用文献计量学和复杂网络的方法,对湖南省现代农业领域的研发现状进行了分析。研究发现,湖南省现代农业领域研发目前侧重在种植业、现代种业和农技推广应用等方向;各研究热点间联系较多,也较紧密;不同主要研究热点所属的研究主题不同,研究的内容也有所区分。
[关键词]湖南;现代农业;研发现状;科技报告
[中图分类号]F327;G358[文献标识码]A
1 引言
当前,我国正由传统农业向现代农业转型,已进入发展现代农业,加快构建新型农业经营体系,深入推进农业发展方式转变,建设社会主义新农村的关键时期。农业科技创新是推进农业现代化的重要动力。我国农业科技进步贡献率已达到57.5%,但仍与发达国家有较大差距。湖南省作为农业大省,总体R&D投入占GDP比重偏弱,2016年仅为1.5%。因此了解区域农业领域的研发现状,对做好农业产业规划布局,合理分配有限的农业领域研发资金,最终促进区域农业的健康发展,具有重要意义。
科技报告是科技人员为了描述其从事的科研、设计、工程、试验和鉴定等活动的过程、进展和结果,按照规定的标准格式编写而成的特种文献。在我国,科技报告由国家和各级政府采取一定的行政手段强制形成,是国家和地区的重要战略资源。由于科技报告与科技项目关系的特殊性,科技报告不仅记录了科技项目的基本信息,它同时还有对科技项目科学研究和技术实施内容的完整描述。我国于2014年建立国家科技报告共享服务系统,目前已收录各类科技计划项目提交的科技报告10万余份。湖南省于2015年启动科技报告工作,截止2018年4月,湖南省科技报告共享服务系统已收录科技报告1377份。
2 数据来源及分析方法
本研究数据来源于“湖南科技报告共享服务系统”(http://www.hnstrs.cn/)。在科技报告技术领域中,以“农业”为主题词进行检索,得到的结果有“农业-种植”、“农业-养殖”和“农业-农产品加工”等技术领域分类,为了提高检索结果覆盖的准确性,对“资源与环境”,“生物与医药-中药”等领域分类下与农业领域存在交叉的科技报告进行人工筛选。对选中的科技报告信息进行采集,采集的字段包括科技报告题名、关键词和立项年度等信息。为更准确的体现湖南省农业领域的研发现状,本研究只采集了2013年(含)以后立项相关科技项目产生的科技报告。截止2018年4月,湖南科技报告共享服务系统共收录2013年(含)以来立项科技项目产生的农业领域相关科技报告248份。
为提高分析的准确性,本文将每份科技报告的题名和关键词分别合并为一条信息,并且进行切分词处理,删除虚词,并且人工剔除研究(research)、关键(key)、方法(method)和进展(development)等一些在题名中普遍存且干扰分析的词汇,从而形成包含248条热点词信息的文本语料库。本文语言处理及分析采用python语言及gensim工具包实现。词频统计采用bibexcel软件实现。
复杂网络在现实社会中广泛存在,节点和边是复杂网络中的基本要素,在复杂网络中,个体或事物即为节点,节点之间存在的关系(关联)即为边。两个不同热点词在同一篇文献中出现,即表示热点词存在一条边,称之为词共现。基于此,不同的热点词在一定的文献样本中可形成广泛的联结,即基于词共现的复杂网络。通过对复杂网络的可视化,可以发现网络中的研究热点。本文复杂网络计算及可视化采用Gephi 0.9.2软件实现。
围绕某个或某几个研究热点往往会形成特定的研究主题,但在复杂网络中由于节点之间边关系复杂,不一定形成明显的社团结构,不同主题之间往往难以区分。为挖掘出隐藏在复杂网络中的研究主题及其网络,本文采用python语言环境下自然语言处理工具模块word2vec实现。Word2vec通过神经网络的方法进行学习,其中的连续词袋(Continuous Bag-of-Words,CBOW)模型,在输入某一个特定词的上下文相关的词对应的多维词向量后,经过模型训练,可以输出这一个特定词的词向量。从而计算不同词向量与特定词向量的余弦相似度(余弦距离),最后可输出经过归一化处理的余弦距离最近的相关词汇。Word2vec工具中CBOW模型原理如图1,具体的实现模型及算法参见Mikolov的相关论文,这里不再赘述。
3 湖南省现代农业领域研发现状分析
3.1 高頻词分析
对词频进行计量统计,排名前20的热点词如表1所示。从表1中可以发现湖南省现代农业领域,种植业的栽培(cultivation)方向,在分析的248份报告中,有53份与栽培有关,占比超过20%,这与湖南省农业以种植业为主的产业结构相符。其次,对新产品、工具、方法、技术的应用(application),也受到广大科研工作者的重视,这表明湖南省的农业研究仍然以应用研究为主。此外,育种(breeding)也是湖南省现代农业关注的重要方向,这表明新品种研发是湖南省现代农业发展的重要发力点,这与《湖南省“十三五”科技创新规划》中将现代种业列为10大领域产业技术创新链之一的情况一致。除此之外,水稻(rice)、产业化(industrialization)、品种(variety)、系统(system)、品质(quality)、资源(resoures)和有机的(organic)也是湖南省现代农业的研发热点词,这其中既有湖南省传统的研究热点,也体现了近年来一些研究方向正成为新的研究热点。
3.2 热点共现关系分析
为了更好的研究不同热点之间的关系,我们以热点词为节点,其在科技报告中的共现关系为边,进行复杂网络分析。将从科技报告题名和关键词中经过分词处理的单词,词频3次以上,利用gephi软件进行共现可视化作图,保留共现3次以上的边关系,其结果如图2所示。由图2可知,湖南省农业领域研究热点为栽培(cultivation)、水稻(rice)、育种(breeding)、应用(application)和系统(system)等,这与表1的结果也一致。其中以栽培和应用的关注度最高,与其它研究热点的联系也最多。但是由于所分析的科技报告都同属于现代农业领域的缘故,各节点之间关系较为紧密,仅系统(system)节点为核心的子网络与其他节点的联系相对较少,各节点未形成明显的子网络。
3.3 核心热点及其主题分析
虽然整个领域的热点联系整体较紧密,但是不同热点之间的联系紧密程度却不一。结合表1和图2,根据热点词的分布情况,选取部分频次较高、边关系较多的研究热点为核心热点词,利用Word2Vec工具,计算核心热点与其他所有热点的余弦相似度(cosθ),对与之相关的研究主题进行了分析。Word2Vec模型参数如下:最小丢弃词频min_count=3,学习速率alpha=0.05,高频词汇随机采样配置阈值sample=0.0015,训练算法sg=0(C-Bow算法),迭代次数iter=30。选取余弦相似度最高的10个词,部分结果如表2所示。
由表2可知,不同核心热点词形成的研究主题,其研究内容是有所区分的。例如在栽培(cultivation)为核心的主题中,主要关注新技术、新品种和新装备等的采用(introduction)、示范(demonstration)以及生产效率(efficient)的提高。以水稻(rice)为核心的研究主题则主要关注杂交水稻尤其是超级杂交稻(super hybrid rice)以及作物抗性(resistance)和适应性(adaptability)。以育种(breeding)为核心的主题中,则可以看出研究者主要采用联合(combination)育种、分子(molecular)育种、杂交(hybrid)育种等育种方法,育种方向主要在提升(promotion)品种的适应性(adaptability)、产量(yield)和抗性(resistance)等。而以系統(system)为核心的研究主题,则明显与信息(information)、服务(service)、智能(intelligent)、云(cloud)、在线(online)等热点词关系紧密,这表明借助新一代信息技术发展现代农业,已成为农业信息化的必然趋势。
4 结论与建议
本文基于湖南省科技报告数据,采用文献计量、复杂网络和模型分析等情报学手段和方法,分析了湖南省现代农业领域的研发现状。结果表明,湖南省现代农业领域研发侧重在种植业、现代种业和农技推广应用等方向;农业产业化、农业信息化等正成为研究的新热点;各研究热点间联系较多,也较紧密,除信息农业外,未有形成较独立的研究子网络。不同主要研究热点所属的研究主题不同,研究的内容也有所区分。
根据研究结果,本文对湖南省现代农业领域研发提出如下建议:(1)立足省情,扎实做好种植业研发投入和农技推广。结合湖南省以种植业为主的农业结构和科技水平较低的现状,做好作物新品种、先进农业装备和生产新技术的推广示范工作,促进农业科技成果转移转化,提高农业科技进步贡献率。(2)大力发展现代种业。依托《湖南省“十三五”科技创新规划》强有力的政策支撑和袁隆平院士、官春云院士等育种团队的雄厚科研实力,发挥优势,培育高产、高效和优质的作物和畜禽水产新品种,做大做强湖南现代种业。(3)重视农业产业化、农业信息化和生态农业等新兴热点的发展。要注重产学研结合,科技成果必须服务于产业,才能产生直接的经济效益。注重农业生产的产业化、标准化,并积极融合互联网+和物联网等新一代的信息技术,以提高生产效率。同时还要将生态环保的绿色发展理念植入到现代农业的研发工作中,使新的农业科研成果对资源节约型社会、环境友好型社会的建设起到积极的推动作用。
[参考文献]
[1] 常理.农业不平衡不充分问题将有效解决[N].经济日报,2018-06-01(007).
[2] 金丽华,张学友,钱选诗,等.我国农业科技的发展及其对农业生产的贡献率[J]. 长江大学学报(自科版),2006,3(1):206-208.
[3] 湖南省科技厅. 湖南科技年鉴(2017卷)[M]. 长沙:湖南科学技术出版社,2018.
[4] 贺德方. 中国科技报告制度的建设方略[J]. 情报学报,2013,32(5):452-458.
[5] Mikolov, T., Yih, W., Zweig, G. Linguistic regularities in continuous space word representations[J]. NAACL HLT,2013:746-751.
[6] Mikolov, T., Chen, K., Corrado, G., Dean, J.. Efficient estimation of word representations in vector space[J]. Computer Science,2013:1-12.