陈白雪 屈宝强 崔小委 寇亚东 贤 信
(中国科学技术信息研究所,北京 100038)
科技项目申报指南作为科技项目管理过程中的起始环节,是一类重要的科技信息资源,用于指导申报单位组织科研人员就某个项目的重点支持方向进行申报,是科技项目申报与评审的重要依据,更是未来项目实施和结题验收的重要依据,对引导国家科技发展具有举足轻重的作用。科技项目申报指南从宏观上概括了一个国家或地方在某个时期内重点支持的领域或研究方向,是一个国家或地方科技资源配置的重要体现。学界对科技项目指南等进行了相关的研究。郜正亚[1]通过对2011年国家社会科学基金项目课题指南和项目评审结果的对比分析,探索了我国图书馆学学科研究热点;梁美宏[2]运用信息熵方法对国家社科基金“图书馆·情报与文献学”领域历年课题主题进行了定量处理,从时间和主题的角度分析了该领域指南主题的总体演化特征,分析结果表明本领域指南涉及主题分布越来越均衡,对学科发展具有积极导向作用;曹玲等[3]针对2007—2016年国家社会科学基金“图书馆·情报与文献学”下课题指南和立项项目名称,进行了关键词切分与比对,综合内容分析结果,对课题指南与立项项目的关联性进行了讨论;张庆芝等[4]利用自然语言处理技术,对科技规划文本进行主题挖掘,构建科学研究前沿主题地图,并进行可视化展示;刘玲等[5]对项目申报指南进行了定量和定性分析,并对申报指南与立项项目间的关系进行了分析。
目前,科技项目申报指南以文本形式存在,在科技项目管理工作中发挥了重要的作用。由于各类科技计划的主管部门不一,科技计划项目申报指南资源分布在各个网站的不同页面,缺乏统一的组织、整合与管理,因此申报指南数据一直没能得到有效的利用,不利于科技专家或相关科技机构的查阅和利用,使得申报指南资源发挥的作用有限。随着大数据时代的到来,利用传统的信息组织方式已经无法满足用户日益增长的需求,除了将各种资源进行统一规范化的描述之外,研究者们开始注重各类资源之间存在的关联关系,通过自然语言处理、文本挖掘、语义推理等技术,充分发掘资源中的隐藏知识,更好地为用户提供服务。在数据和语义的双重驱动下,数据关联组织不断向标准化和语义化的方向发展,语义关联数据表示和知识组织成为新的发展趋势[6]。euroCRIS[7]将CERIF(Common European Re- search Information Format)模型推荐给其成员国,应用于科研信息系统建设,便于科研信息的交换和共享。CERIF模型从科研管理流程出发,分析和明确了研究计划、项目、成果等各个环节涉及的主要科研实体和科研关系,并可以进行模型扩展,满足新的科研需求。Fedora模型定义了一系列表示数字对象的概念,明确了数字对象间的关系,以及链接数字对象的行为,该模型采用XML格式的数据存储和导入导出,在数字图书馆、内容管理、资源保存等方面有良好的应用前景[6,8]。DoDAF模型通过本体描述框架,明确了各视图中体系组成要素的定义、关系、属性的形式化表示[6,9]。谢园等[10]研究了科学标本资源的汇交要素、基础性资料元数据标准,以及标本资源的共性描述规范,探讨了标本数据库的应用前景。宋培彦等[11]以知识组织理论为基础,从6个方面将分散、异构的专家信息进行语义化描述、关联与聚合,并采用RDF进行形式描述和实证研究,最终生成具有较强规范性和语义关系的专家信息库,为实现异构专家信息库的共建、共享与服务提供基础。由上可知,无论是科研管理机构还是科研人员,都试图寻找一种能够将多源的、异构的、不同主题的信息进行统一描述的语义模型,实现同类信息资源的统一存储和共享,为用户提供更多的服务。
科技计划项目的申报指南涉及的领域及范围不同,申报指南包含的内容、排版形式也不尽相同。为了实现对不同科技计划类型申报指南资源的组织,需要对申报指南的文本进行解析,归纳出科技项目申报指南的基本特征,从而构建一个统一的、具有可拓展性的科技计划项目申报指南资源描述框架,实现对科技计划项目申报指南资源的统一存储和管理。为进一步挖掘科技项目申报指南的作用,加强科技项目申报指南资源的组织和利用,发挥其在指南检索、指南推送、专家回避等方面的作用,本文试图对科技项目申报指南资源描述框架进行分析。
目前,我国科技计划(专项、基金等)主要有国家自然科学基金、国家科技重大专项、国家重点研发计划等五大类计划(专项、基金等)[12]。其中,国家自然科学基金设立于1986年,主要资助基础研究和科学前沿探索,支持人才和团队建设,增强源头创新能力[12];国家科技重大专项聚焦国家重大战略产品和重大产业化目标,发挥举国体制的优势,在设定时限内进行集体式协同攻关[12];国家重点研发计划2015年底启动,面向事关国计民生的重大社会公益性研究,以及事关产业核心竞争力、整体自主创新能力和国家安全的重大科学问题、重大共性关键技术和产品、重大国际科技合作,按照重点专项的方式组织实施,加强跨部门、跨行业、跨区域研发布局和协同创新,为国民经济和社会发展主要领域提供持续性的支撑和引领[12];国家科技重大专项聚焦国家重大战略产品和重大产业化目标,发挥举国体制的优势,在设定时限内进行集体式协同攻关[12]。除上述科技计划外,社会科学领域的国家社会科学基金,每年也会发布项目申报指南。该基金设立于1991年,主要资助国家哲学社会科学的研究,组织实施哲学社会科学创新工程、人才工程等。
本文以国家自然科学基金、国家重点研发计划和国家社会科学基金3种典型项目申报指南为例,对申报指南的特征进行分析。3种典型项目申报指南的部分内容如图1、图2、图3所示。这以上3种典型的项目申报指南主要有以下特征。
图1 国家自然科技基金2019年申报指南(部分)
图2 国家重点研发计划“典型脆弱生态修复与保护研究”重点专项2016年申报指南(部分)
图3 国家社会科学基金2019年申报指南(部分)
(1)发布渠道均由官方网站公布。国家自然科学基金申报指南通过国家自然科学基金委员会官网的“项目指南”栏目公布,并在国家科技管理信息系统公共服务平台同步公示;国家社会科学基金申报指南通过全国哲学社会科学工作办公室的“通知公告”栏目公布;国家重点研发计划申报指南通过中华人民共和国科学技术部网站和国家科技管理信息系统公共服务平台首页的“申报指南”公布。
(2)指南基本结构单元一致。国家自然科学基金、国家社会科学基金和国家重点研发计划的申报指南的组成内容基本一致,包括指南基本信息、指南编制专家信息、申报条件信息和管理信息等四个方面。不同科技计划项目申报指南的基本组成内容如表1所示。
表1 3种典型项目申报指南的基本组成内容
(3)发布形式不完全一致。国家自然科学基金申报指南主要通过网页发布;国家社会科学基金和国家重点研发计划申报指南通过“网页+附件”形式发布,用户可以自行下载申报指南。
(4)指南发布时间不同。国家自然科学基金和国家社会科学基金基本上在当年年底发布下一年的大部分申报指南;而国家重点研发计划的申报指南是以专项为单元进行发布的,不同的专项发布的时间不一样,每年发布的专项指南也不完全一样。
以上3种科技计划的申报指南资源的内部和外部特征表明,不同的科技计划项目申报指南资源在组成内容上具有一定的共通性,能够通过一个统一的描述框架对其进行描述、整合和组织。
根据典型科技计划项目申报指南的基本组成内容特征,可以归纳出科技项目申报指南资源的一般描述框架如图4所示,主要包括以下4个部分。
(1)基本信息:包括资助项目类型、研究内容、考核指标、资助周期、资助经费等信息;
(2)编制专家信息:包括专家信息、工作单位、职称和职务等信息;
(3)管理信息:包括指南的发布时间、申报时间、发布机构、受理机构、拟支持项目数和资助方式等信息;
(4)申报条件信息:包括人员条件、申请单位条件、申报方式、经费要求、项目条件、申报材料要求以及其他申请注意事项等信息。
图4从国家重点研发计划申报指南的基本信息、指南编制专家信息、申报条件信息和管理信息等4个方面对申报指南进行具体描述,形成一个比较完善和通用的申报指南描述框架,用于支撑指南推送、专家推荐、项目管理等方面。上述4方面信息能够基本涵盖申报指南中所涉及的内容以及科技工作者和申报单位关注的内容,并可以根据需求进行一定的扩展和细化。每个信息项可以从唯一标识符、定义、值域、数据类型和必备性等属性对其进行属性约束,实现申报指南的规范化描述。
为了实现对科技计划项目申报指南数据的统一存储和组织,可以根据科技项目申报指南一般描述框架构建科技项目申报指南数据库。该数据库包括1个主表,即科技计划项目申报指南表;4个子表,即基本信息表、编制专家表、管理信息表和申报条件信息表。在申报条件信息表下,包括3个子表,分别是项目条件表、人员条件表和经费条件表。在管理信息表下包括管理机构子表。各个表之间通过主键和外键进行关联,科技项目申报指南的物理表及表间关系如图5所示。
科技项目申报指南不仅可以在科技项目实施过程中起到监督作用,还可以通过科技项目申报指南,判断项目在立项、中期和验收等环节中是否严格依照申报指南进行研究,为国家或地方的科技计划过程管理提供参考依据。通过对不同科技计划的申报指南资源进行统一描述,构建申报指南资源数据库,并利用语义关联、数据挖掘等技术手段,发挥申报指南资源的作用。
图4 科技计划项目申报指南一般描述框架
图5 科技项目申报指南资源库的物理表及表间关系
(1)辅助管理部门进行申报指南的查询、制定和发布。通过对申报指南进行语义化描述,构建申报指南数据库,可以对申报指南数据进行检索,查看各类型科技计划申报指南的发布情况,不同科技计划申报指南对同一领域的资助情况、经费配置情况,使管理部门从宏观上掌握各类计划的执行情况。
(2)辅助计划组织实施部门进行项目过程管理。项目申报指南是项目立项、中期和验收等项目管理过程中的重要依据。通过将申报指南数据库与已立项项目信息进行关联,可以分析当年的立项情况,已立项项目是否与指南中的任务保持一致,是否指南中的所有任务都已被立项,并根据项目对应的指南方向可以为项目的中期和验收提供考核依据。通过这种关联分析,还可以为下一年管理部门制定和发布申报指南时提供参考和借鉴。
(3)通过申报指南信息精准推送,提醒项目申报者进行项目申报。通过将申报指南数据库与科研人员库、科研诚信库和项目库等进行关联,将不满足限项规定、不满足科研诚信的科研人员过滤掉,把指南精准、快速地推荐给科研人员,让科研人员在第一时间了解指南的基本情况。
本文通过对3种典型项目申报指南的内容进行分析和归纳,总结出科技计划项目申报指南的主要组成内容:指南的基本信息、编制专家信息、项目管理信息和申报条件信息。通过这4个方面的信息,可以对项目申报指南进行具体描述。同时运用CERIF模型构建科技项目申报指南描述框架,形成申报指南资源数据库,实现对多来源、异构的申报指南资源的统一描述。通过将申报指南的内容信息、指南编制专家信息等内容与科技项目库、科研人员库、科技专家库和科研诚信库等数据库进行关联,充分发挥其在指南查询、指南推送、指南与立项情况分析等科技管理活动中的作用,可以为不同类型的用户提供有针对性的服务,切实提高科技项目申报指南的利用效率。