面向智库评价的数据资源中心建设研究

2020-06-19 10:39张鑫文奕
智库理论与实践 2020年3期

张鑫 文奕

摘要:[目的/意义]智库建设是目前社会科学界热议的话题,如何科学合理地研究和评价智库也成为日益受关注的问题,高质量的智库研究报告需要高质量的数据平台支撑。[方法/过程]本文从智库研究与评价的需求出发,总结了目前智库知识资源体系的主要类型和建设现状,提出了大数据环境下面向智库研究的知识资源平台建设困难和挑战,介绍平台建设的原则思路和主要技术。[结果/结论]以中华智库研究网为实例,介绍面向智库研究的知识资源中心的建设,以及资源中心支撑智库研究的实践。

关键词:智库研究  知识资源中心  多源数据融合

分类号:G350.7

DOI: 10.19318/j.cnki.issn.2096-1634.2020.03.09

中国特色新型智库建设是目前国内社会科学界热议的话题。从国家层面到地区层面,都出台了一系列政策,指导和促进新型智库建设。

在国家层面上,2015年1月,中共中央办公厅、国务院办公厅印发《关于加强中国特色新型智库建设的意见》,将智库的作用与重要性提到了空前的高度,文件指出,“中国特色新型智库是以战略问题和公共政策为主要研究对象、以服务党和政府科学民主依法决策为宗旨的非营利性研究咨询机构”。2015年11月9日,中央深改组第十八次会议通过《国家高端智库建设试点工作方案》,开启了中国特色新型智库建设的新探索。2015年12月,国家推出了中国社会科学院、中国科学院、国务院发展研究中心等25家高端智库。在地方层面上,2016年以来,智库建设由国家层面细化到地方层面,上海、山东、江苏、广东、湖南、四川等省份先后出台了本省的高端智库建设方案,一系列地域特色鲜明的智库成为各个省市重点扶植培育的对象。

在国家和地方的大力支持下,智库建设蓬勃发展,大批地涌现,中国的智库数量已经跃居世界前列,如何科学合理地评价智库也是当前智库界关心的话题。而科学准确的评价离不开丰富完备的数据资源库的支撑。本文介绍了笔者及团队几年来在面向智库评价数据资源中心建设方面的一些理论思考和实践工作。

1  智库评价对知识资源平台的需求

高质量的智库评价报告离不开丰富完善的数据资源支撑。随着2015年以来国家和地方出台政策支持智库发展,智库建设驶入了快车道。雨后春笋般出现的智库机构、智库产品等,它们的质量良莠不齐,如何科学、客观、公正地评价智库是当前我国建设、发展和管理智库的一个重要内容。目前,国内外的智库评价模式主要有政府主导评估、市场主导评估、第三方机构评估、学术专家评估研究等。

列举几种国外的智库评价模式有:韩国的智库评价主要由政府主导;德国学风一向严谨,他们的智库评价由政府主导,莱布尼茨协会等第三方机构实施;美国的智库运作独立性更强,自然对其评价也以民间机构为主。詹姆斯·麦甘教授的《全球智库报告》从2006年起发布至今,每年1期,麦甘教授的智库报告在国内虽然争议不断,但也影响颇大。此外国外智库评价还有Michael Dolny[1]、Donald E.Abelson[2]、Andrew Rich[3]等幾家。

国内的智库评价“已经形成多家竞争的新格局”[4],主要是各个智库研究中心以项目的方式进行。朱敏[5]、雷佳丽[6]等人的文章总结了国内外智库研究进展和评价指标体系。综合前人研究,笔者将目前国外内比较有影响力的智库评价总结如下,见表1。

朱旭峰等将当前的智库评价研究方法的发展趋势概括为:从主观到客观,从定性到定量,从小样本到大样本,从小数据到大数据[14]。主观评价容易受到选取的评审专家个人观念的影响,由于中国新型智库类型丰富多样,而调查问卷选取的专家往往只对某些特定领域的智库了解较深入,而对其他领域的智库了解不够,专家评审有时也会受到专家固有思维的影响,对智库当年表现的动态变化感知不够。而客观的基于数据的评价,作为主观评价的补充,正好可以解决主观评价的这些问题,通过收集各类智库的成果、活动数据,基于科学合理的指标体系计算,能够定量反应各个智库的年度表现,为排名提供有效的数据支撑。客观评价需要准确权威科学的数据支撑,覆盖多家智库的、多来源的数据的收集、整理和加工,需要资源平台做支撑。

2  目前智库资源平台建设现状

随着国家和地方对于智库建设的支持力度加大和网络时代的发展,各种各样的智库知识资源平台全面建立,各种平台建设主体各异,建设目标各不相同,却都在智库知识保存共享上发挥了一定的作用。智库资源平台从建设主体和资源覆盖范围上大概分为以下4类,见表2。

2.1  智库机构知识库或知识管理系统

智库知识库[15]和机构知识库有相似之处,主要是指智库机构自己建立的,维护自身的知识的数据平台系统,美国的兰德公司、德国国际政治与安全研究所,中国科学院等智库单位都建设有自己的知识库系统,以支撑研究和决策。

2.2  媒体主导的智库知识资源中心

以光明网、中国网等为代表的一些媒体积极参与和报道智库活动信息,并发挥自身优势,建立“智库频道”“智库中国”[16]等专栏或专题页面,报导智库相关重大活动、重要事件,形成相应的数据库或资源中心。

这类资源中心的主要特点为:收录智库的活动、事件等媒体信息较多,很多信息是媒体的第一手信息,对了解智库动态作用很大。但收录智库的论文、报告、成果、项目等信息较少,数据的全面性不够。

2.3  地方政府或行业智库知识资源中心

随着各省市加强新型智库建设指导实施意见的发布,为了分享本地区智库的研究成果,交流智库建设经验,加强本地智库交流与合作,构建高端智库交流平台,各省地区也建设有自己省市范围内的智库平台,例如“湖南智库网”“江苏智库网”等。

各个专业领域或行业联盟也建立了自己的领域特色智库知识平台,如国务院发展研究中心主办、各地方政府发展研究中心共建的中国智库网,主要收录该系统内智库的数据,搭建了领域内智库的交流与合作平台[17]。

这类智库资源网站面向领域内智库,面向本领域内机构,收集本领域的信息,在领域内数据较全面,而且能够收集部分领域专家的原创性言论成果,但收录范围相对较小。

2.4  综合知识资源中心

南京大学等单位合作研发的“中国智库索引”(Chinese Think Tank Index,以下简称CTTI)兼具智库的大数据管理与智库评价的双重功能,在同类网站中收录数据相对较全面。目前CTTI数据依赖各个智库的上传情况,而国内各个智库对CTTI的重视程度不同,而且每家智库对专家的范围界定有所区别,导致CTTI各家智库数据参差不齐。

清华大学公管学院的智库研究中心也与清博数据公司合作建立了智库大数据平台,主要收录智库的微博微信等新媒体数据。CNKI基于自身积累的丰富成果数据,建设了“中国特色新型智库知识资源总库”。

3  面向智库评价的知识资源中心体系设计

3.1  大数据环境下智库资源中心建设的挑战

当前网络大数据环境下,智库知识资源数据中心建设面临以下挑战。

3.1.1  智库知识资源来源丰富,分散各处  如智库机构主页、智库机构知识库、新闻媒体网站、论文图书资源集成数据库、专家的微博、微信等,需要从公开的海量碎片化数据之中提取有用的知识信息。不仅如此,各个不同的数据资源之间的数据质量参差不齐,知识价值判断困难。

3.1.2  智库知识资源动态变化  这不仅表现在智库机构的设立、合并、更名,智库专家的隶属机构改变、兼职等基础元数据的改变,更表现在中国特色新型智库以服务决策为主要目标,智库机构的研究领域和方向随着社会热点议题不断变化

3.1.3  智库成果归属判定难  一方面表现为自然语言表达的智库领域知识存在多样性和歧义性问题,突出表现为智库机构别名现象和智库学者重名现象,网络资源中出现的往往不是准确的智库学名,而是智库名称的多种简称、别名或上下级机构名。另一方面表现为兼职人员成果处理问题,由于目前各个智库的治理模式各不相同,有些智库大而全,全职成员比例高,兼职人员比例相对低,且发挥的作用相对小,如社科院等单位。而许多高影响力的智库则采用“强核心,大网络”的方式构建研究队伍,全职人员比例较低,兼职专家在智库中发挥的作用很大,如中国工程院,目前主要依靠庞大的院士队伍在国家重大工程决策之中发挥重要作用。

3.1.4  智库私密成果获取难  决策影响力一直是智库评价的重点关注领域,权威的几家智库评价报告都设计了相应的评价指标,通过智库的对策建议批示数据来度量,这个指标数据的权威数据获取较为困难,可能还会涉及保密的问题,目前往往是采用向智库管理部门发邀请函的方式进行。

3.2  面向智库评价的知识资源中心体系设计的原则

3.2.1  采用准确的智库机构遴选机制  智库研究首要进行就是研究对象的选取,这也是资源平台建设的基础,平台之后的所有数据收集、数据建设工作都是围绕着这些研究对象进行的。由于国家和地方层面对智库建设的大力支持,智库建设成绩有目共睹,但以“智库”之名的“智库变异体”仍大量存在,“商业化”“泛化”“泛娱乐化”现象广泛存在[4],需要以一个科学合理的标准流程进行智库机构遴选。《关于加强中国特色新型智库建设的意见》文件中给出8条基本标准,为智库机构遴选提供指导。南京大学中国智库研究中心是国内较早开展智库机构遴选的机构,采用“摸底、推荐、评审、审核”遴选的过程[12],为入选机构颁发“CTTI来源智库证书”,并对智库机构进行动态更新。CTTI来源智库名单为多家智库研究提供借鉴。此外,各地方各领域的特色高端智库建设方案中的智库名单也是机构遴选的重要补充。

3.2.2  集成科学合理的评价指标体系  在方茜[18]、王文[4]等学者研究的基础上,笔者认为评价指标的选取应该遵循4大原则,即评价目标导向原则、科学性原则、系统性原则、可行性原则。上海社会科学院、南京大学、四川省社会科学院等几家报告虽然选择的具体指标略有区别,数据获取方式各异,但从大的方面来看,都是从决策影响力、舆论影响力、社会影响力、专业影响力、国际影响力几个方面进行评价,支撑影响力指标的数据基础具有很多的共性。

3.2.3  利用丰富准确的数据来源  目前的智库研究和智库评价的数据主要有主观数据和客观数据,主观数据主要是通过邀请领域专家填写问卷方式进行收集,表征领域专家对于智库的主观看法;客观数据的来源有两个,一是智库管理部门提交的数据,二是通过网络采集挖掘获取得到的数据。评价所需的数据来源非常丰富,类型也各异。数据不一定要大而全,但一定需要准确,为保证研究质量,可以采用多数据源相结合校对的方式。

3.2.4  支持有效的数据更新维护机制  數据更新机制是知识资源中心得以不断焕发生机的源泉,也是基于资源平台的智库评价方法优于问卷调查方法的地方。问卷调查和当事人填报的方式往往不能够及时更新数据,而资源平台建设中可以采用任务调度机制,及时从新闻网站等数据源采集数据信息,为研究所用,并能实时进行数据展示,动态评价。由于不同资源的时效性不同,适宜采用不同的数据更新机制,新闻类数据实时性强,可做到日更新甚至实时更新,对于每年特定时间才会发布的基金项目类数据,可以根据相应发布时间进行更新。

3.3  面向智库研究的资源平台架构设计

面向智库研究的知识资源中心架构如图1所示,自底向上可以划分为数据层、大数据平台层和展示层。

3.3.1  数据层  该层集成各种资源的收集与汇缴策略。针对各类不同的数据资源,采用不同的收集汇缴机制。根据数据来源不同,需要人工和自动结合的方式,包括分布式爬虫技术采集,利用批量导出功能采集,机构管理部门填写等等。对于数据源格式多样,采集困难的个别资源,还需要采用手工录入方式,平台提供数据录入功能接口。

3.3.2  大数据平台层  该层是平台的核心和基础,集成主要的数据清理与知识融合方法流程,又可以细分为数据存储、数据分析和数据接口几部分,并集成用户授权、访问认证机制。

根据数据的体量和类型,数据存储子层可以采用传统的数据库存储、本地文件存储、大数据分布式文件存储、分布式数据存储等存储机制。

数据分析子层,集成多源数据融合体系和方法,提供数据的分析与关联的功能,通过基于规则、基于机器学习命名实体识别等方法准确识别出机构信息,构建机构合作、机构关联等关系,实现单指标评分、综合评价等数据计算功能。

数据接口子层实现与展示层的数据对接,并可以提供其他相关系统的数据交互接口。

面向智库评价的领域资源知识库是语义搜索和知识挖掘的基础,以关系数据库、三元组等形式存储在数据库之中,供数据检索调用,通过平台实现知识库动态变化更新。

3.3.3  展示层  该层是平台与用户交互接口,提供机构检索、专家检索、关键词检索和语义智能检索等功能,方便关注智库的学者查找智库相关资源信息。展示层中应集成智库机构的自动评价与机构对比分析功能。将通用智库评价的指标集合和专业化评价指标集合在平台中进行固化,并采用直方图、折线图、饼图、词云图等丰富可视化方式进行结果展示。

4  面向智库评价的领域知识图谱构建关键技术

4.1 知识图谱中知识单元构建方法

面向智库评价的领域知识图谱中主要包含3类知识单元,智库机构、智库专家和智库成果活动信息,知识单元构建过程中主要解决这几类知识单元相关的数据检索与数据融合方法问题。着力研究智库专家、智库机构、智库成果和活动几类知识单元概念及其相关的关系信息,构建相应的专家画像、机构画像和成果画像。这3类知识单元的概念及其概念关系见图2。

机构实体、专家实体、成果实体等领域知识库支持的主要知识实体信息,需要将这几类知识实体相关数据,采用语义规则等方法,进行深度关联融汇。

机构—专家。融合各个机构官网、领域资源网站中的专家信息表,夯实机构—专家对应关系,特别是要考虑到专家兼职、专家重名等现象。基于成果与活动数据集中的同时含有机构信息和专家信息的数据项,为机构—专家对应表建立补充关系。根据成果与活动等数据的结合建立机构画像和专家画像。

专家—成果。通过专家信息,在资源网站中检索出成果信息和活动信息数据。根据成果元数据、成果内容数据或专家—机构对应数据判定出成果对应的机构,通过专家名—机构联合检索的方式解决专家重名问题。

机构—成果。通过智库机构名或父级机构名在资源网站中检索出相应的成果与活动数据,再根据成果元数据、成果内容数据或专家—机构对应数据准确推断出相应子机构,解决部分成果的机构信息不完整问题。

4.2  领域知识图谱的构建流程和知识更新方法机制

面向智库评价的领域图谱构建的整体流程如图3所示,网络资源数据经过数据清洗和存储,形成结构化和非结构化数据,对结构化数据采用

基于语义规则库的语义匹配算法,对非结构化数据采用基于语义挖掘和机器学习的实体关系抽取方法,初步构建知识体,再通过知识匹配和属性扩展方法,将知识体进行融合。构建领域知识库的时候,根据各种知识融合模型评价算法,同步进行知识融合结果评价和优化,最终形成面向智库评价的领域知识库。

同时,由于智库机构具有关注时事,关注热点等特征,面向智库评价的智库领域知识库也要与时俱进,不断更新。基于这一特点,领域知识融合体系尽量采用与智库研究数据采集同步更新的方式进行知识库的更新,新采集到领域数据后,同步进行知识冲突监测和领域知知识库数据更新。

5  平台建设与应用示范

“中华智库研究网”是中国科学院成都文献情报中心和四川省社科院合作研发的,网站持续为《中华智库影响力报告》提供客观数据支撑。该数据平台可通过双方合作“中华智库研究网”进行授权访问。

不断完善平台数据质量,持续不断、客观准确地收集智库的相关数据是平台能够持久生存,并且不断扩大影响力的关键。平台基础数据在“机器抓取,人工录入审核”大原则下,利用中心丰富的数据资源,采用相对权威的数据源,严格按照“三重过滤,两重审核”机制,确保数据质量,见图4。针对不同数据类目的特点,完善不同的数据更新机制,确保数据的完整性和时效性。

图4  系统数据来源和质量保证机制

Figure 4  Data sources and quality assurance mechanisms

5.1  丰富的数据来源

充分利用购買和自主建设的数据资源,以及庞大的互联网资源,使用权威数据源或收录数据相对全面准确,且检索方式友好的资源网站为基础数据源。人工采集数据主要来源于近500家智库机构的官方网站、国家科学技术奖励工作办公室网站、国家自然科学基金委和全国哲学社会科学基金规划办公室,以及各个省区市社科联和科技厅的官方网站。自动收集的数据主要来自于中国知网(CNKI)、百度新闻、百度学术、佰腾网、Web of Science数据库、中国社会科学院皮书数据库等等。此外,还会从100余家国家和地方主流报纸、期刊的官方网站,各个智库机构和智库专家的微博中补充部分数据。

5.2  数据的完整性和准确性保障机制

近年来在国家的良好政策背景下,各个智库蓬勃发展,很多新增智库成立时间较晚,或规模较小,或为非法人单位,某些智库的重要数据可能没有直接与智库名相关联,直接用智库名称检索会出现大量数据缺失。例如国家自科基金、社科基金和国家奖励数据往往只会细化到如中国人民大学之类的高校层面,而不会明确指出如中国人民大学重阳金融研究院之类的智库机构。

针对这些问题,平台采用:①上级法人单位名称+专家名称检索标注方法;②基于机构同义词词表的检索方法;③全数据集收集和关键词匹配的方法;④主题时间过滤方法等等,以保证数据的完整性。

对所有人工录入的数据以及机器收集的数据,严格按照“机器抓取,人工审核”和“人工录入,交叉审核”的两重审核方法,确保数据的准确性。平台的具体数据来源和数据更新机制见表3。

中华智库研究网和中华智库研究大数据平台持续为《中华智库影响力报告》提供强有力的数据支撑。截止到2018年底,平台收录中国大陆和港澳台智库机构近500家,主办网站500余个,有智库专家8,000余位,年度新增国内期刊论文和报纸文章数59,339篇,主流媒体采访数据7,890篇,图书3,860本。

6  总结和讨论

本文分析了面向智库评价的智库知识资源中心建设面临的困难和挑战,以及平台的设计原则,并以中华智库研究网数据平台为例,介绍智庫评价知识资源中心的建设实践。

诚然,目前的智库研究百花齐放,百家争鸣,一系列的研究成果不断涌现,但现在的第三方机构进行评价的方式天生具有的数据缺陷暂时还难以克服。智库研究的平台也正经历在探索中完善,建设中发展的阶段,未来的智库研究平台可以从以下几方面进行研究建设。

6.1  集成分类评价指标,开展专题和特色研究

近年来,智库的评价正在由大而全的评价报告向各个分类细化,社科院智库、高校智库等都发布了各自体系的评价报告,如浙江工业大学的《中国大学智库发展报告》、山东社会科学院的《地方社科院智库意识评估报告》等。不同类型的智库机构由于治理结构的不同,成果形式多样,相应的评价指标也会有所区别。相应的知识资源平台上也要多集成一些特色的指标体系,并支持指标分类组合,以适应特色评价需求。

6.2  不断夯实平台的数据基础

数据的完整性和准确性是评价类平台的价值所在,数据基础的好坏对研究结果有很大的影响,现在主流智库评价平台主要的数据问题是反映智库决策影响力的建议批示等数据获取困难,真实性较难保证。未来的解决方法是积极与国家和地方智库建设主管部门合作,参与主管部门组织的智库研究与评价,以自上而下的方式获得真实性更好的数据。智库建设经过了几年的发展,很多主管部门也期望了解建设效果到底怎么样,他们有评价的需求,也希望与智库研究评价机构进行合作。

6.3  扩展个性化专题展示功能

针对国家经济社会发展中的重要事件和热点问题,建立专题页面,追踪各个智库的专家相关成果、言论等信息。针对平台不同用户的需求,提供特色化个性化的服务。

总而言之,高质量的智库评价研究报告离不开高质量的基础数据资源建设。而高质量的数据资源平台不仅仅可用于智库研究。以资源平台建设为基础,以平台促进智库研究,以智库研究成果指导智库建设,促进中国特色新型智库建设事业蓬勃发展。

参考文献:

[1] MICHAEL D. The think tank spectrum: For the media, some thinkers are more equal than others[EB/OL]. [2019-10-01]. https://fair.org/extra/the-think-tank-spectrum/.

[2] ABELSON D E. Old world, new world: the evolution and influence of foreign affairs think-tanks[J]. International Affairs, 2014, 90(1): 125-142.

[3] ANDREW R. Think tanks in the US media[J]. The Harvard International Journal of Press/Politics, 2000, 5(4): 81-103.

[4] 王文, 李振. 中国智库评价体系的现状与展望[J]. 智库理论与实践, 2016, 1(4): 20-24, 71.

[5] 朱敏, 房俊民. 智库评价研究进展及我国智库评价建设[J]. 情报杂志, 2017, 36(8): 33-38, 46.

[6] 雷佳丽, 郑军卫. 国内外智库评价方法比较分析[J]. 情报理论与实践, 2019, 42(4): 166-171.

[7] MCGANN J G. 2018 Global go to think tank index report[EB/OL]. [2019-05-14]. https://repository.upenn.edu/think_tanks/16/.

[8] 上海社会科学院智库研究中心. 2018年中国智库报告: 影响力排名与政策建议[EB/OL]. [2019-05-14]. http://www.pjzgzk.org.cn/upload/file/20190320/20190320110443_241.pdf.

[9] 荆林波. 中国智库综合评价AMI研究报告(2017)[M]. 北京: 中国社会科学出版社, 2018: 2-15.

[10] 四川省社会科学院-中国科学院成都文献情报中心 中华智库研究中心. 中华智库影响力报告(2018)[EB/OL]. [2019-05-14]. http://www.chinesethinktanks.cn/.

[11] 方茜, 廖冲绪. 中华智库影响力报告(2015-2017)[M]. 北京: 人民出版社, 2018: 9-12.

[12] 南京大学中国智库研究与评价中心-光明日报智库研究与发布中心联合课题组.“中国智库索引”(CTTI)首批来源智库及遴选过程[N]. 光明日报, 2016-12-21(16).

[13] 清华大学公共管理学院智库研究中心. 清华大学智库大数据报告2017 [EB/OL]. [2019-05-13]. http://www.sppm.tsinghua.edu.cn/eWebEditor/UploadFile//20180423041936218.pdf.

[14] 朱旭峰. 智库影响力测量的多维性[N]. 学习时报, 2017-04-10(6).

[15] 許鑫, 吴珊燕. 智库知识库的构建研究[J]. 情报理论与实践, 2014, 37(3): 68-72.

[16] 智库中国[EB/OL].[2019-05-14]. http://www.china.com.cn/opinion/think/index.htm.

[17] 国务院发展研究中心. 中国智库网-关于我们[EB/OL]. [2019-05-14]. http://www.chinathinktanks.org.cn/.

[18] 方茜. 基于系统理论的中国特色新型智库影响力评价及特征分析[J]. 经济体制改革, 2018(2): 164-171.

作者贡献说明:

张  鑫:提出研究思路,建设平台,撰写论文;

文  奕:指导平台建设,修改论文。

Abstract: [Purpose/significance] Think tank construction is a hot topic in social science, and it attracts more and more attention on how to research and evaluate think tanks scientifically and reasonably. High-quality research reports of think tanks need high-quality data support. [Method/process] Starting from the needs of research and evaluation of think tanks, this paper summarizes the main types and construction status of the knowledge resource system of think tanks at present, puts forward the difficulties and challenges of building a knowledge resource center for think tanks research, and introduces the design principles and main technologies of platform construction. [Result/conclusion] Taking Chinese Think Tank Website as an example, this paper introduces the construction of knowledge resource center for think tank and the practice of resource center supporting think tank research.

Keywords: think tank research    knowledge resource center    multi-source data fusion

收稿日期:2019-11-01      修回日期:2019-12-13