安楠+祝忠明
摘 要:数据搜集作为智库数据价值链的首要环节,在智库研究中承担着重要作用。文章选取《2015全球智库排名》中具有参考价值的十余家智库机构,通过网络调研和文献调研方法总结归纳了这些国外智库机构的数据搜集策略。研究发现智库现有的传统信息搜集策略和方法已无法适应大数据环境下体量大、更新快、形式多的数据特征。结合当前新型搜集技术的应用案例及数据价值链理论,研究认为实现数据采集自动化、制定数据采集规则并构建智库知识库将资源语义化是大数据环境下智库数据搜集阶段应尽快采取的措施。
关键词:智库;数据搜集;搜集策略;大数据;数据价值链理论
中圖分类号:G250.2 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017063
Abstract Data collection is the primary link in the value chain of the think tank and it plays an important role in the research of the think tank. This paper first selects more than ten think tanks with reference value in the 2015 Global Go To Think Tank Index Report, then summarizes the data collection strategies of foreign think tank institutions through network research and literature research. It is found that the existing traditional information collection strategies and methods of the think tank cannot adapt to the data characteristics in the big data environment. This paper studies the current application of new acquisition technologies and the data value chain theory and comes to a conclusion that think tanks should take the following measures the data collection as soon as possible: the realization of data acquisition automation, the development of data collection rules and the construction of the think tank knowledge base to process resource semantic.
Key words think tank; data collection; collection strategy;big data; data value chain theory
1 引言
智库是公共政策的研究分析和参与机构,它们针对国内、国际问题开展政策导向性的研究、分析和咨询,以使得政策制定者和公众能够依据可靠的信息进行决策[1]。 其主要作用是为决策制定者提供及时、全面、准确的支持信息,支持信息的范围、数量、质量、服务内容、服务方式等都将直接影响到决策制定的效果[2],因此,拥有完善的信息支持机制是智库产生高质量决策咨询成果的重要保障。
在当今大数据时代,人们面临的最大问题不再是信息匮乏,而是如何从海量信息中发现、提取有价值的数据信息为自己所用。对新型智库而言,若不能及时从传统的信息搜集策略中转变,将无法适应体量巨大、形式繁多、更新速度快、价值密度低的大数据特征[3],进而影响智库政策研究过程及产出的效率。本文依据宾大《2015年全球智库报告》的综合排名及各项领域排名,选取了排名靠前的十余家具有代表性的国外智库作为研究对象,对其数据采集策略进行分析,结合大数据环境特征,提出新的智库信息支持机制需要完善的方向。
2 国外智库传统数据搜集策略和主要方式
智库的功能之一就是依据现有的资料和数据对未来形势进行预测,对于一些针对特定任务或课题的智库项目,如涉及到战争形势、气候变化、行为科学、药物病理等领域的研究,没有完全适用的数据或难以获取到先前的实验数据,需要智库机构自主开展调查研究或设计科学实验来直接采集适用于特定项目的数据。通过调研总结发现,国外智库的信息搜集策略可分为直接生产创造和间接搜集获取两种途径(见表1)。其中直接生产创造又分为开展调查研究和设计实施实验两种方式,间接搜集获取又分为自身馆藏建设和合作交流共建两种方式,自身馆藏建设可进一步细分为搜集公开数据、购买数据库、自身馆藏累积等。
2.1 通过开展调研获取数据
调查研究是智库机构最常用的数据搜集方式之一,智库研究人员通常运用的传统调研方法有文献调查法、统计调查法、问卷调查法、专家调查法、访谈调查法等,其中文献调查法因其低成本和易开展成为使用频率最高的方法。在调查研究过程中智库专家经常不拘泥于某种特定方法,而是相互交错、灵活运用。
在传统调研运用中比较典型的有美国布鲁金斯学会、胡佛研究所、卡内基国际和平基金会等老牌智库。其中,布鲁金斯学会是美国乃至世界最具影响力的智库之一,已连续9年被《全球智库报告》评选为“全球最佳智库”以及“全美最佳智库”[4],通过对其网站上收录的研究项目进行统计发现,截至目前布鲁金斯学会已有801项课题的研究报告、文章、专著是基于各种调查研究方法完成的,其研究内容的范围和主题是基于开放调查并综合了300多位学者代表的不同观点。调查研究的范围包括商业金融、国防安全、经济、教育、能源与环境等15个领域,每个领域主题下又细分为若干子主题。本文发现以布鲁金斯学会为代表的综合智库在其开展的调查研究项目中以统计调查法使用的居多,尤其在经济研究与社会研究方面,在涉及到人口、经济增长、国民生产力、债务问题、进出口贸易等领域的问题时需要借助大规模、真实准确的数字来反映现实问题并以此作为政策调整的依据。样本数据量越大越全面自然能越准确反映总体的情况,在当今大数据环境下通过获取更全的数据样本并对其进行统计分析已经成为开展大规模研究的主流方法与趋势。endprint
此外,为了顺应全球化发展要求,扩展业务范围扩大全球影响力,同时为了避免语言障碍和文化差异对研究样本总体特征的把握造成干扰,实力雄厚的智库往往会在各地开设分支机构,通过开展实地调研来为数据搜集提供更便捷可靠的信息来源。如布鲁金斯学会在北京、多哈、新德里等城市设有分支机构,为自己搜集有关信息和情报;卡内基国际和平基金会除了位于美国华盛顿的总部外,还在莫斯科、北京、布鲁塞尔、贝鲁特、新德里分别设立有政策研究中心,每个中心分别拥有独立的研究主题、项目、专家团队等,从而在全球建立起自己的数据调研网络。以北京的卡內基-清华全球政策中心为例,其机构本身就是卡内基“亚洲项目”的一部分,该项目旨在为政策制定者提供关于亚太地区经济、安全、政策发展的清晰准确的分析,卡内基-清华全球政策中心主要负责包括国际经济贸易、能源与气候变化、防止核扩散及军备控制,以及朝鲜、伊朗、南亚、中东地区的潜在安全威胁,在北京及世界各地的分支机构保障了卡内基在对应范围内信息收集的可靠性与便利性。目前,卡内基国际和平基金会已在全球20多个国家拥有超过100位专家,每个地区的学者均从当地选拔并用当地语言撰写研究报告,由此在与全世界其他同事合作的过程中加深各个机构对形成当前世界范围内各种政策选择环境的理解,并提出合情的政策问题的解决方法。
2.2 通过实施实验获取数据
除了调研方式以外,智库研究人员有时需要借助特定的实验方法和工具围绕某一课题开展科学实验以获取客观真实的实验数据,通过实验方法搜集到的数据信息具有直观、量化等优点,并可通过调整某些参数来观察同一实验在不同变量条件下的结果。
某些智库研究如涉及到军事预测、行为科学、药物病理等具有多种不确定因素和结果的问题时往往需要借助实验帮助研究人员排除外界干扰,突出主要因素,模拟研究事物或过程的发生,采集到的数据中既包括基因序列等通过实验设备获取的实验数据,也有通过遥感勘测、传感器等实时观测到的数据,还包括经济模型、气象数据等通过实验模型获取的模拟数据。如美国兰德公司在其成立之初主要为美军提供调研和情报分析服务,随后其业务逐步扩展。兰德公司已意识到按照传统的学科背景或政策领域组织科学能力的方法已不再足以加速创新,在“方法研究中心”板块下兰德公司分别展示了多样化、多学科的创新方法和分析工具。以“游戏中心”为例,“游戏”可以被认为是满足一定特征的任何互动过程[5],游戏这种战略分析思路常被兰德专家在一个分析过程中的不同节点使用来实现不同的目标,在使用游戏方法分析特定课题时,需要通过反复建模来获取大量实验数据对现实情况进行模拟仿真,以保证设计方案在投入实际运用时产生最大的效用和最小的误差。又如,在“不确定性条件下决策制定中心”针对个人决策的制定时,兰德专家运用行为学实验的方法对被实验者从心智模式方面进行考察并获取各项指标数据,以在决策制定过程中提供直接参考作用。卡托研究所(Cato Institute)经常开展各种实验以获取一手原始信息用于支撑自身的研究。如在研究人类文化与习俗的演变中,卡托研究所选取了17世纪位于中非的库巴王国的一段历史事件,并据此针对居住在卡南加的居民设计了两个行为实验进行研究[6]。
2.3 搜集各类公开数据
利用各种信息渠道直接采集各类公开数据是最经济便捷也是智库研究人员最常用到的数据搜集方式之一。智库最初出现的20世纪50年代,研究人员主要依靠图书、报纸、期刊、年鉴、档案等纸质印刷出版物进行公开资料的搜集工作;20世纪90年代末互联网的普及使得各种形式的大量数字化信息迅速传播,其中公开信息占绝大部分,包括由政府各部门发布的国民经济数据、人口数据等官方信息,以及各类新闻报道、天气数据、影视文字等非官方信息,同时开放存取运动大规模地兴起,科研成果和学术信息在互联网上的传播也得到了迅速推动与交流,大量科研数据不再受到版权费用和获取权限的限制,智库等咨询机构及学术机构可以更便捷地获取到各种类型的科研数据和学术资料。
智库在进行信息搜集时往往会同时兼顾纸质信息源和数字信息源,尤其是政府部门及知名机构发布的权威性数据资源,以保证智库研究产出的可靠性。如查塔姆研究所(Chatham House)在开展研究时数据信息来源十分广泛,其中绝大部分来自各机构组织和新闻媒体发布的公开信息资源,以其“能源”专题下的一篇研究报告[7]为例,在研究外交政策对能源安全、气候与竞争力的影响时,引用了大量研究报告、新闻报道、事实依据与统计数据,其中不乏有欧盟委员会、欧盟统计局、欧洲委员会、欧洲风能协会等这种国际权威组织机构,也有牛津大学这样的学术机构,还有能源社区组织、摩根士丹利公司这种独立机构和企业,此外,英国《卫报》、路透社等媒体机构以及各种会议论坛的公开资料也是智库研究人员在研究过程中的信息来源。
基于开放获取的便利,学术类资料也成为智库机构信息搜集的主要来源之一,如卡托研究所的出版物《政策分析》在一项针对恐怖主义和移民的研究[8]中,除了从洛杉矶时报、美国国土安全局、审计局等媒体报道及权威机构收集公开数据外,还引用了如《Terrorism and Political Violence》《International Interactions》《Journal of Economic Perspectives》《Insurance Journal》等学术期刊资料,以及兰德公司的全球恐怖事件数据库、马里兰大学的全球恐怖主义数据库(GTD)等机构资料。
2.4 购买数据库获取数据
面向研究领域的特定需求从数据提供商购买专业数据库也是智库进行数据采集的常见方式,尤其对附属于高校的学术性智库机构来说,采购ProQuest、Springer、IEEE、Elsevier等学术型期刊全文数据库是开展研究的必须基础设施之一。对于资金实力雄厚的智库,直接采购数据省去了自主调研、开展实验和信息采集环节的时间与财力,可以迅速将精力与资源投入到研究中。endprint
马普学会是由德国政府资助的全国性学术机构,是欧洲国家级科研机构的典型代表,无论从规模还是研究影响力均位居世界前列。本文通过对其各机构职能进行调研表明,马普学会除了主要作为国家科研机构开展研究活动外,它还适时发挥着科技智库的功能。作为国家智库,马普学会已连续多年在《全球智库报告》的科学技术领域智库中排列第一。马普学会成立的马普数字图书馆(The Max Planck Digital Library,MPDL)为其下80多个研究所提供科学信息支持和基于网络的学术交流,在提供学术服务的同时为其智库职能提供数据支持。MPDL的Factual Databases专题数据资源下的14个数据库提供了大量事实型数据,其中8个社会经济数据库均采用订购获取的方式采集。此外,马普学会还很重视基础数据和统计数据的长期积累,以期产生增值效应,如以数据档案的方式订阅了国家报告,并订购了全球最大的统计数据门户Statista公司的数据平台,Statista拥有超过来自18000个数据源的共计1000000多条数据,覆盖600多个行业,80000多个主题及10000多项研究。
2.5 机构图书馆(档案馆)馆藏数据
对智库来说自身图书馆(档案馆)在信息的搜集和利用过程中占有举足轻重的地位,智库图书馆(档案馆)是智库基于组织自身一定量的现有资源而逐渐积累形成的资料收集、整理与存储机构,作为智库重要的信息保障机构收藏了丰富的数据信息资源,包括期刊、文献、图书专著、档案、报纸以及数字化的数据库等资料。一个机构的图书馆若在某一研究领域的信息资源馆藏较为丰富,就意味着该机构对该研究领域占有了优势。图书馆馆藏的优势内容一定程度上影响了智库在研究课题选择方向上的偏好;另一方面智库在信息资源建设时也会有针对性地对优势领域的信息资源进行完善补充和巩固,以确保其核心竞争力。
事实上,国外不少知名智库的出现最初都是基于对特定的研究领域和项目的持续关注而成立的,且都会专门设立图书资料部门以为专家的决策过程提供知识服务。如兰德公司就是由于一批美国科学家与工程师在二战期间将运筹学运用于作战取得了重大成绩,战后受到军方高度重视而决定成立一个“独立的、介于官民之间进行客观分析的研究机构”[9],其特色资源中仍保留了大量与军事相关的数据与工具;又如美国总统胡佛创立的胡佛研究所,其建立的初衷是为了收集与第一次世界大战的形成和发展有关的历史资料和文件,因此在胡佛研究所成立初期它只是一个专门的图书资料收集中心,直至20世纪40年代末该研究所才开始招募学者进行研究工作。
大部分智库都会围绕其优势领域有针对性地进行馆藏资源构建。日本国际问题研究所JIIA是日本研究国际问题的核心机构,旨在通过对国际问题的专门研究,为日本外交政策的制定提供建设性意见,并向公众传播国际关系的有关信息。其数字图书馆有针对性地从法治、外交、领土、亚太国际环境(中国及朝鲜半岛)几个部分开展资源建设,为本机构专家在国际安全保障和地区问题研究两个研究领域提供信息支撑。
2.6 合作交流与共建数据资源
当今的国际政治经济形势日趋复杂,单靠一家智库的研究很难全方位覆盖各地区的各类重大问题,也不符合智库的扩张需求。因此智库依托自身信息资源寻求合作发展逐渐成为一种新趋势,一方面可以将资源进行整合,进一步拓展和深化共同研究领域的项目研究;另一方面可以避免重复建设造成资源的浪费。比较常见的有联合举办政策研讨会、政策论坛、开展学习培训等合作形式,通过人员交流和开放性讨论获得有益的数据信息、研究资料、技术及经验;还有智库通过与其他权威机构合作共建数据库,丰富彼此数据资源的同时实现共赢。如德国国际和安全事务研究所SWP与12家德国研究机构合作建立了欧洲国际关系与地区研究信息网络EINIRAS,并通过项目合作的形式分别建立了欧洲最大的国际关系研究资源库“世界事务在线”(Database World Affairs Online,WAO)、一个国际关系与区域研究领域的搜索门户IREON,以及包含德、英、法、意、俄、克罗地亚、波兰、西班牙、捷克9个欧洲国家语言的主题词词表项目European Thesaurus,它为WAO和IREON的主题索引提供了支持。这种联盟化的合作形式和成果不论从机构内部还是机构外部都极大提升了数据支撑能力,同时强化了各合作机构的相关研究领域在国际上的竞争力。
3 大数据环境下智库急需新的信息搜集策略
通过以上调研可以看出,国外智库的信息搜集策略虽然相对已比较成熟,有规范化的流程和完善的分类体系,但不足之处在于采集到的资源相对独立,数据之间缺少必要的关联,对信息进行标引和组织需要较多的人工参与,这种半自动化的信息支持机制在体量大、更新快、形式多的大数据时代势必会面临挑战。
3.1 智库传统信息搜集策略已无法适应大数据环境
大数据下基于数据驱动的科研过程需要更高效的信息支持机制。21世纪伴随着互联网、云计算和社交网络的发展,一切事物皆可数据化,大数据逐渐在各行各业渗透,政府、企业和各类机构都能轻易获得海量数据,任何信息过程都开始呈现出一种“数据驱动”的趋势。當前全球形势瞬息万变,智库决策产品具有很强的时效性,因此智库决策研究过程不仅要求准确,更强调大数据下对数据搜集及处理的效率,这就要求智库必须将非结构化数据资源处理成能够被计算机自动识别并处理的“可计算”数据,以实现智库研究数据搜集、数据组织、数据分析、数据利用流程在计算机上的自动化,从而迅速、准确地为决策研究提供数据支撑。
通过调研可知目前国外智库虽已有较完善的信息搜集策略,但人工参与环节较多,整体效率不高,在大数据环境下各种传统数据采集方法的不足逐渐显露。如调查研究方式中以文献调研法和问卷调研法为例,它们都是智库必不可少的信息采集方法,但信息的挖掘能力在包含各种复杂类型的海量数据中十分有限,文献调研法由于所研究文献的区别(如一次、二次文献加工程度不同或载体不同)导致人为分析全面性和效率上的不足,而问卷调研法在互联网环境下无法保证准确有效地反映了受访者的真实想法,效度较低,且一旦在后期发现错误将很难补救[10]。这些缺陷都会导致智库在分析处理阶段出现一定偏差,使智库产品存在瑕疵。此外,调研法和实验法都需要一定的时间周期才能获取信息,在目前智库要求对突发事件和热点事件迅速相应的趋势下略显被动。间接采集策略中购买数据库的方式成本高昂且难以囊括大数据下的所有样本,依靠自身累积或寻求合作也存在很大的局限性,因此利用互联网搜集公开数据成为绝大部分智库获取信息数据的首选途径。综上,传统的数据采集方法已无法适应当下实时更新的大规模非结构化的大数据环境,数据采集效率将大打折扣,同时数据存储方式也需进行相应转变,相对于结构化数据可以二维表结构的形式存储在关系数据库中,智库采集到的大量非结构化数据包括文档、图像、声音、视频、超媒体等信息难以通过一般结构化的方式进行存储,这也是数据采集需事先考虑的问题。endprint
3.2 新型搜集技術的发展应用及相关实践案例
大数据时代背景下需要处理的数据量迅速膨胀,谷歌、Facebook、亚马逊、百度等大型互联网企业作为大数据的生产者也是主要使用者,参与研发并运用各种最新的数据采集、清洗和挖掘技术或工具实现对大数据的自动化处理,以扩大数据处理量,提高数据处理效率,如比较常见的WEKA、Rapidminer、Orange等。智库可借鉴互联网企业的经验,运用数据挖掘、网络爬虫、机器学习等先进的大数据技术实现智库从信息采集环节,到信息组织、信息分析一系列流程的自动化,逐渐减少不必要的人工参与,从而更迅速地搜集到更全面的数据资料,在“数据驱动”趋势下极大提升智库自身的信息处理效率。
机构知识库作为智库知识库的一般形式,在国内外已有较多关于信息采集的理论与技术研究取得成果并得到了有效应用,值得智库借鉴。如由麻省理工学院图书馆(MIT Libraries)和惠普公司实验室(Hewlett-Packard Labs)合作研发的DSpace系统是一个专门的数字资产管理系统,便于收集、存储、保存和发布数据,类似还有Eprints、OCLC开发的CONTENTdm等,可以在语义层面对采集到的文档进行元数据填充;中国科学院兰州文献情报中心也基于DSpace搭建中科院机构知识库平台(CAS-IR),对本机构知识内容进行捕获、转化和传播,并尝试利用关联数据实现知识库资源的语义扩展[11]。然而由于智库知识库无论从服务对象、数据来源、资源种类还是开放程度上都与机构知识库有一定差异,因此在借鉴机构知识库数据搜集策略的过程中应留意这些特征。
3.3 大数据下智库信息搜集策略的建议
智库的政策研究过程实际上是一个知识增值的过程,每一项活动都是这一价值链条上的一个环节。T.Gustafson和D.Fink[12]于2013年提出“大数据价值链”的概念,认为每条大数据价值链简化后都至少应由4个基本阶段组成:数据获取——数据存储——数据分析——数据应用。基于此,结合智库的一般运作流程,本文提出大数据环境下的智库数据价值链(见图1),智库数据价值链反映了在智库运作的各个阶段围绕数据进行的活动,而大数据则为各环节提出了要求。智库的数据采集作为数据价值链的首要环节承担着重要的作用,数据采集的质量和效率将直接影响到后续智库产品的质量和影响力。基于此,针对当前智库在大数据时代背景下的信息搜集策略提出以下建议。
(1)数据采集的自动化。运用当前最新数据采集技术,实现智库数据搜集环节的自动化。面对浩瀚的大数据,传统通过人工或半自动化的数据采集方式已不能满足智库在当前国际形势下的研究效率,利用信息技术将数据加工为可供计算机自动处理的“可计算资源”已是必然趋势。由智库数据价值链可以看出,数据采集是大数据下实现智库知识增值的第一步,通过信息抽取、网络爬虫等技术自动采集互联网上的信息,在大数据环境下尽可能多地获取更全面的数据样本,为智库政策研究提供大量的信息源,从而为后续的信息组织和分析打下基础。
(2)制定必要的采集规则。智库接触到的大数据来源除了各类数据库外,还包括合作机构间的共享数据、网络出版的开放数据等内容。此外,各种传感器收集数据、社交网络用户数据、移动互联网数据等,凡是满足开展政策研究各领域需求的数据信息都成为智库采集的对象。然而鉴于大数据环境下数据质量参差不齐,必定会采集到一部分不合格数据,所以有必要设置一定的数据采集规则并按一定标准格式进行后续存储,以确保智库采集到的资源将得到有效利用。
(3)构建智库知识库。根据国际数据公司IDC的一项调查报告中指出,目前企业中的非结构化数据已经占到数据总量的80%以上,且这些数据按照每年60%的速度增长。智库采集到的这些海量复杂类型数据必须经过统一处理,进行组织存储后,才能为后续分析提供“可计算”资源,即可通过计算机自动识别和处理的信息资源。智库知识库是智库机构通过管理手段结合各种信息技术对相关信息数据进行组织,形成该智库机构所拥有的知识集合,其主要目标是将采集资源语义化,通过相互关联的知识片发现数据间的规律和潜在知识,并据此为用户提供知识服务。
4 结语
本文调查了国外十余家具有代表性的智库在信息搜集方面的策略与资源建设,通过分析与总结可以看出,西方智库的数据搜集策略虽较为全面,但已无法适应当前大数据特征的要求。文章提出利用数据挖掘和机器学习等技术工具实现自动采集,并参考机构知识库的成功案例,尽快建立智库知识库提升自身数据采集和分析能力,使决策参考更具科学性与前瞻性。
参考文献:
[1] James G.McGann,University of Pennsylvania,2015 Global Go To Think Tank Index Report[EB/OL].[2016-08-10].http://repository.upenn.edu/think_tanks/10/.
[2] 吴育良.国外智库决策信息支持研究及启示[J].图书馆理论与实践,2015(10):31-35.
[3] 廖球,严扬帆,莫崇菊.大数据时代机构自建学术数据库研究[J].图书馆学刊,2014(4):34-36.
[4] Wikipedia.Brookings Institution[EB/OL].[2016-08-14].https://en.wikipedia.org/wiki/Brookings_Institution.
[5] Rand Corporation.Methods Centers at RAND[EB/OL].[2016-08-18].http://www.rand.org/capabilities/methods-centers/gaming.html.endprint
[6] Sara Lowes,Nathan Nunn,James A.Robinson,et al.Cato Institute[EB/OL].[2016-09-02].http://www.cato.org/publications/research-briefs-economic-policy/evolution-culture-institutions-evidence-kuba-kingdom.
[7] Thomas Raines,Shane Tomlinson.Chatham House[EB/OL].[2016-09-03].https://www.chathamhouse.org/sites/files/chathamhouse/publications/research/2016-03-31-europe-energy-union-raines-tomlinson.pdf.
[8] Alex Nowrasteh,Cato Institue.Terrorism and Immigration: A Risk Analysis[EB/OL].[2016-09-30].http://www.cato.org/publications/policy-analysis/terrorism-immigration-risk-analysis.
[9] MBA智库百科.美国兰德公司[EB/OL].[2016-10-01].http://wiki.mbalib.com/wiki/%E5%85%B0%E5%BE%B7.
[10] 王海峰.大数据智库:中国特色新型智库建设途径研究[D].上海:华东政法大学,2016.
[11] 王思丽,祝忠明.利用关联数据实现机构知识库的语义扩展研究[J].现代图书情报技术,2011(11):17-23.
[12] Gustafson T,Fink D.Winning within the data value chain[J].Strategy & Innovation Newsletter,2013,14(2):1-5.
作者簡介:安楠(1992-),男,中国科学院大学、中国科学院兰州文献情报中心硕士研究生;祝忠明(1969-),男,中国科学院兰州文献情报中心研究馆员,博士生导师。endprint