李辉 曾文 吴晨生 李荣 樊彦芳
〔摘 要〕大数据时代的到来,促进了计算机科学技术的飞速发展,同时也给科技情报分析方法的研究带来发展机遇。有效的数据分析方法是获取有价值情报的基础。科技政策数据分析是指利用计算机处理技术自动地从科技政策数据中提取简练且有代表性的语句,识别出数据的核心内容或用户感兴趣的语句内容。基于科技政策数据内容的特点,本文提出适用于科技政策数据内容特点的数据分析方法,设计并构建科技政策数据内容分析实验系统,验证了本文提出方法的有效性。为探索深层次的科技数据情报分析方法提供了新思路。
〔关键词〕中文科技政策;数据分析;新能源汽车
DOI:10.3969/j.issn.1008-0821.2018.06.010
〔中图分类号〕F204;G311 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0068-05
〔Abstract〕The arrival of the era of big data has promoted the rapid development of computer science and technology,and also brought opportunities for the development of scientific and technological information analysis methods.Effective data analysis methods are the basis for acquiring valuable information.Data analysis of science and technology policy refers that it use processing technology of computer to automatically extract concise and representative statements from the scientific and technological policy data,identify the core content of the data.Based on the characteristics of science and technology policy,this paper proposed a data analysis method suitable for the content of science and technology policy,designed and constructed the experimental system about data analysis of science and technology policy,and verified the effectiveness of the method proposed in this paper.It provided a new way for exploring the deep analysis method of scientific and technical information.
〔Key words〕chinese science and technology policy;data analysis;new energy vehicles
科技政策數据是一种特殊类型的科技数据,相比其它类型的科技数据,如科技文献数据,其数据内容更具研究特色,科技政策数据内容相对比较宽泛、公文化表述内容居多。科技政策数据的分析是指对科技政策数据内容进行语句级的分析。目前,国家和各级政府颁布的科技政策通常会通过网络实现实时的发布,例如:我国国家科学技术部、中国科学院和各省、市科委均设有科技政策法规相关网站,并且国内已建有科技政策法规数据库,如:全国科技创新政策数据库,可提供按时间排序的科技政策信息浏览和全文下载功能。但是,针对科技政策数据内容的分析服务并未有涉及。所以,当用户使用传统的关键词方式,检索科技政策数据库时,特别是在大规模数据情况下,用户快速、准确找到其需求的科技政策数据是比较难以实现的。因此,如何准确而快速地挖掘科技政策内容中的关键语句信息,对政策制定者、企业、个人等普通用户均是必要的。考虑到目前涉及科技政策数据深层次内容进行自动分析的研究相对较少,所以研究意义相对更大。因此,本文重点介绍科技政策数据的分析方法,需要指出的是:本文提出的科技政策数据内容分析方法可以为非科技政策数据内容的分析提供借鉴和参考。
1 研究现状
目前科技政策法规的研究,即对政策法规研究方法、工具和理论较多,来自不同学科的研究都有其自身的研究基础和方法论,形成了各种各样的研究框架和研究方法。在研究的内容方面,包括科技评价、技术创新、高新技术企业、科技成果转化等,研究方法和工具涉及政治学、社会学、经济学、公共政策等多个学科,主要涉及3个方面:
1.1 针对科技政策基本理论的研究
肖世恩[1]以政策法规理论框架为基础,探讨了地方科技创新政策的评估内涵、评估标准、评估指标体系和评估方法。高峰[2]利用政策指数对区域政策法规内容进行整体判断与分析,仲伟俊等[3]在政策工具的视角下构建政策分析框架,建立了基本政策工具纬度、科技活动类型纬度、科技活动领域纬度的三维分析框架,通过实证分析提出我国现有政策法规的不足和展望。
1.2 利用定量化的方法分析科技政策
黄萃等[4]提出一种政策工具视角下的政策文本量化研究方法,根据政策工具理论制定分析框架并进行频数统计,在量化分析的基础上提出政策建议,汪涛等[5]提出一种类定量化的政策法规文本分析框架,通过对一定年份北京市政策法规的演进分析,来验证该框架的合理性并提出政策实践的改进建议。
1.3 科技政策内容的分析
杨阳等[6]通过对政策的收集和对政策内容的总结,分析德国政府关于海上风电政策的演变、德国海上风电在新能源整体战略布局中的地位,最后针对性地提出德国海上风电发展在政策上对于我国发展海上风电的启示。彭纪生等[7]利用计量模型分析了我国近几十年的技术创新政策的演变路径,同时利用柯布-道格拉斯生产函数对政策法规变量进行统计,他们利用政策量化和统计分析的方法,探讨政策法规对经济绩效和技术的影响。
综上所述,已有研究多是为政策制定者和政策主体制定政策、解决政策问题等提出的分析框架,可为制定者明确问题和调整政策提供参考。但是针对政策服务对象即用户的科技政策内容分析则较少,在大数据量的情况下,用户如果仍然使用传统的检索策略去查询科技政策数据库的数据,是难以快速有效获取有价值的科技政策数据信息的。
2 科技政策数据的分析方法
2.1 领域科技政策停用词表与词典的构建
人类语言系统中有很多对表达文档中心含义没有任何实质帮助的词,这些极其常见的词就是功能词。如果单独考虑这些词语,将会影响文本分析的效率和准确率,所以数据预处理时需要去除这些功能词,这些功能词又被称为停用词。停用词在不同的自然语言过程中指代的定义也有所不同,在基于词的检索系统中,停用词指的是那些没有太大检索意义的词,一般情况下这些词出现的频率也很高;在自动问答系统中,停用词会根据实际问题的不同而变化;在自动分类中,停用词指的是无情感倾向的中性词和无实际含义的虚词。在实际的自然语言处理过程中,部分修饰成分词语可能会对句子识别进行干扰,所以需要过滤这些停用词,从而可有效减少索引量,提高效率,并最终提高匹配效果。
科技政策数据内容用词较为严谨,政策领域的停用词和通用停用词表相比,没有“哦”、“哈”等语气词,没有拟声词,没有相对白话的转折词,没有人物代词,没有相对特殊的符号,但是有部分公文领域常用词。为了构造适用于政策法规文本的停用词表,首先需要了解普通停用词表应该包含的词性。周钦强等[8]认为,基本的停用词表不仅应该包含通常意义下的数字、标点符号和字符等,也需要包含文本信息量非常少且词频很高的独立字,例如“的”等。罗杰等[9]认为,停用词的词性应包括数词、量词、代词、方位词、拟声词、叹词等,某些没有实际意义的动词和词频过高的名词也可以作为停用词,例如“按照”、“研究”等。所以,本书构建的停用词表也应包含符号、数字和无实际意义的某些词性,为了找到停用词,需要依据一定的标准计算得到。最基本的计算标准是利用词频的大小判断。词频评估函数的理论假设是:通常高频词与高噪声值具有相關性,即当一个词的词频非常高时,很有可能是噪声词。本书利用中国科学院NLPIR-ICTCLAS2014分词系统对所搜集的科技政策法规进行分词,统计分词及词性标注后的政策文本中所有词的词频。可以发现:一些没有实际意义的词,如:“的”、“是”、“和”等虚词,连词(即停用词)出现次数非常多,这些词不能出现在术语中。同时,一些频繁出现的常用词,如:“服务”、“推广”、“加快”、“我们”等,它们虽然有实际意义,但不包含领域专业信息,同样不能出现术语中。对于停用词及不包含领域专业信息的常用词,需对它们进行以下处理:对于停用词,直接将它们存入停用词表中;对于常用词,对照相应公文领域及科技领域主题词表,以词频及主题词表判断作为依据,选择不是术语的常用词,存入停用词表文件中。对于科技政策数据的词典的构建,可以参见文章科技政策术语自动识别技术[10],实现科技政策词典的构建,此处不再赘述。
2.2 科技政策数据内容的分析方法
科技政策内容分析是指利用计算机处理技术自动地从科技政策文本中提取简练且有代表性的语句,识别出文本的核心内容或用户感兴趣的语句内容。科技政策文本直观表现为公文化、规整化的长文本。公文化体现在政策法规遣词造句较为严谨,包含大量的公文用词;规整化表现在部分政策法规分条目论述,形式规范,每条内容的联系性一般不大,区别于普通叙述性文章和科技论文。科技政策数据内容还有低噪声和高冗余的特点,低噪声的特点指的是科技政策文本行文规范,没有特殊符号和网络用语;高冗余的特点指的是指有关某个主题的政策用语有可能会十分相似。因此,适用于科技政策数据内容特点的分析方法应以计算政策法规的重要语句为重点,而语句权重的计算是判断重要语句的依据。其计算上,我们重点使用特征组合方法。特征组合的方法是将数据中语句的多个特征按一定方式组合,然后根据对每个特征的计算和特征组合后计算值进行排序,抽取出相对重要的语句。常使用的特征包括:词频、与标题的相似度、句子位置、线索词等。基于科技政策数据内容的特点,本文使用的特征是词频、语句与标题的相似度、语句的技术强度等。
2.2.1 基于词频的科技政策数据内容权重计算
词频较大则代表词的重要性更高,那么包含重要性高的词越多的语句的重要性越大,则更有可能称为重要句。这点对于科技政策文本重要语句的分析同样适用。该方法是将词频作为词语的权重,再根据词语的权重来计算语句的权重,其假设文本是语句的线性排列,语句是词的线性排列,若一个语句中权重高的词汇越多,那么其包含的信息量就越大,因此这个语句就越重要。基于该假设,本文此处做如下改进:基于词频的科技政策数据内容权重计算不是衡量语句中的每个词的权重,而是结合科技政策数据词典和停用词表处理来衡量语句中每个术语的权重,这是由于语句中不仅包含有实际含义的词语,也包含一些停用词、无意义虚词,而词典中的术语是本领域中专业概念的集合,理论上语句中的术语包含了语句的主要思想。因此,本文在计算语句权重时,考虑语句中每个术语的权重,既可以简化计算又能提高计算准确率。计算方法如下:
2.2.2 基于标题相似度的科技政策数据内容权重计算
科技政策数据文本的标题是一个很重要的信息,标题通常与文章的中心内容相关性很大。由于科技政策文本具有公文化、规整化的特性,其标题通常较为简洁且归纳了该政策的核心内容,因此出现在标题中的词理论上具有更高的权重。基于该假设,本文通过语句与标题的相似度计算来进一步衡量语句的权重,语句与标题的相似度的计算采用基于向量空间模型的相似度计算方法。向量空间模型是最常用的语句、文档相似度度量模型,其优点是基于线性的模型利用统计的手段解决语义的问题,计算方法简单且效率较高。本文研究是基于向量空间模型的原理,利用术语库形成的词典对每个语句和标题进行分词,把语句和标题用其含有的术语即特征项的向量表示出来,然后计算语句与其对应标题的向量间的夹角,向量夹角越小,标题与语句的相似度越高。语句与标题的相似度的计算公式如下:
2.2.3 基于技术强度的科技政策数据内容权重计算
在某种意义上,我国的科技政策具有指导科技创新发展的意义,科技政策法规内容往往会涉及技术术语。我们可以假设:如果在某个科技政策法规的语句中包含有科技术语,则这个含有科技术语的语句,我们认为它相对其它不包含科技术语的语句是更重要的。2012年,中国科学技术信息研究所组织编撰了汉语科技词系统,其中包含新能源汽车等领域的核心科技术语集、非核心科技术语集和相关科技术语集等。依据汉语科技词系统的内容,本文设计如下基于技术强度的科技政策数据内容权重计算方法。
如果科技政策的语句中含有核心科技术语,则该语句的技术强度权值为0.8;如果科技政策的语句中含有非核心科技术语,则该语句的技术强度权值为0.5;如果科技政策的语句中含有相关科技术语,则该语句的技术强度权值为0.3;对于其他情况,该语句的技术强度权值为0.1。
综上,本文提出的科技政策数据内容的重要性计算公式如下:
3 实验分析
为验证本文提出的科技政策数据分析方法的有效性,本文设计实验系统平台,应用本文提出的方法并进行相关实验。实验数据是新能源汽车领域的科技政策数据。系统平台实现科技政策数据集中每篇科技政策文本内容的每个句子重要性权重计算。权重计算的主要内容涉及3个方面:一是基于词频的科技政策数据内容权重计算;二是基于标题相似度的科技政策数据内容权重计算;三是基于技术强度的科技政策数据内容权重计算。科技政策数据的分析方法流程如图1所示,通过实验处理后,实现科技政策数据集中的语句内容,按照重要性计算值的高低进行排序输出。
科技政策的数据内容按policy(Importance_value)值从大到小排序,将内容中的句子依次输出,本文抽取部分所得结果(见表1)进行分析。表1是随机选取的5条政策法规,列举5条政策法规内容中重要性值最高和最低的语句。以随机抽取的例子来看,第一条政策,其重要性值最高的语句描述的是政策制定的目的,重要性值最低的语句描述的是住宅小区物业服务企业对业主提出的要求;第二条政策,其重要性最高的句子描述的是政策目的主题内容,重要性值最低的句子描述地区实施方式;第三条政策,其重要性值最高的语句描述的是政策的适用范围,重要性值最低的语句描述的是政策实施的条件;第四条政策,其重要性值最高的语句描述的是广州新能源汽车推广应用的方案,具有总括性,重要性值最低的语句描述的是探索具体的商业模式;第五条政策,其重要性值最高的语句描述的新能源汽车推广的意义,重要性值最低的语句描述推广应用结果。可以看出,重要性值高的语句包含的信息内容丰富程度和重要程度相对来说比重要性值低的语句高,这些结果可在一定程度上证明本方法的可行性。系统平台的界面如图2所示,该系统平台实现科技政策数据的自动分析,提供语句级的科技政策数据内容重要性分析和数据内容显示功能。
4 结 论
随着网络技术的发展和应用,人们获取科技政策数据的途径和方式越来越方便和快捷,与此同时,其也导致政策法规的数据规模日益庞大,涉及的数据内容宽泛且复杂。如何从数据规模大且数据内容各不相同的科技政策数据中,分析其中的有价值数据内容是非常必要的。本文在已有的科技政策领域术语获取方法基础之上,实现了科技政策数据内容的深层次语义分析。针对目前关于科技政策数据内容分析研究较为匮乏的局面,设计并构建了一个科技政策数据内容的分析方法,旨在通过计算机自动处理的方法提炼出相对重要的科技政策语句,进而帮助有查询意图的用户快捷、准确地找到其目标政策语句,为未来实现面向海量政策法规数据集的快速检索、分析和导航奠定分析方法和技术基础。
参考文献
[1]肖士恩.基于创新型社会的地方科技创新政策评估理论研究[J].科技进步与对策,2010,27(1):103-105.
[2]高峰.基于政策指数的科技政策实证研究[J].科技进步与对策,2013,30(19):105-108.
[3]仲伟俊,蔡琦.科技政策分析框架研究[J].科技管理研究,2014,(22):23-27.
[4]黃萃,苏竣,施丽萍,等.政策工具视角的中国风能政策文本量化研究[J].科学学研究,2011,(6):876-882,889.
[5]汪涛,安暄.类定量化科技政策文本分析框架构建及北京市科技政策演进分析[J].技术经济,2011,30(6):15-17,34.
[6]杨阳,郑彦宁,陈峰,等.德国发展海上风电的政策分析[J].中国科技论坛,2011,(10):154-160.
[7]彭纪生,孙文祥,仲为国,等.中国技术创新政策演变与绩效实证研究(1978-2006)[C].第七届全国科技评价学术研讨会,北京:科研管理,2007:134-150.
[8]周钦强,孙炳达,王义,等.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86.
[9]罗杰,陈力,夏德麟,等.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34.
[10]曾文,李智杰,王小玉,等.科技政策术语自动识别技术初探[J].中国科技资源导刊,2017,49(3):20-25.
(实习编辑:陈 媛)