京津冀协同发展政策与文献的语义匹配度研究

2019-01-13 09:52刘璐余文斌李欣桐赵毅何喜军
中国市场 2019年35期
关键词:京津冀协同发展热点政策

刘璐 余文斌 李欣桐 赵毅 何喜军

[摘 要]提高政策与文献研究的协同效果,有利于加强科学研究对政策制定的支撑作用,以及政策制定对科学研究的引导作用。以中国知网和白鹿数據为数据源,基于Word2Vec和余弦相似度构建政策与文献文本的语义匹配度模型,研究京津冀协同发展政策与文献的匹配度及热点。研究发现:匹配度逐年上升,但匹配度值仍不够高;政策对科学研究有正向引导作用;政策与文献的热点呈现多元化趋势;政策持续关注点为城市建设,此外科技、环境、交通协同发展等也是热点;经济协同发展与产业转移、环境、区域空间建设、协同创新是研究热点。文章为政策与文献匹配度的定量研究提供了思路和方法。

[关键词]京津冀协同发展;政策;文献;语义匹配度;热点

[DOI]10.13939/j.cnki.zgsc.2019.35.029

1 引言

2014年2月,京津冀协同发展上升为国家战略,为京津冀三地的跨越式发展提供重要机遇。5年来,为推动战略实施,国家和京津冀三地政府陆续出台多项政策,学术界也围绕区域协同创新开展系列研究,取得了阶段性的成果。在战略实施进入攻坚阶段,政策与科学研究的协同性和匹配性尤为重要,匹配度高,说明科学研究对政策制定的支撑作用加强,同时政策制定引导科学研究的问题导向功能加强。目前,已有成果多从单一维度研究政策热点和科学前沿挖掘,对两者语义匹配度的研究还较少关注。因此,本文将利用文本挖掘中语义分析方法基于时间系列研究政策与文献的匹配度,并挖掘政策与文献热点,为提高两者的协同效果提供对策建议,从而加强科学研究对政策制定的支撑作用,以及政策制定对科学研究的引导作用。

2 文献回顾

2.1 京津冀协同发展政策研究及热点识别

京津冀协同发展的核心是有序疏解北京非首都功能。董微微[1]通过对中央报刊政策文本的关键词和主题词的提炼及分析,探究京津冀协同发展热点主题和前沿趋势;黄萃等[2]提出政策文献量化研究,为公共政策研究提供新方向。

2.2 京津冀协同发展文献研究及热点识别

魏进平等[3]利用文献计量学和共词分析等方法,总结京津冀协同发展的研究热点和趋势;陈辰[4]等结合词频统计与高频关键词的语义关联分析,挖掘京津冀协同发展的热点主题。

2.3 政策与文献语义匹配方法研究现状

王崇德[5]研究证明文献计量学是科学政策制定有力的辅助工具;徐扬辉[6]表明公共政策制定过程离不开社会科学研究方法的运用。因此,研究政策与文献语义匹配度有利于反映科研成果的有效性。目前,基于关键词共现和基于语义共现匹配方法应用比较多。关键词共现方法认为:关键词在同篇文献中两两出现的频次越多,则认为这两个词的相关性强,但是当共现次数相同时则无法判断相关性强弱,且该方法无法判断语义相同但不共现的关键词之间的相关性强度,因此,该方法更适用于相关性问题识别。基于语义共现匹配方法能更好地弥补上述方法的不足,例如:基于信息内容的词向量模型[7],可以根据特征选择和统计构造向量空间,计算向量的语义相似性。

本文将采用MIKOLOV等[8]提出的Word2Vec模型结合维基百科语料库将政策与文献文本转化为低维实数向量,再结合余弦相似度计算政策与文献的语义匹配度。

3 基于词向量的政策与文献语义匹配度模型

关于模型构建步骤,有以下三步。

3.1 采集政策与文献文本词集

通过Python切词工具将政策与文献文本切分成词集,将文献词集表示为Si={Si_1,Si_2,…,Si_p}(i=1,2,…,m),m为文献词的个数,将政策词集表示为Dj={Dj_1,Dj_2,…,Dj_q}(j=1,2,…,n),n为政策词的个数。计算语义相似度是先计算词语之间的距离,距离越小则相似度越大,因此,两个词集中相同词语越多,那么其相似度也就越高,但是语义相似是指不同词语的含义相似度,因此要将两个词集做去重处理。处理后的Si表示为S—i={S—i_1,S—i_2,…,S—i_p′}(p′为文献词集去重后词的个数),Dj表示为D—j={D—j_1,D—j_2,…,D—j_q′}(q′为政策词集去重后词的个数),两词集的交集个数为r,且0≤r≤min(p,q)。

3.2 训练词向量模型

将采集到的政策与文献信息以及维基百科数据作为语料库,利用Word2Vec模型训练文本,将所有的词向量化,以此来表示词与词之间的关系,进而得到词向量模型。

3.3 计算政策与文献的语义匹配度

利用基于词向量的词集相似度方法[9-10]计算政策与文献文本语义匹配度。以计算S—i和D—j中的Sim(S—i_1,D—j_1)为例,设ai和bi分别为S—i_1和D—j_1的词向量,h为词向量的维数,则:

Sim(S—i_1,D—j_1)=∑hi=1(ai×bi)∑hi=1(ai)2×∑hi=1(bi)2(1)

同理,可得p′×q′的语义匹配度矩阵M1:

M1Sim(S—i_1,D—j_1)Sim(S—i_1,D—j_2)…Sim(S—i_1,D—j_q′)

Sim(S—i_2,D—j_1)Sim(S—i_2,D—j_2)…Sim(S—i_2,D—j_q′)

Sim(S—i_p′,D—j_1)Sim(S—i_p′,D—j_2)…Sim(S—i_p′,D—j_q′)

将M1中的最大值元素Sim(S—i_k,D—j_v)添加到集合R中,删除Sim(S—i_k,D—j_v)所在的第k行和第v列的所有元素值;重复以上过程,直到集合R中的元素个数T为min(p′,q′),从而得到集合R={Sim1,Sim2,…,SimT},词集S—i和D—j的匹配度即为集合R中各元素的加权平均值,公式为:

Sim(Si,Dj)=Sim(S—i,D—j)=(p+q)×(r+∑Tt=1SimT)2pq(2)

4 京津冀协同发展政策与文献匹配度测算

4.1 数据检索与统计分析

文献数据来源为中国知网,检索时间为2014—2018年,检索主题为 “京津冀”和“环渤海”,文献类别为CSSCI和CSCD,共检索到1951篇。政策文本来源为白鹿数据,检索时间同上,检索词为:“京津冀”“环渤海”“北京”“天津”“河北”,共检测到1004个政策。政策与文献发表时间及数量分布如图1所示。

由图1发现,2014—2017年,文献数量快速增长,政策数量在2014年达到最高后,呈现下降趋势;2018年,文献和政策数量均呈现下降趋势。分析其原因:国家战略制定后,各级部门快速反应并制定相关政策,短周期内政策数量达到顶点,后续围绕实践中面临的主要问题进行政策的调整和完善,数量趋于平稳;而文献研究需要周期较长,但在政策引导下,关注范围持续升高,成果快速增长。经过5年的周期,政策与制度相对完善,呈现下降趋势,从研究层面,对问题的关注更加深入,主题更加丰富和多元化,例如近年来的“雄安新区”建设则成为京津冀协同发展的研究热点,但因检索词中未涉及,导致从数据统计上文献数量呈下降趋势。

4.2 匹配度计算与分析

利用基于词向量的匹配度模型计算政策与文献的匹配度。结果如表1所示。

由表1可得:其一,5年来,政策与文献的语义匹配度呈现增长趋势,说明两者的協同性持续增长,政策研究的引导作用及文献研究对政策的支撑作用持续增强。其二,5年来,政策与文献的语义匹配度虽然呈现增长趋势,但匹配度相对较小,说明政策与文献研究的差异性依然较大。

4.3 政策与文献的热点挖掘及差异性分析

由于政策和文献关注点差异较大,归纳政策与文献的热点关键词如表2所示。

基于此,将两类文本的热点词汇可视化,得到图2、图3、图4和图5所示。

4.3.1 政策热点变化分析

结合政策热点词频统计,得出政策持续关注点为城市建设,此外科技、环境、交通协同发展等也是热点。其中,城市建设一直是政策热点,2016年9月全国科技创新中心建设上升为国家战略后,科技协同发展政策成为热点。随着大气、污染等问题的关注度上升,京津冀环境综合治理也是京津冀政策热点,且关注度逐年上升。此外,京津冀交通一体化作为《京津冀协同发展规划纲要》中的重点领域,交通问题五年间三次成为政策热点。

4.3.2 研究热点变化分析

结合科学文献热点词频统计,得出经济协同发展与产业转移、环境、区域空间建设、协同创新是研究热点。其中,经济协同发展与产业转移领域主要包括经济、产业、城市等。《京津冀协同发展规划纲要》指出要率先突破京津冀生态环境保护、产业升级转移等重点领域,因此近五年经济协同与产业转移一直是首要热点,环境治理是第二关注点。其次,空间规划作为实现可持续发展的必要手段和途径,时空和空间热度仅次于前两大热点。此外,科技创新也是研究热点。

4.3.3 政策与文献热点共性分析

政策与科学研究共性热点为京津冀城市建设问题。其中,主要涵盖京津冀资源分配、城市布局、空间结构调整、缓解首都功能压力、交通服务一体化等方面。此外环境问题连续五年作为政策与文献的热点关键词,其中,大气污染持续受到学者关注,是环境保护中最亟待解决的问题。

4.3.4 文献、政策热点差异性分析

政策关注科技与技术。“京津冀协同发展”提出之后,国家出台多部科技、技术支持政策,以此激励科技进步、技术开发与转移,缩小京津冀三地的科技技术水平差距。学者更重视经济发展、协同创新以及区域空间产业转移。

综上所述,随着政策的完善及研究的深入,热点呈现多元化趋势,政策研究与科学探索的匹配性提高。

5 研究结论和不足

本文以维基百科、中国知网以及白鹿数据文本为语料库训练词向量模型,利用Word2Vec结合余弦相似度构建政策与文献文本语义匹配度模型,对政策与科学研究的契合度以及热点变化进行研究,得出结论:其一,政策与文献匹配度稳步提高,科学研究对政策制定的支撑作用增强;其二,政策对科学研究有正向引导作用;其三,政策与文献匹配度仍不够高;其四,政策的四大热点为城市建设、科技、环境、交通;研究的四大热点为经济协同发展与产业转移、环境、区域空间、创新,且五年间热点变化不大;其五,学者和政策主要关注点相同,但次要关注点不同,导致政策匹配度不够高。

基于上述结论,为提高政策与文献匹配度水平,提出如下四点建议。

第一,挖掘政策需求热点,增强科学研究对政策制定的支撑作用。要深入研究京津冀协同发展政策,关注城市建设、区域环境、经济社会以及科技创新等领域的潜在问题。

第二,增强政策制定引导科学研究的导向功能。将政策目标细化,从而减小政策推行过程中热点识别难度,提高政策导向功能。

第三,提高科学研究对政策制定的决策支持作用,科学探索一方面要解决科学难题,另一方面要面向现实问题,因此应用实践类、案例研究类等问题研究要提高政策建议的有效性和可操作性。

第四,提高政策与科学研究的动态匹配性,要关注基于动态视角分析的政策以及文献研究的多维统计和热点挖掘,剖析两者之间的协同发展关系,以及相互作用。

本研究仅采集了CNKI中收录的文献,数据的局限性可能影响了分析的全面性。此外,分词的准确性会影响文本的量化分析。

参考文献:

[1]董微微.国内京津冀协同发展研究热点与趋势[J].工业技术经济,2015,34(8):134-138.

[2]黄萃,任弢,张剑.政策文献量化研究:公共政策研究的新方向[J].公共管理学报,2015,12(2):129-137,158-159.

[3]魏进平,赵王英.基于文献计量学方法的京津冀协同发展研究评述[J].河北工业大学学报(社会科学版),2016,8(3):11-18.

[4]陈辰,王璐,郝晓雪.基于词频统计与语义关联的京津冀协同发展研究热点与前沿监测研究[J].河北科技图苑,2018,31(1):91-96.

[5]王崇德.文献计量学方法在制定科学政策中的应用[J].图书情报工作,1988(1):10-16.

[6]徐扬辉.论社会科学研究方法在公共政策制定过程中的作用和意义[J].当代经济,2011(14):34-35.

[7]蔡圆媛,卢苇.基于低维语义向量模型的语义相似度度量[J].中国科学技术大学学报,2016,46(9):719-726.

[8]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of wordsand phrasesand their compositionality[J].Advancesin Neural Information Processing Systems,2013(26):3111-3119.

[9]崔晓兰,蔡淑琴,冯进展.基于本体的通信服务网络抱怨案例相似度计算[J].系统工程理论与实践,2017,37(6):1638-1647.

[10]何喜军,马珊,武玉英.基于本体和SAO结构的线上技术供需信息语义匹配研究[J].情报科学,2018,36(11):95-100.

[作者简介]刘璐( 1998—) ,女,北京人,北京工业大学经济与管理学院,研究方向:数据挖掘; 余文斌(1998—),男,甘肃庆阳人,北京工业大学经济与管理学院,研究方向:软件工程技术; 李欣桐(1998—),女,北京人,北京工业大学经济与管理学院,研究方向:信息计量; 赵毅(1998—),男,辽宁沈阳人,北京工业大学经济与管理学院,研究方向:数据挖掘; 何喜军(1979—),女,河北文安人,北京工业大学经济与管理学院,副研究员,博士,研究方向:数据挖掘与决策支持。

猜你喜欢
京津冀协同发展热点政策
政策
热点
政策
助企政策
政策
热点
结合热点做演讲