基于文本挖掘技术的四好农村路量化评价

2022-02-22 05:24巫诚诚蒋雨波陈大伟莫方旭
公路交通科技 2022年1期
关键词:农村公路江苏省河南省

巫诚诚,单 飞,蒋雨波,陈大伟,莫方旭

(1.东南大学 交通学院,江苏 南京 211189;2.河南交通发展研究院有限公司,河南 郑州 451162)

0 引言

“四好农村路”即建好、管好、护好、运营好农村公路,自2014年由中共中央总书记习近平提出,2015年交通运输部进一步形成具体意见,并计划于2020年实现这一总目标,从而进一步消除农村发展瓶颈、推动农路管养运协调发展。随着全国各省市的建设推进和目标年的到来,定量化评估四好农村路建设落实效果具有重要的现实意义。既有评估模型更多地依赖于地方上报数据及实际建设情况进行评估,存在反馈时间长、耗用人力物力大等问题,且评估结果难以反映出广大人民群众的实际支持情况。此外,由于不同地区统计口径不一,统计渠道存在差异,也使得不同地区间的评估对比存在困难。因此,随着信息化技术的发展,从大数据角度进行统一化的评估数据采集与评估方法建立,具有重要意义。

国内外学者针对农村公路的评估研究大多集中在农村公路的安全性、技术性及发展水平等方面。安全性评估主要从道路设计、道路线性、路况等方面确定农村道路安全性的评价指标[1-4]。技术性评估从路网连通性、路网密度及服务水平等角度出发制定评估指标体系[5-7]。农村公路发展水平评估则侧重考虑农村公路建设、管理、养护、运营中某阶段发展情况或建管养运全方面的综合评估[8-10],如朱雨晴[9]基于“values-objectives-criteria”的逻辑理论研究,引入因子分析方法确立了具有针对性的四好农村路发展水平指标体系。另外也有一些学者对建设农村公路的社会经济效益展开了研究[11-13],如冯震宇[12]研究了农村公路建设对于农村区域生活水平、城乡结构改善等方面的影响,确定了农村区域经济增长表现的若干指标。然而,目前对于农村公路建设及运营的社会影响、社会评价的评估与对比的研究极少涉及。原因在于公路作为交通联通承载者,其实际使用群体数量庞大且分布较广,难以通过问询调查等方式开展数据采集。单条公路作为网络联通的一部分,其社会评价也难以单独评估。然而,四好农村公路在道路网中承担末端连接功能,其使用及收益群体相对稳定,而其建设运营带来的改善效用相对明确。因此,对四好农村公路的社会评价进行研究,兼具可行性与重要性。

在农村公路评估方法方面,国外学者提出了灰色评价法、模糊决策模型、多元回归模型等方法[14-17]。而国内学者常用的方法有模糊综合评价法、层次分析法、物元法等[1,4,7],通过多级指标的建立与量化评分,最终实现公路建设和运营评估,其评估数据主要来源于公路建设和运管部门的实际采集数据。随着信息化虚拟社交的不断发展,微博等通过公开社会信息缔结交流的新型社交平台愈发普及[18],使得通过社交平台采集四好农村公路的社会评价及社会影响的相关量化指标数据成为可能。目前已有相关研究通过公共社交平台的信息采集及挖掘实现网络舆情社会影响力以及参与者情感评估[19-22]。如冯小东等[19]基于微博采集数据和文本挖掘方法,从公众视角分析了政务微博的传播效果,发现发布机构的社会资本、社会信任和行为习惯对其传播效果具有显著影响;段尧清等[20]则通过对政府新闻的文本挖掘,构建了政府态度快速识别评估方法。文本挖掘方法目前在交通领域主要用于交通参与者的情感挖掘,如崔健等[23]通过抓取并提取出交通主题相关微博,以分析交通状况,评估交通参与人的情感状态。尽管目前的相关研究较少涉及农村公路建设的社会化评估,但采用微博社交平台进行社会效用的评估,可实现对多个地区的一致性评估,具有明显的研究潜力。

为此,本研究通过采集微博平台内的四好农村公路相关信息,在文本挖掘的基础上实现2个目的:(1)构建评估四好农路建设社会反响的快速评估方法;(2)实现不同区域四好农路建设特征的定量化横向对比。同时,以河南省四好农村公路建设为例进行相应的案例应用。本研究有助于从第三方角度便捷、快速地对四好农村公路建设情况进行定量化评估,进而为反映社会大众的群体化情感、推动农路建管养运协调发展、消除农村发展瓶颈提供定量化参考。

1 数据来源与文本挖掘方法

1.1 数据来源

本研究分析数据来源为新浪微博平台公开信息。具体而言,以“四好农村公路”为关键词,通过对1段时间内(不少于30 d)发布内容及相关信息进行采集,从而获得评估的基础数据。具体采集信息内容包括:微博发布者、微博内容、转发数、评论数、点赞数、发布时间共计7个内容。信息采集结果示例如表1所示。

表1 信息采集示例Tab.1 Example of information acquisition

1.2 文本挖掘方法

文本挖掘是一种分析非结构化文本数据,并从中提取有用信息的数据分析方法,在描述分析、预测分析中均适用。文本挖掘的子任务包括:信息提取、词频分析、文本分类/聚类和关联规则挖掘4部分,具体内容如下。

(1)分词与信息提取:对非结构化文本数据进行分词,并通过剔除词库中的无用词汇(如“的”、“正在”、“和”等)及特殊字符、数字,从而自大量的文本信息中获得相应的关键词。分词结果的优劣将直接影响到文本挖掘的准确程度。

(2)词频分析与降维:对分词获得的关键词进行频率统计分析。由于文本中信息繁多,提取的关键词数量多,分析对象的特征维度也相对较高,运用条形图和词云进行词频分析是文本挖掘的基础。经过词频分析可对低频、冗余词进行剔除,进一步降低分析对象的特征维度。

(3)文本分类/聚类:文本分类即在事先定义主体类别的基础上,通过机器学习的方法将未标明类别的文本映射至1类或多类中的方法。常用的分类算法包括朴素贝叶斯分类、支持向量机、后向传播分类等。相对文本分类,文本聚类方法不需要预先定义主题类别,而是通过聚类学习算法进行自动类别识别,是一种无指导的机器学习方法,常用的文本聚类方法包括层次凝聚法和K均值聚类方法。

(4)可视化:通过多类数据可视化方法,对文本挖掘的内容进行定量化内容的图像展示与分析。常用的可视化方法包括文字云、热力图、聚类图、相关性分析图等。

(5)特征识别:基于文本挖掘的定量化分析,对其反映出的特定对象的相关特征进行归类和识别。

文本挖掘方法内容众多,可广泛应用于各类研究。本研究主要采用文本挖掘进行农村公路社会化反响的定量化数据获取,为评估模型的建立奠定数据基础。

2 基于文本挖掘的评估模型建立

2.1 模型总体框架

在获取模型文本定量化数据并借鉴综合评估法思路的基础上,建立多维度定量化指标,并通过指标权重的分配,实现对四好农村公路建设工作的社会化反响评估。模型总体框架如图1所示。

图1 评估模型总体框架Fig.1 Overall framework of evaluation model

2.2 多维度评估指标及其量化

模型共包含社会响应度、社会曝光度和农路建设度3个维度共计11个指标。具体各指标含义及其挖掘结果的定量化方法如表2所示。

表2 多维度评估指标及其量化Tab.2 Multidimensional evaluation indications and quantification

2.3 评估结果集计化

采用文本挖掘方法对11个评估指标进行定量数据挖掘后,采取加权平均方式对评估指标集计化处理,以获得最终的评估得分。为保障指标权重的准确性与公正性,借鉴综合评估法,采取专家评分法形成相应的权重矩阵,对若干名专家进行调研,得到各个专家对指标相对重要性评分结果,以获得最终评估得分。

3 案例结果分析

3.1 案例概况

河南省作为重要的农业大省,在四好农村路的建设中成就卓然,其率先出台了《推进“四好农村路”建设工作方案》等一系列文件,成功创建国家级四好农村路示范县6个,位居全国第1位。截至2019年底,河南省新建和改扩建农村道路10 200 km,全省1 806个乡镇和46 098个行政村通客车率达到100%,已有65个县基本完成20户以上自然村通硬化路任务,新增逾10 000个自然村实现通硬化路,全省自然村通硬化路率达到75%以上。2020年完成15 000个自然村通硬化路的目标,全省20户以上自然村通硬化路率达到85%以上。本研究以河南省为例,基于文本挖掘方法获取新浪微博平台中河南省四好农路建设社会化反响的相关数据,以实现定量化评估与特征识别。同时,以相同方法挖掘江苏省四好农村路的相应数据进行评估,以实现案例间的横向对比。

3.2 基于文本挖掘下四好农村公路的评估

在新浪微博平台的公开信息中,分别以河南省、江苏省及其各自下属地区与四好农村路建设相关的词汇作为关键词,对平台中2020-04-01至2020- 06-01间的相应微博内容和数据进行采集,并剔除无地名微博内容、重复内容及广告内容。

3.2.1 数据采集量及关键词的统计性描述

2个月的时间段内累计共采集相关微博278条,通过地名映射进行地区划分,得到河南省相关微博91条,江苏省相关微博187条,其具体特征情况如下。

关键词词频分析结果如图2所示。直观可见,河南省最高频关键词为“示范”,其更着重于示范县建设情况的展示,而江苏省最高频关键词为“小康”,更强调于四好农村路建设的成效。从高频关键词分析可知,河南省发文内容着重于建设成果与经济拉动,而江苏省发文内容则更重视建设目的及经济建设类型(如旅游、生态、产业、品牌等)。在发文主体上,“江苏”词频位居第二,“河南”词频位居第六,可见河南省发文内容更强调示范县及其他城乡的成果,而江苏省更突出其省份的整体面貌。

图2 关键词词频分析结果Fig.2 Analysis result of frequencies of key words

图3 发文数、点赞数、评论数的趋势Fig.3 Trends of document issuing, approval and comment numbers

对2020-04-01至2020-05-27的发文反馈情况(点赞、评论及转发),以周为单位进行统计,得到2个省发文反馈情况的时间趋势图,如图3所示。总体可见,2个省的发文点赞数基本高于转发及评论数,且随着时间的推移呈现上升趋势。上升趋势可能与新冠疫情的影响与复工进度存在关联性。江苏省3类反馈数均高于河南省,可见江苏省社会反馈度更高,但江苏省反馈趋势相对平缓,而河南省则呈现更为明显的上升趋势。由于微博平台的社会反馈存在一定的教育经济门槛,即经济发达、受教育程度更高的地区可能具有更高的微博参与度,因此可能影响了河南省与江苏省的总体频率差异。

图4 内容分类Fig.4 Content classification

通过对发文关键词进行文本分类,分别统计3类文本的出现频率:(1)政绩类,即涉及体现政绩的文本内容,如“示范、试点、领先、第一、XX率等”;(2)建设类,即涉及农路建设情况的文本内容,如“建成、开工、硬化、通车等”;(3)经济类,即涉及经济建设类文本内容,如“产业、GDP、拉动、种植、养殖等”,最终统计结果如图4所示。分析3类文本的占比可知,河南省发布的建设类文本最多,占总文本量的44%;江苏省发布的文本内容则以经济类为主,占总量的43%。通过文本内容也可印证河南省四好农村路更着重于工程建设进展,而江苏省更侧重于经济建设进展,这也同它们当前的经济发展及农村建设进度相匹配:河南省当前的重点工作在于建设,实现村村硬化路通达;江苏省则在于农路的运营、养护及借助较为完善的交通设施,进一步通过产业化拉动村级经济的发展。

3.2.2 评估结果

基于文本挖掘的数据结果,应用本研究所建立的评估模型,可分别得到河南省、江苏省四好农路建设的社会化反响评估结果,如表3所示。其中,各指标权重的确定运用专家打分法通过依托项目在前期的调研会中咨询相关建设规划人员进行打分统计获得。由于标准化后指标值的理论最大值为1.0,同时各权重加总值为1.0,因此其集计化总分应在[0,1]区间内。为提升评估结果的直观性,本研究采用百分制评分,即评估所得的总分直接乘以100,从而保障各评估对象的得分位于[0.100]区间。

表3 社会化评估指标计算值及评估结果Tab.3 values and evaluation result of socialization evaluation indicators

总体上看,江苏省社会化评估得分高于河南省,其四好农村路建设工作中,具有更良性的“开展工作-媒体曝光-社会反馈”循环。从单项得分来看,河南省四好农村路建设最大的优势在于建设度较高,其建设稳定度、持续度、离散度均高于江苏省,能够更为持续、稳定地通过媒体反映出建设工作的进展。但河南省对其建设进展的反映更多地集中于关键性的地区(洛阳市、南阳市、安阳市、焦作市、平顶山市、漯河市等),导致其媒体反映出的建设密度低于江苏省。相对而言,由于江苏省经济发展水平更高,其四好农村路工作倾向于管理、养护、运营,因此在农路建设工作的媒体反映上低于河南省,但由于江苏省管养运的经济投入相对高于建设,因此其工作更多地体现出“遍地开花”的局面,反映出的建设密度更高。

在社会曝光维度上,河南省与江苏省评估结果相对接近。具体而言,河南省四好农村路建设的媒体曝光度具有更高的稳定度、集中度和持续度;江苏省的媒体曝光度具有更好的信息展示率与接受率。这同样反映出它们因建设阶段差异性导致的社会宣传、反馈差异。河南省的工作重点在于通过自然村硬化路建设及改造升级,提升偏僻村落通达度、促进城乡一体化格局基本形成;江苏省的工作重点在于已建成农村路的管养运,并依托更为便捷的交通服务拉动相关村镇的产业化发展、提升村镇的小康化水平。建设阶段的差异性也使得河南省媒体发布内容更为稳定、集中,而江苏省的发布内容有着更高的社会传播力。

此外,河南省四好农村路建设的社会响应维度的评估得分远低于江苏省。河南省农路建设相关内容的发布数量、社会群众对其的关注度均低于江苏省(点赞数、评论数),其自发传播力更低(转发数更低),造成河南省四好农村路建设的公众的关注度及支持度评估得分远低于江苏省。

4 结论

本研究基于新浪微博社交平台的文本挖掘数据,建立了定量化的评估方法,以反映在四好农村路建设中的政府工作特征和社会反映。以河南省、江苏省为例进行了案例分析,得到如下结论。

(1)文本挖掘下的定量化评估模型有助于更为便捷、客观地反映出评估对象在四好农村路建设工作中的工作重点、建设特征及公众响应情况。这既可为目标年(2020年)各省市的工作成果评估提供定量化参考,也有助于各省市四好农村路工作推进的日常评估,实时反馈社会群众反响,从而查漏补缺提升工作水平。

(2)通过案例分析可知,河南省、江苏省四好农村路建设阶段不同,其社会宣传、反馈具有差异化特征:河南省的工作重点在于建设(自然村硬化农路建设及改造升级),而其宣传更侧重于实际政绩,以提升偏僻村落通达度、促进城乡一体化格局基本形成为工作目标;江苏省的工作重点在于管养运,核心思路在于依托更为便捷的交通服务拉动相关村镇的产业化发展、提升村镇的小康化水平。

本研究及评估模型仍具有一定的局限性和优化空间:(1)由于2020年新冠疫情的影响,使得前期政府工作更集中于疫情防控,加之复工复产存在时间需求,使得数据采集时间(2020-04-01至2020-06-01)的四好农村路相关内容也存在“复工”特征,呈现逐步上升趋势,且河南省、江苏省复工进度不一,所采用的非结构化文本数据挖掘分析具有一定随机性。这些问题使得文本挖掘采集到的案例数据具有一定的误差,因此本研究的实证分析结论仅供参考。(2)社会化评估可进一步采集评论内容,从而识别出社会化反馈的情感倾向(支持或反对),使得评估结论可进一步细化。(3)不同省份的人工基数不一、微博注册用户数量差异,采用微博内容的转发、评论、点赞数进行指标计算,也存在一定的误差。后期可考虑对该指标除以注册省份活跃用户数,从而提升指标的准确性。

猜你喜欢
农村公路江苏省河南省
交通运输部:预计今年累计完成新改建农村公路15万公里
江苏省常州市第一中学
河南省树人教育交流中心
河南省树人教育交流中心
河南省树人教育交流中心
河南省树人教育交流中心
“十三五”以来辽宁实施农村公路新改建2.7×104km
加快建立农村公路管理养护长效机制
江苏省南就市鼓楼区第一中心小学
关于农村公路经济创新的思考