陈 青, 邓皓元, 张仁寿
(1.广东轻工职业技术学院 汽车技术学院, 广东 广州 510300; 2.莫纳什大学 计算机学院, 澳大利亚, 墨尔本; 3.广州大学 经济与统计学院, 广东 广州 510006)
随着“互联网”的发展,网民对某些焦点问题存在倾向性政治态度和意见,政府广泛了解后,形成了涵盖听证、信访、新媒体、公共组织等多样化渠道.这其中借助互联网作为信息交流平台而发展起来的公共领域,发挥了即时、便捷的沟通优势.新能源汽车产业的培育,涉及政府、消费者、企业等多方的多层次的利益关系.政府作为政策的制定方,要充分激发企业、消费者的积极性,实现公共利益最大化,必须及时定向发挥利用互联网作为信息交流平台的即时、便捷的沟通优势,对新能源汽车产业的网络舆情进行合理分析,通过了解各方需求、关注点,以减少政策执行偏差.
根据中国石油集团经济技术研究院发布的《2018年国内外油气行业发展报告》[1](下称《报告》),2018年,随着中国油气消费继续快速增长,国内石油和天然气对外依存度快速攀升.继2017年成为世界最大原油进口国之后,中国2018年又超过日本成为世界最大的天然气进口国.2018年全年石油净进口量4.4亿吨,同比增长11%,石油对外依存度升至69.8%,同比上升2.6个百分点.《报告》预测,2019年中国油气对外依存度还将继续上升,分别达到71.7%和46.4%.汽车石油消耗已超过石油总消耗的三分之一,同时,汽车尾气也已成为大气污染物的重要来源.
面对能源供给和环境恶化这两大难题,2001年,国家发改委和科技部在“高技术研究发展计划”中首次将新能源汽车研究纳入发展课题,正式开启新能源汽车研究.2008年,新能源汽车在政府产业政策的持续支持下,在国内得到迅速发展,该年也被称为中国“新能源汽车元年”.2009年,国家启动“十城千辆”工程,在公交、出租等城市公共领域大力推行新能源汽车,新能源汽车取得跨越式的发展.2010年6月,包括深圳在内的5个城市成为全国首批为购买新能源汽车消费者提供优惠补贴的城市.2011至2016年,新能源汽车及其配套产品与设施全面多领域发展,产业化雏形逐渐呈现.中国汽车工业协会数据显示,2018年我国新能源汽车产销保持较快增长,产销分别完成127.05万辆和125.62万辆,同比增长59.92%和61.74%.据中国汽车工业协会统计(1)中国证券网,2019-10-14, http://www.cnstock.com.,2019年1至9月,我国汽车产销量达1 814.9万辆和1 837.1万辆,同比下降11.4%和10.3%,其中前三季度新能源汽车产销量达88.8万辆和87.2万辆,同比增长20.9%和20.8%.十多年来,新能源汽车在国家产业政策的大力扶持下,正在跨越式发展.
目前学术界对政策评估的方法不一,按照政策实施阶段可以划分为事前评估、事中评估和事后评估,本文聚焦于新能源汽车政策的事后评估,因此,如何及时、准确地对新能源汽车政策实施的效率、效益和效果进行测度,成为本文研究的重点.在对政策评估的概念范畴进行界定后,学者们建立了诸多评估模型,如Vedung[2]归纳了10种政策评估模型,随着研究的深入,事后政策评估逐渐演化为两种评估标准,即基于目标的评估(Goal-based evaluation)和基于需求的评估(Need-based evaluation),前者延续了Vedung的思路,以所谓的“目标达成模型”和“自由目标评估模型”作为评估准则,后者则聚焦于政策是否满足于需求,使用“利益相关者模型”进行测度.但是在实际的政策评估过程中,学者们发现以上方法过多地强调量化模型的选择,而忽视了社会中价值的多元化,进而导致了评估效用危机[3].20世纪70年代,随着计算机产业的兴起,各种互联网媒体和交流平台的出现,越来越多的人开始使用网络发表个人观点,网络舆情成为群体智慧的产物,不仅揭示了社会对政策的态度,同时为政策的进一步完善提供了思想宝库.此时,政策评估技术进入“第四代”,开始把舆情分析纳入到政策评估中去,如林毓铭等[4]基于延迟退休年龄政策,以人民网线下调查的评论回复为样本框,分析网友关于养老保险政策沉淀、就业挤出效应、养老金可持续发展和政府形象等方面的认知定势.李纲等[5]使用舆情数据对北京市摇号购车政策的满意度进行测评,并提出了相应的改进方案.黄扬等[6]基于多源流理论视角,对网约车政策进行评估,并提出了改进意见.
同时,本文认为基于大数据的舆情分析较传统数据在新能源汽车政策评估中具有以下优势:
(1)传统新能源汽车数据以定期发布的季度、月度数据作为研究分析对象,样本容量太小对分析预测结果有较大误差性,更别提利用相关年度数据.另外,不同地域新能源汽车统计时间参差不齐,削弱了横向可比性.采用大数据①丰富了数据收集渠道,利用互联网优势多渠道,突破了人工收集数据的局限;②丰富了数据来源和覆盖面,不局限于本地区新能源汽车产销发展数据,而是通过网络“爬虫”技术,以大量文本信息为基础,通过词频统计和情感分析方法较为全面地收集整理了相关信息;③大数据延长了时间线,包含了新能源汽车投产前的相关数据,加强了横向可比性.
(2)传统数据的生产、存储以及调用是分割的,很多数据在采集之前就已经经过了人脑有意识的处理,如市场调查产生的数据.此外,官方数据统计发布周期较长,重点是关注、分析考察对象的历史信息,离线的事后分析在时间上具有滞后性,这都影响了分析的准确度.与传统的专家打分评判体系相比,采用大数据构建的政策评估体系在计算过程中几乎不需要人工判断,具有较强的客观性;舆情数据实时性更强,可以获取在线的、实时的互动数据,将历史数据与实时数据结合分析,从而获取实时性强、分析准确的数据.具体体现在两方面:第一,网络“爬虫”系统实时获取最新的舆情信息,及时发现热点主题并进行推送;第二,新能源汽车政策评估的计算过程大部分由计算机完成,可以在较短时间内实现对相关数据的测算和公布.
(3)新能源汽车产业涉及国家发改委、工信部、财政部、环保部和科技部等5部委,在“五龙治水”的环境下各部门统计口径不一,数据缺乏纵向可比性.尽管部分专业研究机构开始着力于新能源汽车相关统计工作,但是起步时间较晚,目前数据时间长度严重不足.同时未解决全国不同地区新能源汽车政策纵向可比性问题.采用大数据对新能源汽车政策进行评估,增加了纵向可比指标,节约了统计口径不一而增加的人力物力财力.同时,采用科学的方法进行编制、测算,可以对新能源汽车政策的实施效果进行长期绩效比较,同时,各地区可以通过纵向比较,相互学习发展.
现有的研究针对新能源汽车产业的培育方面主要从供求关系上考虑,将政策分为供给侧和需求侧,对政府、消费者、企业主要行为主体开展理论分析.
在政府方面,熊勇清等[7]认为政府作为该产业的规划及相关政策的制定方,应充分激发和了解相关主体对于政策的理解与看法,谋求政策制定方(政府)与政策需求方(制造商和消费者)在新能源汽车产业培育过程中相关“政策意愿”的契合共鸣.在企业方面,姚明涛等[8]在对比欧盟汽车碳排放标准政策实施后,认为汽车数量多、流动性大、单个排放量小、可控性弱,因此,降低汽车碳排放成为汽车行业转型的重要选择.在消费者方面,孙冰等[9]认为新能源汽车产业正处于市场化前夜,应进一步加大对消费者的财政补贴力度.熊勇清等[7]认为,要高度重视和刺激消费者的购买积极性从而拉动市场的持续发展能力.
从国内各方对新能源汽车产业研究的轨迹来看,政府、企业、消费者是新能源汽车产业培育的主要行为主体.政府政策报道是表达政府意愿的网络舆情载体,媒体舆论报道是表达企业、消费者的情绪与政策倾向的网络舆情载体.
2.2.1 舆情分析研究步骤
(1)借助“网络爬虫”技术,采集2016年1月至2017年11月政府、媒体在网络中发布的与新能源汽车产业相关的全国地方政策文本、企业报道、媒体政策评价等热点信息资料.
(2)将收集的新能源汽车相关文献与媒体报导的文本内容特质,按政策文本和文本进行分类归纳,划分为基础设施、应用推广、宏观综合、行业规范等四个话题内容.以LDA算法对训练集生成文本──主题矩阵作为特征,通过SVM算法学习生成文本分类器,并利用F1值作为评价指标,构建模型并进行分类效果评价.
(3)进行一系列分析:①通过SVM分类模型对政策文本和媒体文本根据内容进行话题分类,发现新能源汽车的热点话题.②以文本数量作为不同话题下的声量评价指标,对媒体文本和政策文本进行声量分析.③以TF-IDF作为关键词关键度评价指标,提取热点话题下的关键词.④从文本对象角度,对比同时期下政策文本和媒体文本在同一话题上的异同点,分析政府与大众在同一时期对于某一话题的差异性.从时间角度,对比不同时期政策文本(或媒体文本)对于同一话题的关键词变化,分析该话题随时间变化政策文本(或媒体文本)对于该话题下的内容迁移变化.新能源汽车舆情分析具体流程见图1.
图1 新能源汽车舆情分析流程
2.2.2 舆情分析数据来源
政府、企业、消费者是新能源汽车产业培育的主要行为主体.政府政策报道是表达政府意愿的网络舆情载体,媒体舆论报道是表达企业、消费者情绪与政策倾向的网络舆情载体.因此,本文根据新能源汽车相关文本属性将其分成政策文本与媒体文本两类舆情来源.
(1)政策文本数据来源:“中国节能与新能源汽车网”是目前中国新能源汽车政府政策媒体报道的知名网站,本文以该网站作为“政府”政策意愿的主要渠道.利用python爬虫技术,共采集该网站2016年1月~2017年11月全国与地方政策报道2 794份,经过筛选和整理得到具有一定研究价值的政策媒体报道2 546份.
(2)媒体文本数据来源:“Ofweek维科网”“中国节能与新能源汽车网”是新能源汽车新闻媒体报道信息的主要散集地.利用python爬虫技术,共采集上述网站2016年1月至2017年11月新闻资讯频道下的媒体报道13 430份.
2.2.3 舆情分析方法选择
(1)文本内容分类方法
①文本内容分类标准.考虑文本的内容特质,将媒体文本、政策文本参考新能源汽车政策支持体系的政策划分归纳方法,对文本划分为基础设施、应用推广、宏观综合、行业规范等四个话题内容,其具体划分方式如图2所示.
图2 文本分类标准
②文本内容分类过程.本文通过LDA算法对文本进行稀疏特征表示,然后利用SVM算法对文本进行分类,其具体步骤如下:
第一,训练样本获取.通过对采集的文本人工标注的方法筛选出基础设施、应用推广、宏观综合、行业规范各50个样本,共200个样本作为训练集.
第二,文本预处理.主要作用在于降低分析文本的噪音,包括分词、去停用词、去低频词、过滤低质量和重复文本,将字母转化成小写,去除特殊字符等基础文本预处理操作.其中,为提高分词的准确率提高分类效果,从搜狗词库中搜索下载与汽车行业、新能源相关的法律和国家政策、条例等相关词库作为先验知识导入分词系统中.
第三,文本特征提取.特征空间的高纬度是文本分析中的一个重要问题,而特征提取是特征维度高和稀疏性的关键途径,借鉴谢静[10]“基于LDA与SVM的文本分类研究”的成果,通过LDA算法能够有效地降低文本的特征空间.
LDA算法中识别文档集中所隐含的主题信息的过程如下:
1)获取文档中主题分布参数θ~Dir(α),其中α为狄利克雷分布参数;2)对每篇文档生成文档所有特征词w;3)选择一个隐含主题z,来自主题分布向量概率向量e的多项式分布Multionmal(θ);4)选择一个特征词w,来自隐含主题z的多项式分布Multionmal(φ(z)).
通过以上的步骤可以推导出文档d中第i个特征词wi的生成概率P(wi)的计算公式如下:
(1)
文档d中包含特征词w的概率P(w│d)的公式如下:
(2)
然后进行极大似然估计,根据参数α和β,建立起LDA模型式(3):
(3)
式(3)中,p(di|α,β)表示文档d生成的条件概率分布.
第四,分类模型学习.支持向量机(Support Vector Machine)能够处理高维数据,降低稀疏性的影响本文以LDA算法得到的文档-主题矩阵作为特征,利用SVM对文本分类模型进行学习.
第五,训练模型的评价指标.查准率P(Precision)、查全率R(Recall)、F1值(F-measure)是常用文本分类评价指标.其中查全率为类别C下正确分类文档与C类测试文档总数之比,查准率为正确分类文档数与分类器识别为C类的文档数之比.F1值用于衡量查全率和查准率的综合,以及对它们的偏向程度.
(2)文本内容声量分析
网络声量是反映大众对于某个话题关注度的一个重要衡量指标.本研究以媒体报道的数量作为新能源汽车网络热点话题的量化统计声量指标.分析过程中,首先考虑文本的对象特质,将通过爬虫技术获取的网络文本分为政策文本和媒体文本.在考虑文本内容特质的前提下,参考新能源汽车政策支持体系的划分方法,将采集的文本划分为基础设施、应用推广、宏观综合和行业规范等四个话题内容.
分类后,通过对政策文本和媒体文本分别进行文本数量统计,得出媒体文本和政策文本的数量与发布时间关系.分析这两类文本关注度随时间的变化,对比发现媒体文本和政策文本舆论爆发的时期.通过对基础设施、应用推广、宏观综合和行业规范等四个话题的文本数量统计,对比分析引起媒体文本和政策文本舆论爆发时期的主要原因,得出热点话题.
(3)文本内容热点话题对比分析
为进一步对比分析媒体文本和政策文本在不同话题下内容的焦点对比,首先对热门话题同时期下媒体文本和政策文本进行对比,从关注程度上,以该话题文本数量占该时期所有文本的占比作为关注度的评价指标.从文本内容上,根据TF-IDF值提炼双方关键词,通过内容分析法,对比关键词,了解双方对于热点话题的观点.
对于提取的热点话题观点,选取以下角度进行分析对比:从文本对象角度上,对比同时期下政策文本和媒体文本在同一话题上的异同点,分析政府与大众在同一时期对于某一话题的差异性;从时间角度上,对比不同时期政策文本(或媒体文本)对于同一话题的关键词变化,分析该话题随时间变化时政策文本(或媒体文本)对于该话题下的内容迁移变化.
对爬取文本进行筛选和文本预处理后,考虑文本的内容特质,将获取到的网络文本类型分为媒体文本与政策文本.其中转发政府政策类文本的视为一类,由媒体进行评论改写报道的视为一类.分类后,媒体文本数量和政策文本数量与发布时间关系见图3.
图3 媒体文本和政策文本与时间的关系
Fig.3 The relationship between media text (policy text) and time
3.1.1 媒体文本与政策文本的内容总体舆情变化趋势
由图3可见媒体文本与政策文本的趋势变化是一致的.2016年3月~2016年7月,有大量地方与全国政策的发布以及媒体文本类信息的后续发声,对政策舆论起到推波助澜的作用.2017年4月~2017年8月间,政策文本的数量并没有集中式发布,但却引起了媒体的舆论爆发,这其中的舆情原因值得深入挖掘.
3.1.2 媒体文本与政策文本的话题舆情数量与时间变化
为更好地分析引起舆论爆发的具体话题,参考新能源汽车政策支持体系的政策划分归纳方法,将文本划分为基础设施、应用推广、宏观综合、行业规范等四个话题内容,通过人工标注方法生成训练集,利用SVM算法生成文本分类模型.其中媒体文本和政策文本不同话题文本数量与时间变化关系,分别见图4和图5.
图4 媒体文本不同话题下的文章数量与时间关系
Fig.4 The relationship between the number of articles and time in differenct topic of media texts
图5 政策文本不同话题下的文章数量与时间关系
Fig.5 The relationship between the number of articles and time in differenct topic of policy texts
纵观采集的网络新能源汽车相关文本数据,从2016年至2017年间,媒体文本和政策文本皆以基础设施和应用推广类话题为焦点.结合图4和图5进一步进行分解分析,2016年3月~7月,媒体文本信息波动是由应用推广类话题和基础设施类话题引起.为了解相关话题主要内容,调阅相关话题的媒体文本和政策文本.在应用推广话题上,2016《新能源汽车应用推广推荐车型目录》的颁布实施与“骗补”相关时事热点是引起舆论的源头.在基础设施话题上,多地发布的充电桩建设方案和企业补贴是政策文本和媒体文本热议内容.
2017年4月~8月,媒体文本针对应用推广类话题和基础设施类话题进行了又一轮热议,而政策文本在应用推广话题上有小幅度上升.调阅相关文本进行查看后,在应用推广话题上,双积分政策的颁布和消费者税收优惠政策是引发媒体爆发式讨论的焦点.而基础设施话题上,多地的充电桩建设企业补贴方案受到媒体热议.
为深入考察理解媒体文本和政策文本在两个较为明显波动的时间段内细节内容上的差异,本研究设计两个步骤进一步分析:
第一,提取热点舆论基础设施和应用推广话题的关键词,对采集关键词按照TF-IDF值进行排序,结果如表1所示.
表1 不同文本在不同时间段的关键词与文本比例
第二,将舆情关键词按不同角度进行易于分析的可视化,分别为按同一时间段内政策与媒体文本对比话题差异的角度和按同一话题关键词焦点政策及媒体文本随时间所发生的比重迁移情况的角度.
通过以上两步处理,本文对近两年内新能源汽车相关互联网舆情文本变化总结如下:
3.2.1 基础设施关键词对比分析
(1)2016年政策文本和媒体文本基础设施话题对比分析
2016年政策文本基础设施文本占比76.7%,媒体文本基础设施文本占比52.3%,说明基础设施是2016年的主要热议话题,见图6.而“充电”是媒体文本和政策文本的第一关键词,说明充电难是当时期新能源汽车的主要问题.对于充电问题,在政府层面,从“设施建设”“充电桩”“充换电站”等基础设施的建设相关关键词以及“建设”“补贴”等基础设施的企业补贴扶持相关关键词可见,充电桩的建设和补贴支持是当前政府主要的实施手段.在媒体方面,从“续航”“技术”“创新”等充电技术的相关关键词可见,在充电问题上,大众更加关注与电池技术的续航问题以及技术创新等内容,相信这也是目前政策大力推动,但实际行动上制约消费者购买的主要原因.
图6 政策文本和媒体文本基础设施话题关键词对比
Fig.6 Comparison of key words of policy text and media text infrastructure
(2)2017年政策文本和媒体文本基础设施话题对比分析
2017年政策文本基础设施文本占比54.5%,媒体文本基础设施文本占比62.0%,说明基础实施仍然是新能源汽车产业的热议话题,见图6.从时间角度进行对比,政策文本2016年和2017年的基础实施关键词变化不大,说明“充电”问题仍然是政府正在主要解决的问题.对比媒体文本2016年和2017年基础设施话题的关键词,发现相比于2016年的“技术创新”,2017年大众更关心“充电桩”“建设”“企业”“公共”“运营”等基础设施建设企业相关关键词.由此可见,自2016年至2017年开展基础设施建设过程,充电技术有所进步,大众关注聚焦度相对有所减少,但企业在基础设施公共建设网点的选取和企业充电桩运营上,令大众感到担忧.
(3)基础设施话题启示
政府、企业、消费者是新能源汽车产业培育的主要行为主体,政府在持续刺激企业对新能源汽车基础设施建设积极性的同时,应减少大众对于财政补助企业的担忧疑虑,如2016年反映的对企业技术能力担忧,2017年对企业运营能力担忧等,这样才能刺激消费者的购买积极性,拉动市场的持续发展能力.
3.2.2 应用推广关键词对比分析
(1)2016年政策文本和媒体文本应用推广话题对比分析
2016年政策文本应用推广文本占比10.1%,媒体文本基础设施文本占比20.1%,是2016年政府和媒体的第二热议话题,见图7.从政策文本的“补贴”“标准”“企业”“规划”“对象”等财政支持相关关键词可见,财政支持的法规完善是2016年政府在新能源汽车应用推广的主要方向.从媒体文本中,除了大众直接关心的“购置税”调整外,“骗补”“售后”在2016年应用推广的关键词中出现,说明企业“骗补”事件在大众中产生了较大的负面影响,并引起大众对于企业售后问题的担忧.
(2)2016年至2017年政策文本应用推广话题对比分析
2017年政策文本中应用推广话题文本占比17.5%,同比2016年,文本占比上升了7.4%,说明政府部门对于新能源汽车应用推广的关注度有所提升,见图7.从时间角度对政策文本进行对比,2017年政策文本关键词为“示范”“示范城市”等推广方面的关键词及“资金”“补助”“采购”“公交车”等政策实施相关关键词.对比2016应用推广的法规完善,说明财政补助政策正从2016年的法规完善走向2017年的应用实施上,并以公交车等公共设施的采购形成一定的示范效应.
(3)2016年至2017年媒体文本应用推广话题对比分析
2017年媒体文本在应用推广中关键词为“补贴”“税收”“车船税”“购车税”“价格”等税收相关关键词,说明消费者对于税收优惠政策较为敏感,有一定的购买欲望,但价格仍是影响大众选择的关键因素,见图7.“骗补”关键词在2017年中没有出现,说明在骗补事件后,政府对违法企业的查处和政策法规的完善有一定成效,进而减少了媒体大众关于此类事件的负面舆论,同时也说明媒体大众对骗补关键词内容的关注并无持续兴趣.
图7 政策文本和媒体文本应用推广话题关键词对比
Fig.7 Comparison of key words of application and promotion of policy text and media text
(4)应用推广话题启示
政府、企业、媒体的意愿、观点、情绪需要通过相关渠道予以释放,互联网作为信息交流平台存在即时、便捷的沟通优势,通过对互联网信息平台的舆情进行合理把控,了解各方需求、关注点,有助于减少政策执行偏差和事件负面影响.在2016年“骗补”事件中,大众对于该事件的关注程度较高,造成了一定的负面影响,而从2017年的关键词中可见,在这段时间政府对违法企业的查处和政策法规的完善,具有一定成效,减少了负面舆论.
舆情是对问题不同看法的表述,是社会舆论的一种表现形式,是一种有价值的智慧结晶,是基于社会环境中以事件为核心,广大民众情感、态度、意见、观点的表达、传播与互动及后续影响力的集合信息.其呈现的形式虽然多元化,但本质上都具备创造附加价值的效果.对新能源汽车行业来说,正面积极的舆情能够辅助推进其健康发展,能够影响国家层面政策的实施以及长远的生产和消费市场.因此建议,无论是政府、企业、消费者群体都必须重视舆情、善用舆情,推动新能源汽车产业的健康发展.
对策一,重视新能源汽车的基础设施建设
研究政策文本舆情发现,政府近两年坚持以充电桩等基础设施建设为主,企业基础设施建设补贴为辅,正着重解决大众充电难问题;媒体文本舆情发现,大众的关注焦点从2016年的基础设施充电技术问题正逐渐转向2017年的企业基础设施建设选址和充电桩运营问题.故此,重视基础设施建设能够推进新能源汽车产业的健康发展.
对策二,推广新能源汽车应用话题的正向作用
研究政策文本舆情发现,政府正由2016年财政补贴的完善法规,走向2017年的示范城市建设实施;媒体文本舆情发现,大众关注焦点已由2016年骗补事件的舆论关注,转向2017年和自身密切相关的税收优惠政策上.故此,推广新能源汽车应用话题的正向作用和完善法律法规的建设,可以促进新能源汽车的销售市场,活跃汽车产业.
通过基于LDA算法的新能源汽车政策舆情分析,发现若要减少政府政策执行的偏差,必须及时定向发挥互联网作为信息交流平台即时、便捷的沟通优势,对新能源汽车产业的网络舆情进行关注与监控,对基础设施、应用推广等舆情话题反映出的问题实时跟踪了解,积极调整与其相适应的政策方法,使得作为政策的制定方,能充分激发企业、消费者的积极性,实现公共利益最大化.