基于词频分析的钢铁工业高质量发展评价要素的提取方法

2024-01-15 10:18谢婉荣王丹萍杨爱民韩阳杨玉桢
关键词:共词高频词词频

谢婉荣,王丹萍,杨爱民,韩阳,杨玉桢

(1. 华北理工大学 理学院,河北 唐山 063210;2. 华北理工大学 经济管理学院,河北 唐山 063210)

近年来,随着经济发展,工业化水平不断提高,CO2等温室气体排放量迅速增长,环境问题也日益严重,节能减排在国家发展中起着愈发重要的作用。双碳背景下[1]。钢铁工业作为能源消耗和碳排放量仅次于电力行业的CO2排放大户[2],节能减排效果对我国相关战略目标的实现和环境治理至关重要。

为确定影响钢铁行业高质量发展的影响因素,推动钢铁企业高质量发展,国内外相关学者主要从高质量发展内涵、高质量发展评价、钢铁企业高质量发展3个方面展开研究。针对高质量发展内涵研究,何立峰[3]认为实现高质量发展必须贯彻新发展理念(创新、协调、绿色、开放、共享);高培勇[4]认为高质量发展是创新、协调、绿色、开放、共享的协调发展,是能够体现新发展理念的发展;刘丽[5]主要从3个方面对高质量发展内涵进行阐述;肖红军[6]提出企业高质量发展应该综合考虑产品服务、内生动力、投入和产出的发展;周志龙[7]认为企业高质量发展是能够提供优质服务和产品、实现利益共赢的发展;程婉静[8]从竞争能力、效率提升、结构优化、开放共享、创新驱动、可持续性6个维度确定风力发电行业高质量发展评价体系;张涛[9]在评价指标体系的基础上结合制造业数据进行实证分析,验证模型实用性;张伟[10]构建上市钢铁企业评价指标,采用熵权法与 TOPSIS综合评价法对钢铁企业高质量发展绩效进行评价,并以宝钢股份为研究案例进行实证分析;陈程[11]分析钢铁产品绿色设计的必要性。虽然,国内外学者针对高质量发展以及钢铁企业高质量发展展开了大量研究,但目前对于钢铁行业高质量发展评价因素尚未形成统一的认识,学者对于钢铁企业高质量发展内涵的界定有着不同的看法和理解,有关钢铁企业高质量发展评价体系方面的研究较少。

因此,为加快我国钢铁行业绿色发展推动钢铁企业转型升级的步伐,助力我国双碳目标,该研究对钢铁企业低碳、绿色高质量发展评价体系展开研究。首先,利用python软件基于国家针对双碳目标实现、钢铁企业高质量发展发布的政策文件和官方新闻报道的文本内容进行挖掘,得到影响钢铁企业高质量发展的构成要素、确定评价指标选取的基础框架;再遵循指标选取原则,根据相关文献资料、国家企业相关要求,采用比较类推法、元分析法对钢铁工业低碳、绿色高质量发展评价指标进行初选;然后对初选的评价指标设立调查问卷,采用主成分分析法对问卷结果进行分析,确定最终的评价指标;最后运用层次分析法判断评估指标体系中所占权重,根据钢铁企业高质量发展评价指标确定影响钢铁企业高质量发展的因素,并对钢铁企业未来发展提出建议。

1 理论基础

1.1 层次分析法

层次分析法(AHP),由美国运筹学家匹茨堡大学教授提出用于层次权重决策分析的方法。该方法将定量与定性手段相结合,主要根据决策者的经验去判断衡量目标之间相对重要程度,经常用来解决多目标、相对复杂的问题,例如最佳方案的选取(选取最佳运动员、选取最优地址)、评价类问题(评价环境、评价水质)、指标体系的优选等。其具体方法步骤如下:

(1)首先,建立层次结构模型:主要包括方案层、准则层和目标层。

(2)其次,构造判断矩阵矩阵,判断矩阵中元素aij的计算方法见表1。

表1 判断矩阵元素aij的标度方法

(3)然后,计算单排序权向量并对结果进行一致性检验。在进行一致性检验之前需要先计算比较矩阵的最大特征值和特征值所对应的特征向量,随机一致性指标RI(见表2)。当一致性比率CR<0.1,检验通过,且归一化后得到的特征向量就是权向量;否则检验不通过,需要再重新构造比较矩阵。CI的计算见式(1)。

表2 随机一致性指标值

(1)

(2)

n表示所检验矩阵的阶数,CR为一致性比例,CI为一致性指标,RI为成对比较矩阵的平均随机一致性指标。RI的取值和矩阵阶数有关,关系如表2所示。

(4)最后,总排序权向量计算及一致性检验:先计算某一层次的所有因素对总目标(最高层)的相对重要性量值,然后再通过总排序一致性比率CR进行验证。当CR<0.1时检测通过,就说明已经可以根据总排序权向量的表示结果做出决定;否则检测不通过,就需要重新考虑模型和重新建立比较矩阵。

设P层m个因素P1,P2,...,Pm对总目标Z的排序为α1,α2,…,αm,Q层Q1,Q2,…,Qn,对上层(P层)中因素Pj(j=1,2,…,m)的随机一致性指标RIj,层次单排序一致性指标为CIj,则层次总排序的一致性比率计算见式(3)。

(3)

2 基于文本分析的评价指标基础框架分析

为了更加准确有效地确定评价指标,首先,利用python软件基于国家针对双碳目标实现、钢铁企业高质量发展发布的政策文件和官方新闻报道的文本内容进行挖掘,得到影响钢铁企业高质量发展的构成要素、确定评价指标选取的基础框架。

2.1 国家政策文件

首先利用爬虫在国务院政策文件库获取2022年1月1日至-2023年1月1日国家颁布的部门文件,去除与研究内容无关的文件后,剩余与双碳目标实现、钢铁企业高质量发展有关的15份政策文件,由于所得政策文件均为PDF格式,为便于后面分析,使用PDF转TXT在线转换工具将检索到的与研究内容相关的15份PDF格式政策文件转化为TXT文档格式,并将其汇总到同一个TXT格式的文档;然后利用python软件对文本内容进行挖掘,经python的WordCloud包词频分析得到800个词汇;先去掉与研究主题"钢铁高质量发展"重复的关键词,再去掉像"加强"、"开展"、"基于"、"推进"等169个没有实际意义、不影响钢铁高质量发展评价指标选取方向的词;将语言相同或者相近的155个同义词进行合并,并把语言相同或者相近的同义词的词频相加得到新的词频,合并后共计得到532个词汇,绘制得到图1(a)所示的国家政策词云图。

图1 词云图

2.2 新闻报道

同样,利用爬虫在知网获取2022年1月1日至-2023年4月12日的新闻报道,去除与研究内容无关的新闻后,剩余与双碳目标实现、钢铁企业高质量发展有关的42份新闻报道,将所得PDF新闻报道经TXT转换工具转换,python软件文本挖掘后绘制得到图1(b)所示的新闻报道词云图。

2.3 基于层次聚类法的共词分析

利用共词分析法分析所得高频词之间的内在联系,找到影响钢铁企业高质量发展的关键因素。基于层次聚类的共词分析法主要包括计算共词矩阵、计算相异矩阵、层次聚类法分析和结果分析4个步骤。

首先是共词矩阵的计算,将2.1与2.2中得到的排名前20的高频词合并,将相同高频词词频相加、语义相近或相同词频合并、去掉与研究内容无关且没有实际意义的词频后共得到30个高频词。利用编程统计30个高频词在所收集到的15份政策文件、42份新闻报道中两两共同出现的频次,得到一个30×30的共词矩阵(见表3)。共词矩阵对角线上的数表示该高频词出现的频次,如高频词"技术"共出现了49 次,它与"能源"共同出现次数为31。

表3 高频词共词矩阵(部分)

其次是相异矩阵的计算,先利用Ochiia系数将得到的高频词共词矩阵转换成表示两词之间相异程度的相关矩阵,因原始矩阵中0值较多,为方便后续处理,利用数1与相关矩阵中的数作差,得到表示两词相异程度的相异矩阵(见表4)。

表4 高频词相异矩阵(部分)

然后是层次聚类法分析,先对上一步所得到的相异矩阵中的数值进行最大最小值标准化,再利用Python编程对标准化后的相异矩阵采用平均距离法进行层次聚类分析,结果见图2。通过分析可以发现,得到表5共6个大类高频词。

图2 高频词共词聚类树图

表5 层次聚类法聚类结果

通过对高频词层次聚类共词结果的分析,确定钢铁高质量发展评价指标确定的基础框架为"绿色低碳、科技创新、能源利用、清洁产品"。

3 基于层次分析法的评价指标研究

3.1 评价指标确定

首先遵循综合性、动态性、代表性、科学合理性、可操作性、可测性等指标选取原则,围绕"绿色低碳、科技创新、能源利用、清洁产品"这一基础框架,根据钢铁工业高质量发展相关文献资料、结合钢铁企业低碳化生产运行模式以及《钢铁工业高质量发展的指导意见》,对钢铁工业高质量发展评价指标进行初选;然后对初选的评价指标设立调查问卷,采用主成分分析法对问卷结果进行分析,确定初选评价指标的相关性,将相关性较大的指标进行归类,将不具有相关性的指标或者不合适的指标去除。根据问卷调查和主成分分析结果,得到钢铁高质量发展评价指标见表6。

3.2 数据收集与分析

为收集数据确定钢铁高质量发展评价体系,根据钢铁工业色高质量发展指标体系设计调查问卷,线上和线下同时发放,所面向的调查对象主要为钢铁企业、政府公务员,企业管理者、员工和各大高校从事钢铁研究的专家和学者。为使问卷调查结果更加可靠,减少因问卷样本数量有限而对结果造成误差,利用SPSS软件对问卷结果进行分析(见表7和表8),分析可知,爬虫获取的原始数据可靠,且评价体系指标设置合理。

表7 变量信度检验表

表8 KMO测量和Bartlett球形检验结果

3.3 结果与讨论

利用层次分析法来确定最终指标所占权重。首先,根据所建立的评价指标体系,分别对每一层元素两两比较,根据1~9标度确定在上层某一指标的影响下同层次指标间的相对重要程度,构造出目标层和准则层以及指标层和准则层的判断矩阵(表9~表12);然后利用一致性比率CR进行一致性检验;最后利用软件SPSS25.0计算每一层指标相对于上一层指标的权重(表9~表12),以及每一层指标相对于目标层的总权重(见图3)。

图3 各层评价指标最终权重

表9 目标层和准则层判断矩阵

表10 准则层B1和指标层判断矩阵

表11 准则层B2和指标层判断矩阵

表12 准则层B3和指标层判断矩阵

其中W表示准则层的一级指标相对于目标层的权向量,Wi表示指标层的二级指标相对于准则层的一级指标的权向量,权重集与评价指标的关系见式(4)~式(7)。

W=(W1,W2,W3)

(4)

W1=(WB11,WB12,WB13,WB14,WB15)

(5)

W2=(WB21,WB22,WB23,WB24,WB25,WB26,WB27,WB28)

(6)

W32=(WB31,WB32,WB33,WB34,WB35,WB36,WB37,WB38,W39)

(7)

4 结论

单就钢铁企业高质量发展的评价指标所占权重而言,一级指标中的"末端指标"比较重要,二级指标中的"二次能源回收利用率"、"废气、废水(液)、固体废弃物回收利用率"、"提高钢渣等固废资源综合利用率"3个指标比较重要,企业应该对这几个影响因素进行重点关注,采取措施提高二次能源、废气、废水、固体废弃物的回收利用率以及钢渣等固废资源的综合利用率,促进钢铁企业的高质量发展。

猜你喜欢
共词高频词词频
30份政府工作报告中的高频词
省级两会上的高频词
基于词频分析法的社区公园归属感营建要素研究
28份政府工作报告中的高频词
省级两会上的高频词
基于突变检测与共词分析的深阅读新兴趋势分析
基于共词知识图谱技术的国内VLC可视化研究
基于关键词共词分析的我国亲子关系热点研究
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索