基于主成分分析模型评价和谐宜居城市建设

2020-07-18 16:18赵艺然
发明与创新·职业教育 2020年7期
关键词:情感分析主成分分析

赵艺然

摘 要:《国家新型城镇化规划(2014—2020)》、中央城市工作会议、十三五规划纲要等均明确指出要提高城市发展宜居性,并把建设和谐宜居城市作为城市发展的主要目标。本文从社交网络上收集到的北京市2015年到2018年与和谐宜居相关的评论为基础,构建情感分析模型和主成分分析模型,得出影响居民对“和谐宜居”主观感受的主要因素,进一步了解北京市在建设中需要加以改进或修正的方面。

关键词:情感分析;主成分分析;和谐宜居城市建设

一、引言

十八大以来,我国政府高层决策相继把建设和谐宜居城市提升到前所未有的战略高度,《国家新型城镇化规划(2014—2020)》、中央城市工作会议、十三五規划纲要等均对建设和谐宜居城市作出专门论述,明确指出要提高城市发展宜居性,并把建设和谐宜居城市作为城市发展的主要目标。

本文确定了与和谐宜居城市建设有关的44类关键词,再从社交网络上收集北京市2015年到2018年带有这些关键词的评论,构建情感分析模型和主成分分析模型,分析影响居民对“和谐宜居”主观感受的主要因素,进一步了解在建设中需要加以改进或修正的方面。

二、基于情感分析模型的居民评价模型构建

(一)数据清洗预处理

中文分词是中文类型的自然语言处理的第一个阶段,也是必不可少的阶段。中文的句意是由词语组成的,分词的意义在于将中文词语分成一个个有效的,符合句意的词语,本文采用pkuseg模块进行分词。由于居民评论中经常含有一些助词、语气词、表情符号或者“回复”等词,这些词语没有具体的含义,也没有明确的感情倾向,所以将这些词作为停用词。如果分词结果中含有停用词,则删除该停用词。同时为了衡量评论内容与评论目标之间的关联程度,去除无意义的评论,本文计算了评论内容与关键词之间的余弦相似度,去除相似度为0的评论。

(二)评论文本情感分析建模

通过预训练TextCNN情感分类模型,对清洗完毕的数据进行情感分类,同时为了能够表达评论语句的强烈程度,使用情感词典对文本的情感极度进行标记。本文通过对微博情感200万条数据集进行情感分类训练模型,使用该模型对数据预处理后的评论文本进行分类,其数据输入为评论文本,输出为积极/消极的概率以及情感极度。选择CBOW模型作为词向量模型,采用FastText工具对该词向量进行复现。CBOW模型是一个两层结构, CBOW模型没有隐含层, 通过上下文来预测中心词, 并且抛弃了词序信息。

输入层: n个节点,上下文共2m个词的词向量的平均值;

输入层到输出层的连接边:输出词矩阵;

输出层: 个节点。第i个节点代表中心词是词的概率

首先, 将中心词wt的上下文ct:wt-m, ..., wt-1, wt+1, ...wt+m转成输入词向量xt+j:

进而将上下文的输入词向量wt-m, ..., wt-1, wt+1, ...wt+m求平均值, 作为模型输入:

(1)

输出层采用softmax作为激活函数, 用logloss作为损失函数, 利用梯度下降带入训练数据训练词向量, 文本中所有词向量存在于矩阵中。其训练网络图如下:

TextCNN 是利用卷积神经网络对文本进行分类的算法,2014年由 Yoon Kim在 《Convolutional Neural Networks for Sentence Classification》一文中提出。TextCNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息,使用不同尺寸的kernel_size来模拟语言模型中的N-Gram,提取句子中的信息。

三、基于主成分分析模型确定影响居民主观感受的主要因素

主成分分析法(PCA)是模式识别中的一个线性监督分析法,主要是基于变量协方差矩阵对原始信息进行压缩和提取处理。PCA 是将多元的信息线性变换(降维、简化、重排)为少数的几个综合信息(主成分),不仅保留了原始数据中的主要信息,而且可以将降维转换后的特征向量线性分类。

首先,将上文确定出的44类关键词作为指标,由于这44类指标都具有三个属性,分别为表现为积极情感的概率,表现为消极情感的概率,情感的极性,为了处理成单属性格式,本文通过下面公式进行数据聚合,将三列属性合并为单特征,公式如下:

(2)

其中和表示准确率,表示关键词聚合特征,表示评论为消极的概率,表示评论为积极的概率,表示情感极性。

接着使用SPSS进行主成分分析。

求出的 KMO 值为0.915,说明可以采用主成分因子分析法。同时Bartlett 的球形度检验的显著性值为 0,说明数据的统计显著性非常强。

将44个特征输入,得到主成分分析的解释总方差,

根据图3以及表2主成分提取分析表,特征值在第10个主成分开始收敛,而在第10个主成分的累计贡献率定为 85%,因此选取10个主成分作为特征模型。

初始因子载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到每个主成分中每个指标所对应的系数,即特征向量。以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重,可得到主成分综合模型,根据主成分综合模型系数排序最终可以得到因子重要性排序如表3所示:

根据表3可以发现,在居民的主观感受中,空气质量、收入水平与高精尖这三个成为重要性最为突出,是最为影响居民对“和谐宜居”主观感受的关键因素,在因子重要性排名前20的指标可以看出,居民的主观感受更多是切实关系到衣食住行一些指标,例如水质,房价等指标。因此,影响居民对“和谐宜居”主观感受的关键因素更多是切实关系到居民的生活的因素。

要将北京建设成为和谐宜居之都需要结合民众切实的主观感受。为有效提高民众对和谐宜居的主观感受,合理规划北京市城市建设,需要做到以下几个方面:第一,注重城市的生態环境建设,使城市生态环境均衡、和谐发展,实现低耗能、低污染;第二,在居民意识方面,纠正居民的发展观念,充分宣传宏观指标的重要性,在照顾到民众的切实利益方面也要考虑到展示城市软实力的一些指标。

参考文献

[1] Xu Sun,Houfeng Wang,Wenjie Li.Fast Online Trainingwith Frequency-Adaptive Learning Rates for Chinese WordSegmentation and New Word Detection. Proceedings ofACL.253-262. 2012.

[2] 微博情感200万条公开数据集https://download.csdn.net/download/turkan/9181661

[3] Li J,Jing L, Fu X, et al.Learning distributed wordrepresentation with multi-contextual mixed embedding[J].Knowledge-Based Systems,2016(106):220-230.

[4] 刘春磊,武佳琪,檀亚宁.基于TextCNN的用户评论情感极性判别[J].电子世界,2019(3):48,50.

[5] 米硕,孙瑞彬,李欣,明晓.基于循环神经网络(RNN)和卷积神经网络(CNN)对电子邮件的作者识别[J].科技创新与应用,2018(10):24-25.

[6] Kim Y.Convolutional Neural Networks for SentenceClassification[J]. Eprint Arxiv,2014.

[7] 孟令爽,唐德善,史毅超.基于主成分分析法的城市人水和谐度评价[J].水资源与水工程学报,2018,29(1):93-98.

[8] 孟令爽,唐德善,史毅超.基于主成分分析法的用水效率评价[J].人民长江,2018,49(5):36-40.

[9] 周洋,侯淑婧,宗科.基于主成分分析方法的生态经济效益评价[J].统计与决策,2018,34(1):66-69.

猜你喜欢
情感分析主成分分析
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
服务贸易结构优化路径研究