张 睿,赵志杰,,韩 凌,李晓亮
(1.北京大学环境与能源学院,广东深圳 518055;2.北京大学环境科学与工程学院,北京 100871;3.生态环境部环境规划院,北京 100012)
产品是经济活动的核心,也是包括营销、服务关系在内的各种经济关系的载体。公众对产品的环境健康风险认知感受,不仅影响着消费行为与产品的市场表现,也为环境管理带来新的途径和手段。充分披露环境信息能有效发挥这种基于公众的产品环境管理,为引导公众形成环境友好型消费提供支持,协调在环保管理中企业、政府和公众的关系,有利于社会的良性治理。
国内外基于产品的环境管理手段自20 世纪80年代以来不断涌现,当前已经形成较为成熟的体系。生产者拓展责任制通过使产品制造者对产品的整个生命周期负责,以降低产品的环境影响[1]。可持续发展则强调产品在全生命周期对环境的影响,包括产品碳足迹和水足迹等,将控制范围从产品延伸到了生产过程[2]。
在互联网时代,舆情具有紧急性,容易形成强大的公众影响力[3]。产品的网络舆情通常表现为网络口碑[4]。作为提供产品相关信息的重要途径,网络口碑具有煽动性和多样性。随着公众日益成为推动环境保护的重要力量[5],带有一定环境与健康特性的网络舆情在产品销售和企业形象塑造中愈来愈发挥重要作用[6],并对更加广泛的人群产生影响[7]。产品舆情环境形象评估模型利用自然语言处理技术分析产品的网络口碑,能较为清晰地反映出公众对相关产品的环境健康认知感受,不仅为企业提供更直观的消费者体验,同时也为政府部门提供了环境管理与决策依据,进而有助于从源头改善产品在全生命周期中的环境污染问题。
产品舆情环境形象评估模型是利用产品在互联网上的传播大数据,分析信息发出者对产品在环境和健康方面的情感倾向特征。首先需要收集被评估产品的有关信息,然后筛选出属于环境健康方面的信息,再进一步对信息所反映的环境健康维度和情感倾向进行分类。这些筛选和分类工作采用有监督的机器学习模型来完成。
产品对人体健康的影响通常包括对心血管系统、神经系统、生殖系统、消化系统和内分泌系统的影响[8];对环境的影响,如陶伟锋[9]、王宾[10]的研究显示,包括破坏生物多样性及损害相关生物健康、固体废弃物污染、水污染、气体污染、粉尘污染、噪声污染、土壤污染、燃爆风险等。目前,对于“产品舆情环境形象”尚未有明确的定义,本研究中的产品舆情环境形象是指公众对产品在环境和健康方面的感知,是产品从生产、消费、使用到处理的全生命周期内产生的环境影响和健康风险,在社会新闻媒介、科学研究以及公众舆论等各方面所呈现出来的形象,是社会各界或者一般公众对该产品造成的环境和健康影响的整体认知和主观感受。
公众对产品的环境形象认知可以分为健康影响、环境污染、环境风险和情感倾向4 个方面。其中,健康影响主要是产品对自身健康风险方面的感受;环境污染是产品在污染物排放以及对各环境要素影响方面的感受;环境风险是对产品产生的不确定性环境影响和资源消耗方面的感受;情感倾向是指公众对不同产品在消费过程中所产生的环境和健康效应的情感态度。依据化学品对人体健康的影响特征,将产品健康风险感受分为急性毒性、慢性毒性、致畸致癌、成瘾致敏、产品有效5 个方面;环境风险感受分为挥发性、降解性、易燃易爆、生物有害性和回收性5 个方面;环境污染感受分为大气污染、水污染、土壤污染和固体废弃物污染(以下简称“固废污染”)4 个方面;情感倾向分为非常负面、负面、无明显倾向、正面和非常正面5 个方面。具体见图1。分析评估流程主要包括构建评估框架、人工标注语料、训练优选模型、爬取舆情信息以及应用模型开展环境形象评估。
图1 产品舆情环境形象评估框架
2.3.1 卷积 神经网络在自然语言方面的应用
深度学习在传统的自然语言处理领域取得了很多突破性的进展[11],如Collobert 等[12]研究的词性标注、Vinyals 等[13]的语法分析、Socher 等[14]的情感分析和Zeng 等的关系分类[15]等。2006 年,Hinton[16]提出人工神经网络可以更加深刻地刻画样本数据特征,对于文本分类任务更有利。2010 年,Mikolov 等[17-18]将循环 神经网络(RNN)用于语言模型建模,在2013 年又提出连续词袋(CBOW)和Skip-gram 模型。相较于RNN 和CBOW,卷积神经网络(CNN)堆叠起来的卷积层可以很方便地模拟语言层次的变化[11],从而大幅提高语言处理的精度。CNN 进行文本分类的第一步是将文本向量化,即利用词向量映射为句子矩阵,随后卷积层对句子矩阵进行卷积操作,提取局部特征,下一阶段对所得的局部特征进行池化,利用最大特征代替整个局部特征[19]。其后,借鉴杨善良[20]、李洋等[19]的做法,将池化后的特征通过全连接层进行组合,连接整体特征向量和待分类别,通过权重学习特征向量和待分类别之间的非线性关系输出一个组合向量,最后将组合向量输入softmax 分类器进行分类。在自然语言的表示问题中,CNN 模型采用的是独热表示(one hot representation)方法:每个词表示为1 个向量,由1 个1 和数个0 组成;向量的维度是词表的数量。
2.3.2 卷积神经网络的结构
模型采用CNN 算法对语料监督分类,主要包括输入层、卷积层、池化层和全连接层。卷积层是构建卷积神经网络的核心层,内部包含多个卷积核,主要功能是对输入数据进行特征提取;这一层包含大量参数和权重,产生网络中大部分的计算量。池化层的作用是逐渐降低数据的空间尺寸,减少网络中参数的数量从而有效控制过拟合[21]。全连接层则具有两层,主要作用是利用之前模块提取到的特征对测试语料进行分类,是卷积神经网络中的分类器。卷积层和池化层一般会取若干个,并采用交替的设置方式。卷积层中输出特征图的每个神经元与其输入进行局部链接,并通过对应的链接权值与局部输入进行加权求和再加上偏置值,得到该神经元输出值[22]。借鉴Goodfellow 等[23]的研究,得到卷积神经网络公式如下:
式(1)(2)中:L为Z向量集内部的某一向量;表示第层的卷积输入与输出,即特征量;k代表特征量的卷积层层数;f代表卷积层卷积核大小;代表卷积层的卷积步长;代表 卷积层的填充层数;b代表误差值;为向量的坐标表示。
CNN 的局部链接、权值共享及池化操作等特性,可以有效降低网络的复杂度,减少训练参数的数目,使得模型易于训练和优化[24]。参考赵京胜等[25]的做法,采用分类模型测评常用的指标,包括精确率(P值)、召回率(R值)、均方差值(F1)等;同时,借鉴Zhang 等[26]的研究,构建如图2 所示的CNN结构。其中,Sentence matrix 为该句的向量,region sizes 为该向量的区域范围,feature maps 为向量的特征图谱;Convolution、active function、max pooling、softmax function 分别代表对应层计算时参照的卷积函数、激活函数、最大池化函数、正则化函数。
图2 卷积神经网络结构
3.1.1 训练语料的获取与筛选
训练语料来源于知乎网站,以环境健康相关 特性为关键词检索,包括“毒性”“污染”“环境影响”“垃圾”“废气”“废水”“土壤污染”“挥发”“废物回收”“降解”“燃爆风险”“生物有害性”“上瘾”“过敏”“新生儿畸形”“有效”“好用”等;搜索非环境健康语料的关键词包括“金融”“股票”“教育”“体育”“综艺”“明星八卦”“情感生活”“汽车资讯”“游戏”“星座”“品酒”“酿造”“酒吧”等。检索时间为2020 年11 月月底。选择3 名环境方面专业人士分别标注语料,同一语料两人及以上标注意见相同为标准语料,共选出12 702 条环境健康相关语料和6 112 条非环境健康相关语料。为减少模型训练时间,提高运行效率,随机取出1/2的语料作为训练语料。
表1 语料库训练语料规模特征 单位:条
3.1.2 数据处理与模型训练流程
数据预处理主要是对舆情数据的文本格式和输出输入形式进行修整。首先清洗网页脏数据,然后将语料转换为UTF-8 格式。舆情评估模型的训练过程分为以下3 步:
第一步,设置第1 个分类模型用于语料的判别。通过人工筛分环境健康相关以及非环境健康相关语料进行第一阶段的模型训练,得到模型的两类输出方式,属于环境健康相关的语料进入下一阶段循环,属于非环境健康相关语料则退出循环。
第二步,设置第2 个分类模型用于情感极性的划分。将带有不同情感极性的语料用于模型训练,得到的模型用于划分语料所具有的情感极性特征。
第三步,设置第3 个分类模型用于环境健康相关语料的进一步细分。通过设定16 种特性(生物有害、固废、土壤污染、大气污染、水污染、可降解、可回收、易燃易爆、可挥发、致畸、致癌、成瘾、急性毒性、慢性毒性、过敏、有效)用于对环境健康相关语料的进一步细分,判定该产品具有哪些方面的环境健康风险。
环境舆情分析模型由3 种分类模型组成,分别是:环境舆情判断模型、环境情感分类模型和环境健康分类模型。单一类别的模型依据训练语料数量差异进一步细分为不同的单个模型,最终选取精度最高的单个模型作为该类别的使用模型。
3.2.1 环境健康舆情判定模型
设置舆情判定模型时,按照训练语料分配情况进行两次模型训练,分配依据包括语料数量和语料性质。通过对两个模型的精确率等指标进行综合评估(见表2),发现仅按照特性相关语料进行训练的模型具有一定过拟合现象,而在特性语料中混入部分产品相关语料的模型具有较高的P值、R值和F1值,能够较为准确地定位产品舆情中是否包含环境健康成分的语料,从而用于下一批次的语料划分。
表2 环境健康舆情判定模型精确性评估
3.2.2 环境情感倾向模型
情感分析是通过计算技术对文本的主客观性、观点、情绪的挖掘与分析,对文本情感倾向作出判断[27]。与人的喜怒哀乐情感不同,本研究将产品环境情感倾向分为正面、中性和负面,并将正面和负面情感按照不同的程度进一步细分,最终确定5类倾向性,为:-3、-1、0、+1、+3。其中,倾向为-3的语料象征环境污染严重或安全事故;倾向为-1 的语料象征环境风险或健康隐患;倾向为0 的语料为各类政府工作展望或对某地、某物环境形象进行客观评价,通常不带有明显情感倾向或情感极性正负相抵;倾向为+1 的语料象征积极的环境舆情,通常为介绍某种环境有益的产品或管理方式;倾向为+3的语料表现为环境有显著改善的舆情。环境情感倾向模型一共迭代45 次,模型自测准确率为100%。对980 条关于酒精的语料进行模型测试,结果见表3。
表3 酒精产品的环境情感倾向模型训练结果单位:条
3.2.3 健康和环境维度分类模型
通过综合分类、常规分类和多标签分类3 种方式,对选定为环境健康相关的语料进行分类。其中,综合分类将16 种维度都编入一个模型,不区分环境相关还是健康相关;常规分类首先以健康风险和环境影响作为分类基础,训练出健康模型和环境模型,对测试语料进行环境健康分流后再进行细分类;多标签分类按照单条语料包含的产品环境健康特性进行“是”与“否”的分类,不进行环境风险与健康风险的区分。共设置16 个模型,具有多种特性的语料会有多个标签。以上3 种分类方式具有相同的情感极性评估标准,每一类模型都按照语料精度的不同设置两个模型,低精度模型相比于高精度模型每种特性增加100 条带有相关关键词但属于非环境健康相关的语料(见图3)。
图3 健康和环境维度分类模型对比分析
结果表明,在训练语料质量较高的情况下,高精度分类模型的精确度普遍高于低精度分类模型,说明以上3 种模型的分类效果都要好于语料质量较差的模型。因此,将综合分类模型作为主要的舆情环境健康分类器对产品相关语料进行测试。
本研究以我国原环境保护部(现生态环境部)发布的《环境保护综合名录(2017 版)》为参考,以产品的舆论热点程度作为筛选依据,共确定8 个行业的33 种轻工业产品作为研究对象(以下简称“样本”),产品所属行业类别如下:酒精制造、初级形态塑料及合成树脂制造、其他电池制造、化妆品制造、化学农药制造、食品添加剂制造、化学药品原料药制造、染料制造。其中,酒精制造、其他电池制造、化学农药制造、化学药品原料药制造和染料制造包含在“双高”(即高风险、高污染)名录;化妆品制造、食品添加剂制造、初级形态塑料及合成树脂制造等行业的产品属于舆论热点产品。为增强语料可靠性,避免广告和不具有实际内容的舆情,测试语料的主要来源于知乎网站中相关产品问题下点赞数最多的评论,共计25 645 条(含无用语料),如表4 所示。检索时间为2021 年1 月月底。
表4 样本轻工业类“双高”产品类目与相关舆情数量单位:条
表4(续)
将不同特性的语料进行归类,健康风险所包括的语料细分类为:“急性毒性”“慢性毒性”“上瘾”“过敏”“致癌致畸”“有效性”;环境污染包括的语料细分类有:“大气污染”“固废污染”“水污染”“土壤污染”;环境风险的语料细分类有:“挥发”“回收”“降解”“易燃易爆”“生物有害性”。具体如图4 所示。
图4 样本轻工业类产品环境形象分布特征
(1)从产品来看,相较于其他行业,化学药品原料药制造行业和化妆品制造业具有较高的舆情环境健康风险(见图5)。药品制造行业所选定的5种产品中,健康风险和环境风险占比最高的是咖啡因,主要影响特征是上瘾和生物有害性。化妆品制造业所选定的7 种产品中,健康风险占比最高的是凡士林,主要影响特征是过敏;环境风险占比最高的是角鲨烯,主要影响特征是生物有害性。
图5 样本轻工业类产品环境健康风险分布
(2)从行业来看,环境风险最高的3 个行业包括化妆品制造、化学药品原料药制造、初级形态塑料及合成树脂制造;健康风险最高的3 个行业包括化妆品制造、化学药品原料药制造、染料制造;环境污染最高的3 个行业包括化学药品原料药制造、染料制造、化学农药制造。
(3)从特性关注程度来看,公众较为关注的产品环境健康风险为有效性、生物有害性和致畸,与这3 种特性相对应的舆情热度最高的产品分别为烟酰胺、凡士林、水杨酸;咖啡因、烟酰胺、毒死蜱;氯霉素、咖啡因、水杨酸。
利用环境情感模型运行33 种产品的舆情语料,结果如图6 所示。其中,正向占比、中性占比、负向占比代表包含正面、中性、负向情感极性的舆情语料数量与产品总体舆情数量的比值。整体来看,产品舆情以正向情绪占主导,中性和负面情绪占比较低。正向舆情占比较高的产品多为电池类,包括锂电池、铬镍电池和环丙沙星;中性情感占比较高的产品多为食品添加剂,包括乳酸链球菌素、山梨酸和凡士林;负向舆情占比较高的产品多为药品类,包括84 消毒液、咖啡因和凡士林。产品情感倾向受到舆情数量影响,舆情数量较少的产品正向和中性情感比例较高,舆情数量较多的产品负向情绪比例较高。
图6 样本轻工业类产品情感倾向分布
(1)产品受众。样本产品的舆情倾向以正向情绪为主导,但受众较广的产品具有更高的讨论热度,更高的热度能产生更多元化的舆情。如化妆品、药品等属于消费者群体广泛的产品,相关舆情数目庞大,由于消费者个体体质等因素的差异性,这3 类情绪倾向占比会趋于均衡;而农药、电池、添加剂等属于受众相对较少的产品,相关舆情以业内人士评论或环境事故新闻为主,因而多为极端正向或负向情绪,情感倾向占比更趋于极端化。
(2)主流产品的影响。某一类中具有代表性产品的舆情形象通常会左右公众对于整个产业的认知,主流产品的品质会影响公众对这个行业的信任程度。如2008 年的中国奶制品污染事件,使得国产奶粉环境健康形象受到损害,造成公众对国产奶粉的恐慌及抵制,转而消费国外奶粉,造成国内奶粉商的巨额亏损。
(3)媒体宣传。在信息化时代,产品的网络评论会形成产品的舆情形象,如果受到媒体的刻意宣传引导,一方面会引发公众对某类产品的积极消费或是抵制,另一方面会使这类产品的消费者产生更多主观评价,大量带有环境健康影响信息的网络评论会逐渐形成产品新的环境健康舆情形象。
(1)产品的环境情感形象与产品关注热度相关,相关产品关注度高,所产生的舆情较为多元化,其舆情环境形象整体趋于中性,如化妆品制造和化学药品原料药制造等行业的产品;关注度较低的产品舆情较少,舆情情绪占比更趋于极端正面或负面。
(2)在众多特性中,公众较为关注的环境健康风险包括产品的有效性、致畸性和生物有害性;环境风险感受较高的产品有咖啡因、氯霉素、烟酰胺和毒死蜱。
(3)产品环境形象的维度划分、训练语料的人工标注和分类模型的选择是影响结果的重要因素。