基于LSTM算法的网络新闻信息传播流行度预测系统

2022-12-06 09:05门玉霞

微型电脑应用 2022年11期

门玉霞

(自贡市第一人民医院，四川，自贡 643000)

0 引言

网络新闻已经成为当前网络信息载体的主流，日益发展成为人类日常生活中不可缺少的一部分，传统的新闻获取方式已经逐渐被网络所代替[1]。由于网络具有实时性、便捷性等优势[2-3]，人们主要通过电子设备在网络上了解最新的新闻资讯，不再需要购买报纸或者杂志等[4]。现阶段如何预测网络新闻信息传播流行度成为研究的热点话题。相关专家针对该方面的内容展开了大量的研究，例如朱琛刚等[5]采用行为动力学分类方法将节目流行度演化过程划分为4种不同类型，通过双种群粒子优化的最小二乘支持向量机对不同类型分别组建流行度预测模型，通过模型进一步构建对应的预测系统。鲍鹏等[6]通过图注意力机制学习在线内容级联结构表示，采用时序卷积网络捕获传播级联的时序特征建立对应的系统，同时通过全卷积映射在线内容流行度预测。以上2种系统现阶段虽然取得了较为满意的研究成果，但是由于未能将短期记忆网络(LSTM)算法应用到网络新闻信息传播流行度预测中，造成网络新闻信息传播流行度预测准确率减少，响应时间和预测费用大幅度增加。为了全面提升所设计系统的综合性能，结合LSTM算法，提出一种网络新闻信息传播流行度预测系统。仿真实验结果表明，所设计系统能够有效提升网络新闻信息传播流行度预测准确率，降低预测响应时间和预测费用。

1 基于LSTM算法的网络新闻信息传播流行度预测

建立网络新闻信息传播模型的主要目的是对网络新闻的传播方式进行描述，在网络新闻中，用户状态可以划分为4种不同的形式，分别为

(1) 传播状态；

(2) 未知状态；

(3) 辨别状态；

(4) 免疫状态。

在组建状态转移方程的过程中，需要全面考虑用户对网络新闻信息的感兴趣程度[7]，以此为基础建立网络新闻信息传播模型。整个模型主要包含3种不同传播规则，具体如下。

(1) 当系统运行初始阶段只有一个用户的状态为传播时，剩余用户均为易感状态。

(2) 通过自身概率完成状态转换。

(3) 将系统处于感染状态的节点进行状态转换，确保其不会再次被感染。

SIR模型是传染病模型中最经典的模型。其中，S表示易感者，I表示感染者，R表示移除者。其中，SIR(susceptible infected recovered model)模型的传播规则，如图1所示。

图1 SIR模型的传播规则

随着时间的推移，SIR模型可以表示为以下的形式[8]：

(1)

式中，a表示网络新闻传播的感染率,b表示网络新闻传播的恢复率,t为某个时刻，例如t=1，S(1)为第一天网络新闻传播的人数。无论t为什么时刻，总人数是不变的，即N(t)=S(t)+I(t)+R(t)。人口总数总保持一个常数，即N(t)=k，不考虑人口的出生、死亡、迁移等因素。

在上述分析的基础上，需要获取模型的应用场景。网络新闻信息传播模型设定各个节点共计包含4种不同的状态，其中辨识状态是未知状态的下一个状态，主要目的是利用状态节点接收邻近节点所转发的信息，同时该节点不会主动向其他节点转发所接收到的信息。只有当系统内的用户对网络新闻信息产生兴趣或者是其本身具有一定的吸引力时，可以考虑是否进行信息转发。当需要进行信息转发时，将节点状态转换为传播状态，同时主动将该条网络新闻信息向邻近节点传播；反之，当不需要进行信息传播时，则节点保持自身状态不变。

在建立模型的过程中，主要是在传播概率的基础上进行计算，当组建状态转移方程时，需要引入网络新闻信息价值和用户行为，通过用户影响因子和记忆效应因子、信息参与谈论等信息进行分析研究。

在上述分析的基础上，可以将信息传播模型拓展为

G=(V,E,I,h,p)

(2)

式中，V表示网络新闻信息初始状态集合，h代表社会参与信息的热度，I代表用户对网络新闻信息的感兴趣程度；p表示为网络新闻信息传播状态转换的概率，在初始状态集合V中任意选取一个节点i作为传播节点，此时该节点已经接收到信息[8-9]，同时会主动向其它邻近节点进行信息传播。S(t)代表在t时间段内接收到信息的用户集合，在t+1时间段内会有一个不属于集合S(t)的新节点将来自邻近节点转发的消息一次性接收。其中，S(t)可以设定为以下的形式：

(3)

节点j的状态主要是通过辨别状态转换为传播状态的概率进行设定[10]，具体的计算式为

(4)

式中，wij代表节点i和节点j之间的连接权重，可以表示为式(5)的形式：

(5)

(6)

nj代表节点j在t时刻之前所接收到的信息次数，即：

(7)

在上述分析的基础上，模型的传播过程可以描述为设定网络新闻信息传播的初始状态只有一个随机选取的传播节点，剩余节点均为未知状态，此时辨别状态和免疫状态的节点数量均为0；然后，从初始传播节点开始按照节点数量进行排序，将各个节点转为辨别状态。其中需要注意的是，需要结合节点自身信息的热度以及用户对网络新闻信息的感兴趣程度判定是否需要进行状态转换以及扩散[11-12]；最后，传播节点在成功将邻近节点的状态转换为传播状态后，将被转换的邻近节点继续传播下去，直至整个网络中不再有新的节点需要转换。

2 网络新闻信息传播流行度预测系统设计

需求分析是实现网络新闻信息传播流行度预测系统设计的重要步骤。在当前的信息时代背景下，社会人士均需要在网上获取有价值的信息，其中信息的获取途径也是多种多样，主要包括：各类社交网络以及网络电视等。新闻信息传播流行度预测系统的用户用例图如图2所示。

需要使用新闻抓取模块在互联网上的新闻网站抓取对应的新闻数据，系统抓取数据后，需要将其存储到后台数据中，用户利用不同网络新闻信息传播流行度预测系统。在用户的访问期间[13]，需要通过Web服务器收集和记录用户的行为数据，网络新闻信息传播流行度预测主要通过用户的行为数据组建更新用户的偏好模型，结合用户的偏好模型进行网络新闻信息传播流行度预测。整个系统主要由以下几个模块组成，如图3所示。

图2 网络新闻信息传播流行度预测系统用户用例图

图3 网络新闻信息传播流行度预测系统框架图

(1) 网络新闻信息抓取和存储模块

系统本身不具有产生新闻的功能，需要通过该模块在互联网上进行新闻网站爬取，重点需要新闻标题、子标题以及新闻URL等信息，确保网络新闻信息的抓取具有较快的响应速度，同时尽量避免影响其它用户。

(2) 网络新闻信息展示模块

搭建网站，确保用户可以采用浏览器打开页面进行访问。用户所看到的网络新闻信息，可以划分为3个部分，如图4所示。

需要在系统的首页为用户展示网络新闻信息传播流行度预测结果。

图4 网络新闻信息展示模块的组成

(3) 相关内容引导模块

当用户浏览一篇新的文章时，可能会对网络新闻中涉及到的内容感兴趣，所以想要更加深入了解信息的需求，需要通过该模块提供对应新闻的跳转连接。

(4) 数据预处理模块

在网站中爬取的网络新闻信息无法直接应用于网络新闻信息传播流行度预测中[14-15]。数据预处理是网络新闻信息传播流行度预测的基础，通过该步骤能够有效过滤无利用价值的词语，同时节省计算时间，降低噪声产生的影响。

(5) 网络新闻信息传播流行度预测模块

进行网络新闻信息传播流行度预测是整个系统的核心，同时也是体现所设计系统和其它系统的不同所在。网络新闻信息传播流行度预测针对获取的新闻数据进行传播流行度预测。

(6) 网络新闻信息管理模块

对于系统而言，除了在网站爬取新闻数据外，还需要拥有独家发布新闻的功能，从而促使所设计的系统更具有特色，所以该模块重点负责网络新闻信息管理工作。

3 仿真实验

为了验证所设计基于LSTM算法的网络新闻信息传播流行度预测系统的有效性，本文以自贡市第一人民医院为实验对象，实验数据来自自贡市第一人民医院论坛，将全部帖子进行加工处理，具体数据如表1所示。

表1 帖子数据集

(1) 网络新闻信息传播流行度预测准确率

经过多次实验和参数调整，获取如图5所示的网络新闻信息传播流行度预测准确率对比结果。

图5 网络新闻信息传播流行度预测准确率

分析图5中的实验数据可知，当运行时间为0.5 s时，文献[5]系统的网络新闻信息传播流行度预测准确率为83%，文献[6]系统的网络新闻信息传播流行度预测准确率为87%，本文系统的网络新闻信息传播流行度预测准确率为94%。当运行时间为2.0 s时，文献[5]系统的网络新闻信息传播流行度预测准确率为72%，文献[6]系统的网络新闻信息传播流行度预测准确率为79%，本文系统的网络新闻信息传播流行度预测准确率为90%。本文方法具有较高的网络新闻信息传播流行度预测准确率。这是因为本文系统在实际应用的过程中将LSTM算法应用到系统中，促使整个系统的预测准确率得到大幅度提升。

(2) 网络新闻信息传播流行度预测响应时间

利用表2给出3种不同系统的网络新闻信息传播流行度预测响应时间对比结果。

表2 不同系统的网络新闻信息传播流行度预测响应时间对比结果

分析表2可知，当样本数量为200个时，文献[5]系统的网络新闻信息传播流行度预测响应时间为17 ms，文献[6]系统的网络新闻信息传播流行度预测响应时间为20 ms，本文系统的网络新闻信息传播流行度预测响应时间为15 ms。当样本数量为300个时，文献[5]系统的网络新闻信息传播流行度预测响应时间为23 ms，文献[6]系统的网络新闻信息传播流行度预测响应时间为27 ms，本文系统的网络新闻信息传播流行度预测响应时间为20 ms。相比另外2种系统，所设计系统的网络新闻信息传播流行度预测响应时间明显更低一些，最为主要的原因是本文系统在设计的过程中引入了LSTM算法进行网络新闻信息传播流行度预测，有效剔除无用的词语，促使整个系统的响应时间得到有效降低。

(3) 预测费用

为了更加全面验证所设计系统的有效性，以下实验测试对比不同系统的预测费用，具体实验对比结果如表3所示。

表3 不同系统的预测费用对比结果

分析表3可知，当样本数量为200个时，文献[5]系统的预测费用为176元，文献[6]系统的预测费用为189元，本文系统系统的预测费用为163元。当样本数量为350个时，文献[5]系统的预测费用为236元，文献[6]系统的预测费用为248元，本文系统的预测费用为223元。所设计系统的预测费用在3种系统中为最低，最为主要的目的是所设计系统通过LSTM算法进行网络新闻信息传播流行度预测，在计算的过程中滤除了大量无利用价值的信息，促使整个系统的预测费用得到有效降低。

4 总结

由于现已有系统已经无法满足现阶段的发展需求，为此结合LSTM算法，提出一种基于LSTM算法的网络新闻信息传播流行度预测系统。仿真实验结果表明，所设计系统能够有效提升网络新闻信息传播流行度预测准确率，降低网络新闻信息传播流行度预测响应时间以及预测费用。

尽管本文方法具有以上优点，但是仍然存在各种外界突发因素的干扰，网络新闻信息预测准确率需要进一步提高。