基于大数据技术的网络热搜关键词提取算法

2021-07-03 04:15王珊珊梁同乐
电子测试 2021年10期

王珊珊,梁同乐

(1.广东轻工职业技术学院信息技术学院,广东广州,510300;2.广东邮电职业技术学院计算机学院,广东广州,510630)

0 引言

针对基数过大的网络热搜关键词提取很容易出现提取查全率低的现象,证明以往研究存在一定的局限性[1]。因此,有必要对网络热搜关键词提取算法展开优化设计。大数据技术作为一种信息化技术,主要针对巨量资料展开,具有高效性、真实性的优势,以其强大的统一功能在众多技术中脱颖而出,成为线下主流应用技术。基于此,有理由将大数据技术应用在网络热搜关键词提取算法中,基于大数据技术设计网络热搜关键词提取算法,希望能够在提高网络热搜关键词提取查全率的同时,为网络热搜关键词提取方面的发展提供新思路。

1 大数据技术

大数据技术主要是通过互联网的优越性,彻底打破了时间以及空间的限制,在海量信息中挖掘出有价值的信息[2]。大数据技术下的信息特征为以多元的方式呈现数据,形成庞大的信息队列,其中也隐含了实时性的优势。大数据下借助信息化技术为依托,通过在大量数据中提取出有价值的信息,并挖掘数据中存在的内部规律[3]。结合国外针对大数据技术的研究中,主要将大数据技术分为两大类,包括:数据存储技术以及数据处理技术。基于大数据技术具有效率高、精度高、使用方便等优点,已经被广泛应用在各个领域中。基于此,本文设计的基于大数据技术,网络热搜关键词提取算法,其具体内容,详见下文。

2 基于大数据技术的网络热搜关键词提取算法

2.1 确定网络热搜关键词特征的模糊空间

网络热搜关键词信息特征的模糊空间示意图,如图1所示。

在图1中,以A、B、C为网络热搜关键词信息特征的模糊空间中的映射直线。结合ai1、ai2与ai3的关系可见,网络热搜关键词信息特征空间维数越大,网络热搜关键词信息特征模糊空间的面积越小;反之,网络热搜关键词信息特征模糊空间的面积越大。因此,网络热搜关键词信息特征的模糊空间只适用于对单一网络热搜关键词信息特征进行描述,针对综合网络热搜关键词信息的特征还需要基于大数据技术,加权融合网络热搜关键词。

图1 网络热搜关键词信息特征的模糊空间示意图

2.2 基于大数据技术加权融合网络热搜关键词

在确定网络热搜关键词特征的模糊空间的基础上,本文针对综合网络热搜关键词信息的特征通过大数据技术进行加权融合[4]。本文以网络热搜关键词语义的重要程度为指标,以关键词中的Hamming距离为标准,计算网络热搜关键词模糊语义距离。设其为Sim(x,y),可得公式(1):

公式(1)中,n 指的是网络热搜关键词语义特征矢量;i指的是综合网络热搜关键词信息的特征个数,为实数;w指的是平滑系数;m 指的是摩擦系数;k指的是网络热搜关键词信息权值系数;g指的是关键词隶属度函数;μ指的是关键词特征嵌入维数;x指的是网络热搜关键词信息一维距平化Hamming距离横坐标;y指的是网络热搜关键词信息一维距平化Hamming距离纵坐标。网络热搜关键词信息一维距平化Hamming距离横坐标以及纵坐标能够直接决定关键词在模糊语义距离属性中的具体点位信息,即为模糊语义特征描述。基于模糊语义距离属性的基本特征,计算网络热搜关键词信息模糊特征数值以及网络热搜关键词信息特征距离,得到模糊语义网络热搜关键词信息特征距离综合信息表,为基于大数据技术加权融合网络热搜关键词提供基础信息。并以此为网络热搜关键词分数索引,网络热搜关键词分数越高证明其在网络热搜关键词提取时的优先级越高,从而保证了尽可能多的关键词结点被提取。

2.3 提取网络热搜关键词

采用大数据技术Reduce中的稀疏表示技巧,得到完整的基于大数据技术的网络热搜关键词提取算法,可得公式(2):

公式(2)中,u指的是网络热搜关键词提取频率。以公式(2)为基于大数据技术提取网络热搜关键词的最终方程式,根据网络热搜关键词特征矢量的位置,输出网络热搜关键词提取结果。至此,完成基于大数据技术的网络热搜关键词提取算法设计。

3 实例分析

3.1 实验准备

本文通过设计实例分析的方式,在web平台中选取2个真实数据集作为实验对象。首先,使用本文设计的提取算法基于大数据技术提取网络热搜关键词,通过matalb软件记录网络热搜关键词提取的查全率,将其设为实验组;再使用传统提取算法提取网络热搜关键词,同样通过matalb软件记录网络热搜关键词提取的查全率,将其设为对照组。由此可见,本次实验主要内容为测试两种提取算法的查全率,网络热搜关键词提取的查全率越高证明提取更加全面、可靠。通过设置10次实验,针对matalb软件测得的查全率,记录实验数据。

3.2 实验结果分析与结论

将两种提取算法下的查全率进行对比,查全率对比结果,如下表1所示。

表1 网络热搜关键词提取查全率对比

根据表1可知,通过实验组测得的查全率高于对照组两倍以上,基于大数据技术设计的网络热搜关键词提取算法在查全率方面相比传统算法具有明显的优势。综上所述,设计的网络热搜关键词提取算法对网络热搜关键词提取更全面,有理由直接投入现实应用。

4 结束语

文章针对基于大数据技术的网络热搜关键词提取算法展开研究,通过以上研究可以表明,利用本文设计的基于大数据技术的网络热搜关键词提取算法能够在网络热搜关键词提取过程中取得显著的应用效果,解决以往网络热搜关键词提取难的问题。因此,有理由加大大数据技术在网络热搜关键词提取中的应用力度。由此可见,未来网络热搜关键词提取算法方面的发展可以以大数据技术为核心,为网络热搜关键词提取领域的研究提供学术意义。