基于LDA主题模型在体育赛事舆情挖掘中的运用

2018-07-09 09:46孙恩泽
大经贸 2018年5期
关键词:体育赛事舆情赛事

【摘 要】 针对传统仅依靠文本高频词进行体育赛事舆情分析而忽视文本中潜在语义关联的缺陷,开发出了一套基于LDA(latent dirichlet allocation)主题模型的体育赛事舆论系统,来对赛事的舆情主题进行发现提取。

引 言

如今,互联网作为一个开放的空间,有大量的观点在其中快速传播,具有发散性强、渗透性强、隐蔽性强的特点。而一件小事通过在互联网中的传播发酵,往往议论会超出事情本身,扩展到社会的政治、经济、文化层面,形成强大的舆论力量,如南京马拉松选手跑丢事件、中国乒乓球赛国乒退赛风波。对于一个体育赛事而言,网上的舆论不仅会影响到人们参与或观赏赛事的意愿以及赛事品牌形象、赞助商等方面,甚至还会影响到举办地的形象及产业发展,从而对一个赛事的举办带来巨大的影响。

1 体育赛事网络舆情概述

1.1 网络舆情概念

对于“舆情”的定义,诸多学者有着不同的理解,根据舆情的特征认为舆情是指在一定的社会现实环境中,大多数人民群众对待社会事务和问题所表達出的情绪、思想、观点、意见的总和,是广大人民群体满足自身利益需要的一种诉求和表达的集中体现[1]。认为舆情是指公众关于现实社会以及社会中的各种现象、问题所表达的信念、态度、意见和情绪表现的总和,具有相对一致性、强烈程度和持续性,对会发展及有关事态的进程产生影响,其中混杂着理智和非理智的成分[2]。

1.2 体育赛事网络舆情

综合上述对网络舆情定义,我们可以认为体育赛事网络舆情是人们通过互联网这个媒介,对发生的与体育赛事相关的事件所表达出的包含其意愿、态度、行为倾向的看法、评论的总和。体育网络舆情由于其自身的特点而呈现出独特的特征。

1.2.1 受关注程度高。我国作为体育大国,许多体育运动项目都拥有庞大的粉丝群体。并且对于一项体育赛事举办而言,必然会在当地引起极大的注意。再加上参赛成员、比赛结果、打破记录等这些天然的话题,自然会成为众多媒体追逐的焦点,满足了网络媒体需要吸引人眼球的需求。

1.2.2 话题扩展型强。随着体育赛事商业化、职业化程度不断加深,体育赛事与社会政治、经济、文化的联系不断紧密。

1.2.3 体育赛事关注符合二八法则。虽然体育项目及赛事种类繁多,但其中只有少数项目的热门赛事比赛能够在网上引起巨大的讨论,相反大多数体育赛事在现阶段,特别是相对冷门的赛事所受到的曝光还并不是很多,所以一般也很难形成很大的网络舆情。

2 LDA主题模型

2.1 LDA主题模型的基本原理

潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是由D. M. Blei等人在2003年提出的生成式主题模型。该生成模型的思想是,每一篇文章的每一个词都是通过一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语。

如图所示,“词语-文章”可以分解为“词语-主题”和“主题-文档”两个因子,这是一种典型的矩阵分解模型。LDA模型就是矩阵分解的基础上在加上先验概率和似然概率。LDA因此可以看做是一种3层贝叶斯概率网络,包含文档(d)、主题(z)、和词(w)3层结构。其中词表的大小为L,一个L维向量(1,0,0,…,0,0)表示一个词。由N个词构成的文章记为d=(,,…,)。假定一个赛事舆论数据集D由M篇文章构成,记为D=(,,...,)。M篇文章分布着K个主题,记为(i=1,2,3…,K)。记α 和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的Dirichlet先验分布,为词在主题中的多项分布的参数,其服从超参数β的Dirichlet先验分布。

LDA主题模型已经广泛应用于文本主题挖掘和聚类、文本相似度计算等方面,弥补了只使用文章高词频发现主题时,无法对潜在语义进行识别的不足,有效解决了多种指代的问题,避免了词语二义性的干扰。

3 实证检验与结果

本系统实验环境为windows平台、运用python语言进行数据处理。实验数据为某马拉松赛事的参赛者网上评论。系统使用结巴分词系统,使用wordtovector算法进行特征向量选择,最后使用LDA算法进行主题提取。

从LDA主题分析处理后的结果可以看出,参赛者对此次赛事的不满之处主要在于赛道设计不合理,补给不足等方面,并希望赛事的举办者在下次举办时能够进行调整。

结 语

随着大数据时代的带来,合理运用LDA主题分析对网上有关体育赛事的观点和主题进行挖掘,有利于了解某项赛事在人群中普遍形象,方便体育赛事组织管理者及时发现赛事的长处和不足,调整相应的组织及营销策略。

【参考文献】

[1] 钱储. 大学生网络舆情现状分析及对策研究[J]. 绿色科技, 2016(15):255-256.

[2] 赵丛聪. 网络舆论的功能和调控[J]. 视听, 2013(2):41-42.

作者简介:孙恩泽(1994-),男,汉族,河南平顶山人,研究生,现就读于上海体育学院经济管理学院,研究方向:体育管理。

猜你喜欢
体育赛事舆情赛事
本月赛事
河南省体育馆近年承办的主要赛事
2022年冬奥会对中国体育赛事转播的影响
河南省体育馆近年承办的主要赛事
舆情
舆情
体育赛事品牌化发展研究
舆情
赛事赞助沟通对感知匹配的影响
微博的舆情控制与言论自由