杨振宇
(河南工业和信息化职业学院,河南 焦作 454000)
随着互联网技术的发展,人们获取新闻信息的途径逐渐由传统的纸媒变为网络媒体。在网络技术的支撑下,互联网相继出现论坛、微博、知乎等各类社交群体,既拓展了新闻传播范围,加快了新闻传播速度,也为受众提供了对事件发表看法的服务平台。而受众的态度等信息反映了其对热点话题及事件的关注度,为新闻广播领域的选题及舆论引导提供了参考。然而,融媒体背景下,新闻广播形式单一、内容空洞、与受众的互动不足,制约了新闻广播的选题。面对网络中重要的受众观点,基于大数据分析技术构建舆情监测分析体系,并使其服务于新闻内容的选择与发布,是新闻广播领域需重点探索的问题。因此,本文提出一种面向新闻广播的热点发现和舆情监测分析系统,实现热点及舆情分析结果可视化,进而为新闻广播媒体选题奠定基础。
近年来,各种社交平台相继出现,数据信息快速增长和积累,随着云计算、物联网技术的兴起,大数据时代已经到来。大数据是一个抽象化概念,表示规模数量极大的数据,不仅存在于互联网发布的信息中,还存在于各类工业、科学研究等领域,与个人生活联系更加密切。对于大数据,学术界尚未给出一个统一的定义。徐子沛在其著作《大数据》中提出,“大数据”不仅指“容量大”,更重要的是能通过对大量数据进行交换、整合和分析,发现新的知识,创造出新的价值,为人们带来“大知识”“大科技”以及“大发展”[1]。但根据各学者的研究,大数据一般需要满足3“V”特征,即规模性(Volume)、多样性(Variety)以及高速性(Velocity)。此外,对于第4 个“V”,国际数据公司提出,大数据应当具备较高的价值性(Value),而IBM 公司则认为大数据应具备真实性(Veracity)[2]。
真正的大数据爆发主要有两次。第一次是Web2.0 时代,这一时期在互联网与移动智能终端设备的支持下,互联网产生大量用户原创内容,进而出现大量人类社会数据。第二次是感知式系统的广泛应用,人们将带有处理功能的微小传感器广泛布置于社会各个角落,对社会的运转进行监控,从而产生大量数据。大数据技术主要是针对海量数据进行数据收集、筛选与集成,并对数据进行分析,从中提取出有用的信息,并将其应用到其他领域,为其他领域的研究发展提供数据参考。如图1所示,大数据处理技术流程包括数据采集、数据处理与集成、数据分析以及数据解释几个环节。大数据技术的应用有效提高了提取数据的效率,并依托可视化技术,满足各类用户需求。
图1 大数据处理流程
传统的新闻广播与听众互动较少,听众对广播内容的选择缺乏自主性和主动性。随着网络的普及,若是广播的内容与受众群体的兴趣不符,则会造成听众流失[3]。基于此,要想保证收听率,就需要从新闻广播内容切入,既抓住热点话题,迎合听众,又能对舆情进行监督,引导舆论走向。
选题是新闻广播的重要环节。随着社交媒体的快速发展,新闻广播对于选题线索的挖掘不局限于传统的官方信息披露,可以依托大数据分析技术,对社交媒体产生的信息进行采集和分析,深入挖掘当前互联网热点信息以及受众感兴趣的话题,为新闻广播媒体的编导等工作人员选题决策提供信息支撑,有效解决传统的新闻广播选题低效、滞后、盲目等问题,激发听众兴趣。
随着社交媒体与移动智能设备的普及,人们发表观点的渠道更广,信息的传播速度也更快。一些不良信息或观点也会快速传播,可能激化社会矛盾,影响大众思想。全面了解社会舆论发展,加强对舆情的监控,了解负面信息的传播,提前做好舆论导向,也是新闻工作者维护社会安定、维护国家长治久安的重要工作。舆情监管可以利用大数据分析技术对舆情热度趋势、口碑、用户观点、负面言论等方面的数据信息进行分析,为新闻广播引导舆情走向提供信息参考。
大数据技术的核心与关键在于对数据的挖掘与分析,通过对大量数据信息收集、处理、储存、分析,对不同的用户采用可视化精准推送,推动新闻广播发展和转型。基于此,新闻广播中可以依托大数据技术构建大数据平台,利用计算机架构,搭建新闻广播热点舆情分析系统。通过探针、爬虫等技术手段,收集新闻网站、微博、移动客户端等各类媒体的数据信息,对数据进行分析,挖掘数据背后隐藏的热点新闻,及时对舆情进行引导管控[4]。
首先,作为新闻广播热点舆情分析系统,对于数据的获取要及时。网络数据信息量大,更新速度较快,数据的收集获取作为系统的基础部分,及时获取热点也能保证话题的时效性。其次,数据的处理要快速高效。时效性是衡量新闻广播质量的重要因素,因此,面对海量新闻,须不断提高数据处理速度,保证热点话题的时效性。最后,数据处理结果要具有准确性。数据处理结果的准确性包括发现热点话题的准确性和对舆情分析的准确性两方面[5]。
根据新闻广播对大数据技术的需求,可以将新闻广播热点舆情分析系统结构分为热点追踪和舆情监管两大部分,总体结构如图2 所示。热点追踪系统的主要服务对象是新闻选题与写作,包括4 大功能,分别是全网热点发现、舆情分析、热点定制以及素材检索。首先,系统可以全网搜索热点事件,为新闻媒体的选题与写作提供热点话题和素材,满足听众对热点事件及话题的关注。其次,通过舆情分析,新闻工作者能更加了解用户对待热点事件的态度。热点定制功能则可以持续追踪用户的关注,进一步了解舆情的发展。素材检索则为新闻内容提供了素材支撑,有效提高新闻生产效率。舆情监管系统包括对全网行业舆情监管、特定行业舆情监管、舆情检索、分析、定制以及账户管理等功能。对全网以及特定行业舆情进行分析,有助于广播新闻媒体及时发现并引导舆论走向。
图2 系统总体功能结构图
基于大数据分析系统,可以将新闻广播热点舆情分析系统功能分为数据采集、数据分析以及数据预处理和数据分析三大功能模板。
4.2.1 数据采集
数据采集功能主要是针对海量数据信息进行采集、下载,包括媒体数据、社交数据、评论数据以及用户画像数据等各类信息。面对大量的数据信息,数据采集需要对其进行筛选。以新闻媒体评论数据的收集为例,媒体评论数据是分析用户观点、情感走势的重要依据。媒体评论数据收集主要针对的是主流新闻媒体站点的评论,评论多位于新闻下方,且只能显示部分评论。对此,可以通过对网页结构代码进行分析,可以通过站点自身的js 请求获取数据。而评论数据js 请求返回格式为JSON 字符串,对该格式数据处理大大降低了难度,至此,再将评论与对应的新闻数据进行关联即可。如图3所示,首先执行新闻列表js 请求,获取滚动新闻列表,并提取新闻id;其次将下载的评论数据与新闻进行拼接,得到完善的信息数据;最后,将数据推送预处理[5]。
图3 媒体评论数据采集流程图
4.2.2 数据预处理
系统收集到的数据信息数量较多,覆盖范围较广,数据质量参差不齐。为保证数据分析更准确,数据预处理功能需要对数据进行筛选、过滤,过滤掉广告信息以及无关的新闻网页。对于剩余数据信息,可以简单地通过标题、关键词等进行简单的分类。与新闻相匹配的评论数据的处理,可以通过情绪关键词,将受众态度进行简单的情绪划分。
4.2.3 数据分析
数据分析模块主要是借助于一些算法和思想,通过机器学习的方法,对预处理后的数据再次进行细致分析。例如,针对热门新闻数据的分析,可以采用文本向量化技术,对已收集到的新闻热点标题进行比对,将相似度较高的且出现次数较多的新闻,从高到低进行排序[6]。再比如,对某个网站的新闻数据进行分析时,可以根据阅读量、点赞量、浏览量等设计专门的计算公式,对站内热门新闻话题进行排行。
大数据技术有效结合了互联网技术和数据采集、挖掘等智能化技术,实现了对数据资源的整合。将大数据技术应用于新闻广播媒体行业,通过对全网新闻、评论等实时数据的收集、处理与分析,构建热点追踪和舆情监管系统,能够为新闻广播的选题、内容生产与管理等提供新思路,满足不同受众群体需求。