云算力新闻大数据平台研究

2019-11-12 07:33:12徐志强张守先李满江
中国传媒科技 2019年9期
关键词:数据服务算力舆情

文/徐志强 张守先 李满江

引言

百度、腾讯、新浪、网易、搜狐、今日头条等各公司的许多产品提供了新闻的舆情、热点、热搜、快讯、头条、排行等信息,但是每个公司自身的数据来源不同,所以各自的产品服务各有自己的侧重,比如新浪的微博海量数据的优势,其舆情产品舆情通的热点、影响力等基于微博的分析更有权威性。相比,腾讯的腾讯大数据,基于微信公众号等海量新闻数据的分析更为准确。而综合的新闻大数据平台,数据越全面越好,涉及到网站、微博、微信、APP、公众号、论坛等各类新闻渠道,依赖单一数据,数据单薄、分析结果不全面、不准确。数据越全面,分析结果会越准确、及时、可靠、客观。本平台研究如何利用各大数据公司的能力,以单一大数据平台提供服务,通过整合、细分采购、个性抓取等组合情况下,大大降低各新闻单位、政府部门采购大数据舆情服务的成本,并得到更佳的服务。

1.何为云算力

大数据的分析,设计到数据量非常大,需要的计算机处理能力要很强,才能短时间内得到想要的结果。算力,主要指计算能力,如比特币矿机的算力(也称哈希率)是比特币网络处理能力的度量单位,即为计算机(CPU)计算哈希函数输出的速度。本文“云算力”一词,借用“算力”一词,来表达整合各家公司独立的云计算能力到一起,从而形成的基于云端的数据处理能力。

2.平台研究

本平台研究基于各家新闻大数据公司计算能力之上的综合平台,智能化利用各大公司的算力,为新闻单位、政府部门等需要舆情服务的单位,使用单一云平台,就可以发起针对各大大数据公司的数据请求,得到经过智能分析、过滤、排重、本地化、定向处理后的最理想的数据结果,形成最全面、能力最强、最专业、最及时的舆情服务,提供最新新闻、滚动头条、地域新闻、传播榜单、传播路径、趋势分析、热门话题、民生热点、舆情分析、热搜、热词、地域排行、地域热点、热门人物等等不同侧面、角度、地域、领域、群体等分析,涵盖新闻网站类、政府网站类、搜索门户类、论坛社区类、微博类、微信类、新闻客户端类等各类数据源。

2.1 可行性

技术上,本平台依赖于其他公司的处理能力,能选择接入平台的大数据公司,要求有开放接口API,或有数据推送方式。否则就需要自己抓取结果网页后入库。商务上,购买各家公司的大数据服务,并没有在授权上限制在单一平台多次展示给不同的商业用户,从而可以从各家够买数据服务后,综合整理后展示给通过不同账号登录到本平台的不同目标客户,通过多次销售,从而均摊从各个公司购买的数据服务的费用,从而达到以低价格购买高质量新闻舆情服务的目标。

2.2 实施方案

平台的实施,不仅仅是数据的整合,还要涉及到其他几个方面:

(1)各新闻大数据公司现有服务内容及对接:每个公司某些现有的服务,不用处理就可以直接展示给用户,也具有权威性,符合用户的需要。

(2)各大数据公司处理能力对接:根据各公司接口方式,完成各公司数据服务的对接,利用API、网页抓取等方式。

(3)大数据公司处理结果的数据清洗、去重、元数据统一等,合并成一致的数据。各公司的数据定义方式不一致,比如基本信息、日期格式、打分取值范围等等,需要统一格式、去掉重复数据,清洗成一致的有效数据。

(4)各方数据处理结果整合:加权综合、本地化、定向处理等。在展示数据时,用到各公司数据,需要对其加权后整合,并且根据用户需要,去掉无关的地域的数据,只保留用户关心的、当地的数据。

(5)综合调度:如在用户对某项服务发起请求,能按照需要由平台后台分别对各大数据公司同时发起服务请求,再把返回的结果整合后展示给用户。

当然还包括个性化的本地数据的抓取、个性化新闻舆情服务、多租户管理、不同使用单位的数据分离等等。

平台功能举例:如展示某条新闻的传播效果,就要涵盖报纸、网站、微信、微博、APP、论坛、社交网络等多个渠道的传播数据,才能更全面展示一条新闻的影响力、爆发点、时间线等,新闻受众在不同新闻传播渠道上的比重不同、各新闻渠道时效不同,新闻传播表现在不同新闻传播渠道的爆发期、发散期、削弱期、终结期时间段也各异,需要从各个数据平台抓取结果后,通过加权整合形成一个相对完整客观的时间线曲线,同时保存各新闻渠道的时间线供用户参考,各个渠道的点击量、评论数、受众群体的画像等也需要整合,展示成图、表、曲线等方式,提供给用户。

结语

云算力新闻大数据平台在投入上,比各大数据公司的数据分析平台肯定要少很多,数据存储、运算能力等方面,要求都很低,整合出来的理想效果并不差,并且比单一大数据公司的服务还有加强。当然这些依赖于最终用户数量的多少,来分摊各大数据公司的服务费用,并且运营好这样一个平台,开发、维护的工作量也占一定的比例。

猜你喜欢
数据服务算力舆情
多方求解智能时代算力挑战
新华月报(2024年7期)2024-04-08 02:10:56
这个第二不一般
都市人(2023年11期)2024-01-12 05:55:06
卫星通信在算力网络中的应用研究
卫星应用(2023年1期)2023-02-21 06:51:50
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
地理空间大数据服务自然资源调查监测的方向分析
如何运用税收大数据服务供给侧结构性改革
中国商论(2016年34期)2017-01-15 14:24:18
舆情
中国民政(2016年16期)2016-09-19 02:16:48
基于频繁子图挖掘的数据服务Mashup推荐
舆情
中国民政(2016年10期)2016-06-05 09:04:16
舆情
中国民政(2016年24期)2016-02-11 03:34:38