多源信息聚合技术在中国电信江苏公司“舆情云”系统中的应用

2015-04-16 07:50:49江苏电信云计算中心赵勇
江苏通信 2015年2期
关键词:数据量中国电信舆情

江苏电信云计算中心赵勇

多源信息聚合技术在中国电信江苏公司“舆情云”系统中的应用

江苏电信云计算中心赵勇

随着互联网信息技术和移动通信技术的发展,互联网媒体逐渐走进人们的日常生活。每个人既是互联网信息的阅读者,也是互联网信息的提供者和传播者。人们通过微博、论坛、博客等发表自己的看法、转发自己关注的消息、关注热点及自己关心的内容。由此,网络舆论也随之产生。

随着政府对民生的关注以及企业对互联网营销的关注,人们越来越重视网络舆论。开展互联网舆情监测与分析,能够帮助政府和企业在第一时间掌握网络舆情动态、了解网情民意;第一时间发现可能引发危机的信息苗头;帮助企业开展自身口碑监测、竞争信息、行业信息、产品调研、客户调研等活动。

近几年来,越来越多的政府和企业通过自建系统或购买云服务的方式,开展互联网舆情监控。同时他们对舆情系统提供信息的实时性、准确性、易用性提出了越来越高的要求。但实际在使用各类监控系统时,却面临着重复信息过多的问题。特别是当重要事件发生时,许多新闻站点、论坛、微博都在讲述同一事件,无数重复的内容反而淹没了事件的本质。因此多源信息聚合显得尤为重要。多源信息聚合可以将文本信息进行相似性智能判断,并对同一事件进行聚合,能够大大减少数据量,提高系统预警的准确性。

由中国电信江苏云计算中心和北京上元信科技有限公司共同开发的中国电信江苏公司“舆情云”系统,采用了大数据研发团队开发的“多源信息聚合”技术。该技术采用了K-means聚类改进算法,以及由该团队维护的庞大的主题词典和分词分类词典等,并创造性将该算法与各类词典结合起来,借助于中国电信强大云计算资源,既解决聚类准确性的问题,又解决了效率问题。系统经过在线测试,针对一个热点地市一个月20万左右条的数据,单条消息到达时,执行完一次聚类消耗的时间达到毫秒级别。并支持多源信息的聚合,即能够将新闻、论坛、博客、微博、微信等不同来源的数据进行分类和统一聚类。

中国电信江苏公司“舆情云”将“多源信息聚合”技术灵活地运用在系统中,解决了困扰舆情监控人员的多个问题。

重复信息过多问题。通过该技术,将讲述同一事件的舆情信息聚合为一条数据,并给出重复条数,聚合后数据量能够减少2/3。大大减少舆情监控人员查看信息的工作量,提高对重大事件的监控效率。

本地热点事件统计问题。通过信息聚合,对出现次数最多的事件进行权重排序,统计出不同领域的热点事件,及时发现可能造成扩散影响的舆情事件。

垃圾信息过滤问题。舆情信息具有时效性,当该事件首次出现时,可能具有较高价值,当成为热点后,随着时间推移,该消息价值可能降为0,而成为垃圾信息,此时可能利用聚合技术将该事件设置为垃圾信息,由系统自动进行过滤与屏蔽。

“多源信息聚合”技术不仅能够使舆情数据量大大减少,而且随着用户使用时间越来越长,用户提供给系统学习的材料也在增长,将会大大提高系统预警的准确性。因此,中国电信江苏公司“舆情云”受到了用户的广泛认可,目前该系统为江苏全省超过60个正式用户、近百个试用用户提供着舆情监测的云服务。这是中国电信江苏公司在大数据研究上一个有力的尝试,未来中国电信江苏公司还将会在多个领域为客户提供大数据挖掘服务。

猜你喜欢
数据量中国电信舆情
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
电子制作(2019年13期)2020-01-14 03:15:18
中国电信:IPv6在线用户已超千万 年底将完成端到端服务能力
舆情
中国民政(2016年16期)2016-09-19 02:16:48
舆情
中国民政(2016年10期)2016-06-05 09:04:16
舆情
中国民政(2016年24期)2016-02-11 03:34:38
中国电信载波聚合终端技术发展探讨
移动通信(2015年17期)2015-08-24 08:13:16
微博的舆情控制与言论自由