杨丽英
(山西大学商务学院信息学院太原030031)
基于微博信息的舆情语料库构建与应用研究*
杨丽英
(山西大学商务学院信息学院太原030031)
随着互联网技术的成熟以及Web的飞速发展,微博,微信等社交网络已经成用户情绪反馈、情感沟通的重要舆论渠道,因此社交网络舆情的分析处理成为国内外研究热点之一。针对微博内容以及在线评论进行语料收集和初步整理,构建微博舆情语料库,并且对语料库的应用方面进行了探讨。.
微博文本 舆情信息 语料库构建
随着我国民主化进程的推进,国内外发生的一般或重大突发事件,都能够在互联网上引起绝大多数网民的持续关注,公众对某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点形成一定的舆情。因此,网络舆情已经成为影响社会治理的一支重要力量。网络舆情是主要通过微博,BBS论坛、新闻跟贴、转贴,微信公众平台等实现并加以强化。对微博舆情的研究不断扩大,有情报学方面的研究,也有计算机语言处理方面的研究。
语料库和词典作为自然语言信息处理方向重要的基础资源,与信息技术之间有着相辅相成的关系。中文语料库经过近几年的发展,在建设与应用方面都做了大量的工作。同时,由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。这就意味着传统的语料库已经不足以应付现在的理论研究,传统的研究方法在短文本分类上也体现出缺陷和不足[1]。而大规模的短文本语料涵盖了人们对各种化会现象中的各种立场与观点,因此在舆情调查、热点话题题的挖掘发现、新词发现、话题识别等领域有着重要的应用前景。所以,微博舆情语料库的构建对于信息处理领域是一个十分重要的研究方向。
本文针对各种专业短文本语料库和通用短文本语料库的缺少,构建小规模的微博舆情信息实验语料库。通过新浪API获取微博短文本数据,搜集微博信息。并对语料库进行一定的加工处理,如分类类别、主题和内容建模构建等工作。最后,对构建的语料库应用进行探讨。
1、微博及微博舆情含义
微博,又称微型博客,是一个基于社交网络关系的信息获取、分享和传播的平台。用户以140字(含标点字符)为限更新信息,以互联网和关注机制为基础,实现信息的即时发布和快速传播。
微博舆情是指个人或者各种社会群体、组织,通过微博平台对自己关心或与自身利益紧密相关的各种公共事务所表达的多种情绪、态度和意见的总和[1]。一系列如“山东疫苗案”、“魏则西事件”以及“南海仲裁案”等微博舆情事件,若不能及时被识别和引导,将会对网络环境甚至社会稳定造成严重危害。
2、建设微博舆情语料库的意义
微博等社交网络已经成为媒体传播、信息发布、用户情绪反馈、情感沟通的重要渠道,越来越多的用户喜欢发布微博来分享他们的观点和情感,庞大的用户群以及由此产生的海量信息蕴含着巨大的社会价值和商业价值,同时也为自然语言处理研究带来了新的机遇和挑战。
微博舆情语料库的建立是适应城市信息化建设的需求。第一,通过该语料库可以尽早地、准确地、全面地掌握微博舆情发生情况和发展趋势,为相关政府及时采取应急措施以及引导舆论方向等提供科学决策依据;第二,为计算语言学等自然语言处理关于微博信息的研究提供语料资源。
1、微博舆情语料的收集
本文研究的微博语料库,选取新浪微博内容作为原始标注语料,相对于其他语料库,本文微博语料文本的选择原则是所属领域无关,事件分布面广。在选取的过程中从2016年1月至2016年12月,共12个月的数据中进行随机选取,同时每个月选取的微博数量大致相同,结合人工处理,留下格式较为规范的微博作为原始标注语料
对于挖掘处理、数据分析,自然语言处理而言,数据的提取都是首要一步。数据抓取技术目前有很多,主要的web数据抓取技术[2]有:
(1)基于API进行数据采集,一般来说,各网站提供的API的语言支持有多种类型,如Java Script API、C语言python script API等,同时包含的类别丰富,每个类别的使用方法和属性都有详细的文档介绍。目前,提供网络接口API来共享数据的形式也成为数据共享的一个典型代表;
(2)网络爬虫,爬虫技术能够智能的提取并挖掘网络数据,网络爬虫的工作原理是通过程序获取页面的源文件,然后采用其中一个URL作为起点再逐一的获取各网页上的数据内容,即通过从某一页面捕获数据的同时也获取页面上的其他链接。然后重复之前的操作过程,直到将所有的网页都抓取完成。
本文通过新浪API提供的各种接口结合网络爬虫获取短文本微博数据。
2、微博舆情信息分类原则
分类对于语料库建设来说是必不可少的一部分,对每篇文档进行类别标注首先要规定整个语料库的类别。本语料库分为9个类别:娱乐、体育、政治、科技、音乐、房产、环保、医疗健康、其它等。
3、微博采集内容
以新浪微博作为研究平台,分析知微博中的信息主要划分为两大类:一类是用户信息,另一类是微博信息。其中,用户信息主要包括用户所在地,用户拥有粉丝数,用户所发微博数,用户的认证类别;微博信息是指微博用户发表的一篇微博的信息集合,包括微博正文、微博属性信息、微博引用信息。其中微博的属性信息包括微博发布时间、发布渠道、微博转发及评论次数;这里发布渠道指发布微博的各类终端,包括各类手机客户端,计算机网页客户端,例如:iPhone,Android等;转发次数为数字表示,记录的是该微博被直接转发的次数;评论次数也是数字表示,是针对该微博发表评论的用户数目;微博的引用信息是微博引用的原始微博项的信息,包含被引用微博的除时间和发布渠道外的其他信息。具体内容如表1所示。
表1 微博内容
4、微博舆情语料编码
编码是对信息进行分类标引和检索的工具,本文的编码从微博特点和语料库两方面入手,并参考了《中文新闻信息分类及代码》以及人民日报语料库编码规则[3],以方便计算机检索、计算和管理。
一篇微博信息的完整编码为:类目编码+微博编码,全部代码共12位,具体为:分类号(1位字母)+日期编号(8位数字)+微博编号(3位数字)。例如:编号为A20160314000的新闻语料。它表示娱乐类(A)中微博,发布时间是2016年3月14日,文档编号000表示是此事件的第一篇微博。
5、微博舆情语料的加工处理
微博语料的加工处理数据的预处理需要进行分词,词性标注,采用已有的分词工具进行,还需要清除网页上的噪音数据,例如:用户账号:表情符号,URL,最后通过进行词频统计,去除停用词等。具体过程如图1所示。
1、微博舆情话题识别和追踪方法研究数据支撑
根据微博舆情语料库,可以构建话题模型,调整话题特征项,进而对突发事件进行在线识别;可以训练文本识别模型,从自动学习和统计规律等研究。另外,语料库的构建可以为推荐系统、信息挖掘系统、智能决策系统、检索工具等提供第一手数据资料和实践基础。
2、微博舆情语料库在城市智能信息研究中的应用探讨
作为一种尝试,在My Eclipse平台上,采用Java语言,建设微博舆情话题识别和追踪平台,通过语料库的实现了:用可视化的方法实现了数据的获取;并且通过微博舆情话题和追踪平台进行微博舆情监测,获悉微博舆情的发展,进行有效引导、掌控其发展态势,引导微博热点话题的走向,及时发现微博舆情危机,最大程度减少社会负面影响,缓和微博舆情不良形势,稳定社会安全,促进我省和谐社会的建设和发展
本文以微博舆情信息为背景,把中文信息处理技术、智能信息检索与机器学习方法结合在一起,研究了微博语料库的组织、加工处理方法、分类体系和编码等内容。研究结果对语料库的建设、以及为相关政府及时采取应急措施并引导舆论方向等提供科学决策依据。
[1]李明德,张宏邦.微博舆情:模式、表征与趋势[J].情报杂志,2013(7):49-53.
[2]吴文岫.短文本分类语料库的构建及分类方法的研究[D].安徽大学,2015.
[3]俞士汶,段慧明,朱学峰,等.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64.
[4]陈向阳,陈丽萍,姜振国.基于API接口的腾讯微博数据挖掘[J].现代计算机(专业版),2015,09:47-50.
[5]黄斯琪.基于微博平台的社交网络舆情分析方法[D].南京邮电大学,2015.
[6]莫祖英.微博信息研究热点分析[J].图书馆学研究,2015,06:2-8.
Research on the Establishment and Applications of Public Sentiment Corpus Based on Micro-blog Information
Yang Liying
(Information Faculty,Business College of Shanxi University Taiyuan 030031)
With the rapid development of Internet technology and Web,micro-blog,WeChat,etc,social networks have become an important source for public users emotional feedback,emotional communication.The social network public opinion analysis has become one of the hot research both at home and abroad.In this paper,according to the micro-blog content and online reviews,collection and reorganize data,build micro-blog public opinion corpus,discuss the application of the corpus.
Micro-blog textPublic sentiment information Corpus construction
G206
A
161103-7411
1、2015年山西大学商务学院科研基金项目《面向微博高校网络舆情热点话题识别方法研究》(2015010)
2、2016年山西省重点研发计划项目《微博舆情话题识别与追踪方法研究及平台构建》(201603D321112).
杨丽英(1982~),女(汉族),山西省太原市人,山西大学商务学院教师,硕士学位,研究方向:计算机应用技术。