微博用户的网络文本分析

2022-05-30 10:48张囡囡
计算机与网络 2022年13期
关键词:特征词博文博主

张囡囡

目前,微博平台已经成为一个重要的发声平台,根据天津市“基于社会网络分析法的网络人士的精准统战研究”的调查成果显示,研究微博用户的网络文本特点,有助于更好地了解民生需求。通过网络收集网络文本数据,将数据进行社会网络与语义网络分析,最后得出天津微博用户具有博文涵盖内容广泛、关注地点相对集中、关注领域相对密集、关注天津的资讯、关注执法事件、关注国际资讯、关注民族荣誉等特点。

以上调查通过网络爬取,获取了250位天津明星博主的博文和评论文本,经过数据清理后,引入了ROST Content Mining System Version 6.0(ROST CM 6)内容挖掘系统对评论文本进行了“社会网络和语义网络分析”。在ROST CM 6的“功能性分析”中选择“社会网络和语义网络分析”,将已分词、去除停用词后的汇总文本导入其中,然后依次生成特征词表、共现语义网络以及共现矩阵词表等。得出,天津博主的博文内容具有的几种特征。

博文涵盖内容广泛

通过共现矩阵可见,中国、北京、天津市、环境、健康、价格、上海、疫情、品牌、大学、音乐、文化、新闻、美食、老师、技术、手机、传统、汽车、科技、广场、天气、微信、官方、经济、成都、美味和医院等词汇出现的频率特别的高,共现矩阵展示了各个高频词之间的共现关系,比如:品牌和训练营之间的共现频次是397次,大学和全指南之间的共现频次是825次,音乐和歌单之间的共现频次是555次,而美食与环境、广场、火锅、牛肉、教程等共现频次也很高。

综合语义网络的特征关联分析可见,博主们关注的因素非常广泛,大致可以总结为7个方面:中国传统文化、天津疫情、美食、大学报考指南、音乐歌单、环境以及汽车等。

关注地点相对集中

通过共现语义网络可以发现,中国、北京和天津市在语义网络中与其他特征词的联系最紧密、共现的频次最高,所以它们是整个语义网络中最核心的3个特征词,这一数据与共现语义网络图也非常契合。词频较高的还有疫情、新闻和老师,由此得出,天津博主关注重点是国家、北京、天津的疫情、新闻和教育。

关注领域相对密集

在网络图中,除了中国、北京和天津市3个词外,还有几个非常重要的节点,包括:价格、科技、美食以及健康等。核心特征词,也被称为语义网络中的“桥”,正因为有这些核心特征词的存在,才能使得整个语义网络互联互通,使不同的博主博文观点之间、不同的评价对象之间实现了紧密的连接,这些核心特征词也就是博主所关注、关心和重视的核心评价对象。所以,天津博主主要关注的领域为价格、科技、美食和健康等。

关注天津的资讯

在收集整理出的105 093条博文中,其中有21 025条有关天津的博文,所占比例高达20 %,由此得知,天津本地博主关注重点是天津本土资讯,在所有博主中,津门巴士、吃在大天津、奏耐天津、奏耐牵线儿、奏耐宁河、文旅天津、卫嘴子研究所、卫小嘴儿、天津张黎明律师、天津一家人日常、天津野蛮生长、天津校园头条以及天津校花等博主专注发布天津的“城事”。

关注执法事件

在收集的博文中,有677条博文与执法相关,其中以DJ阿唐为首的博主发布了大量国外暴力执法和国内法律纠纷的博文,以天津频率为首的博主发布了大量天津地区的违法案例。

關注国际资讯

天津博主在博文内容里涉及到的国家主要有美国、英国、日本、印度等。在有关美国的博文中主要涵盖美国生活、经济、房价、中美关系等内容;在有关英国的博文中,主要是与英国首相、房价、经济相关;在有关日本的博文中,主要包含日本美食、日本趣闻、日本艺术、生活等内容;在有关印度的博文中主要是电影、美食、旅行等。其中提及美国的博文数量最多,以DJ阿唐、哏都地产那些事2位博主发布得最多。

关注民族荣誉

在民族大义方面,以津门咚咚枪为首的博主发布了138篇与中国台湾相关的博文,在各国的疫情新闻中,各位博主表现出了极大的民族自豪感,多位博主回忆了中国近代史,在缅怀过去的同时,抒发自己的爱国之情,并在美国与中国台湾的关系中,表达自己的态度。

猜你喜欢
特征词博文博主
跟着零食博主买拼多多小吃
如果孩子想当美妆博主
第一次挣钱
时尚博主谢慕梓:分享身边的美
基于改进TFIDF算法的邮件分类技术
谁和谁好
产品评论文本中特征词提取及其关联模型构建与应用
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
面向文本分类的特征词选取方法研究与改进
创意折纸小动物