付海辰,朱 燕
(1. 唐山学院 计算机科学与技术系,河北 唐山 063000;2. 唐山师范学院 外语系,河北 唐山 063000)
语言学视角下河北官方微博特点及其应用策略研究
付海辰1,朱 燕2
(1. 唐山学院 计算机科学与技术系,河北 唐山 063000;2. 唐山师范学院 外语系,河北 唐山 063000)
摘 要:立足于语言学视角,对河北省官方微博“微博河北”的原创微博文本进行了收集并建立“微博河北文本语料库”。在词汇层、句法层和符号学角度对“微博河北”进行解读,提出“微博河北”在河北省建设中的应用策略。
关键词:微博河北;语料库;政务微博;服务民生
微博起源于美国的推特(Twitter),初始阶段服务仅限于向好友的手机发送文本信息。之后,推出集社交网络和微博客服务的推特服务,用户可以将自己的最新动态和想法以短信息形式发布,但限制在140字符之内。发布的信息被称为“推文”,国内则被称为“微博”,它给世界范围内信息传递的方式带来了革命性的变革。
根据上海交大舆情研究课题组调查数据显示,截至2011年8月1日,仅在新浪微博中,政府机构官方微博就达4 836个,政府官员微博达4 372个[1]。在某种程度上,这显示了地方政府对微博的认可,希望通过多种渠道、不同形式对民众进行政务公开和宣传,并和民众进行交流和沟通。微博也确实在很多方面发挥了积极的作用,如保证了普通民众对法律政策和突发事件的知情权、民众对政府部门的监督权、民众的发言权等。但也存在着一系列的问题,比如微博的更新和回应速度、微博的权威性和公开性、如何有效利用微博为市政建设服务等。
本研究以河北省“微博河北”(河北外宣官方微博)为样本,对自2011年4月创建以来的第一条微博,至2014年10月的所有原创微博文本进行收集,建立“微博河北文本语料库”,运用相关软件对语料库中文本进行量化分析,为总结“微博河北”在语言运用层面的特点提供数据支持。在此基础上进行实证研究,根据“经济建设、政治建设、文化建设、社会建设、生态文明建设”为特征的河北省“五位一体”建设提出改进建议
本研究抓取了新浪微博“政务厅”中河北省外宣官方微博“微博河北”自2011年4月14日建立至2014 年10月以来发布的共4 495条微博,经过语料分类(微博正文、评论内容、转发内容、微博表情符号等分类)、语料整理和去噪处理,分别建立了“微博河北综合语料库”“微博河北正文语料库”“微博河北评论语料库”“微博转发评论数语料库”和“微博表情符号语料库”。
依据语体标记的提取原则,丁金国提出了228个语体标记,“这228个标记分布在三个层面,即语言平面、语义平面和语用平面。各个平面,再逐次分为不同的层级”[2]。课题在语言层面选取了词汇层和句法层中的部分标记进行统计和分析,并对其特点进行了阐释及分析。
1. 词语层面数据分析
政务微博具备独特的语言风格。政务微博在统计学上的特征是根据微博语言表达中的不同语言特征在数量上的表现体现出来的。简言之,政务微博的语言风格在某种程度上体现在语言单位使用的频次上。在计算语言学中,经常使用词的型例比可说明这一特征。词的型例比(type and token ratio)计算公式是词例数(type)和词型数(token)之比。单词使用的总次数是词例数,单词的使用总数是词型数。根据公式可以看出,词的型例比越低,说明语料的词语使用越丰富。
首先,经统计,“微博河北”中的单词总数为24 852,使用总次数为461 646,词的型例比是46 164/24 852=18.58。根据相关研究,作为书面语体的口头表达形式代表的《新闻联播》,其词型例比为2.962,而作为口语体典型代表的《实话实说》,其词型例比为5.541 8[3]。张瑛在新浪政务微博随机抓取的10个政务微博中各100篇的微博建立政务微博新闻语料作为研究样本,通过计算的词型例比为5.557 1[4]。造成这种差距的原因可能在于,无论是《新闻联播》《实话实说》还是这10个新浪政务微博,由于节目的性质或者不同政务微博针对话题的不同,所以基本不存在话题重复的现象。但微博河北是河北省地方性的官方微博,由于其以地方话题为主的特点,因此相较于其他政务微博,词的型例比过高。但另一方面也说明,“微博河北”正文的词语使用还不够丰富。微博河北评论语料库的词型例比为10.62,数值低于微博正文的词型例比数。评论的词汇丰富程度反倒高于微博正文,也说明网友在评论中使用词汇丰富。
其次,微博正文中的分类单词(纯汉字词+带汉字词)总数为27 887,分类使用总次数为443 012。1字词和2字词的使用频率最高,排在三、四位的是324字词。四者相加已达到了总使用率的98.961 8%。有研究表明,口语体中,小于或等于3音节数的词汇平均使用频率较书面语体高。比如,截取微博河北正文的一条,通过切词分析得到下文:“【/w 河北/ns 推动/v 建立/v 京/jns 津/jns 冀/jns 创新/v 共同体/n合作/v 攻关/v 防治/v 大气污染/ln 】/w “/w科学/n 治/v 霾/Ng 要/v 从/p 区域/n 的/u角度/n 来/v 考虑/v 。/w ”/w 省/n 科技厅/n 厅长/n 王/snr 志欣/nr 透露/v ,/w 我/r 省/n 将/d 积极/a 推动/v 建立/v 京/jns 津/jns 冀/jns 创新/v 共同体/n ,/w 开展/v 大气污染/ln 防治/v 重大/a 科技/n 合作/v 攻关/v 。/w ”。整篇微博基本为三字及三字以下词。
再次,因为名词和动词是可以独立表达意思的词类,微博的目的之一就是传递信息,因此这两类词的信息承载量最高。研究按词频为依据,提取了名词、动词前50的高频词后,剔除了在各语域均为高频词的词语,如是、有、为、要等。
微博河北正文中,承载重要信息的名词,按使用频率排序前25位分别为:微博、河北、河北省、石家庄、全省、活动、省委、企业、项目、中国、交通、社会、善行、网络、人民、工程、群众、会议、新闻、北京、保定、张家口、邯郸、秦皇岛和唐山。排序占前20位的动词是:转发、来自、评论、收藏、公布、服务、建设、进行、发展、开展、发布和实施。可见,微博河北主要的发布内容仍集中于河北省和石家庄市的新闻和内容,并在一定程度上辐射河北其他地区和中国。
通过对微博河北表情符号语料库的统计可以发现,共包括166种不同表情,使用总次数为2 034次。使用最多的表情符号为话筒(408次)、赞(130次)、围观(127次)、哈哈(97次)、心(95次)、嘻嘻(94次)、good(92次)。通过分析发现,因为微博河北中很多政策发布等相关信息,因此话筒符号多为政策和消息发布前的固定符号;而其他符号多为网友在读过博文后的评论中出现,赞、围观等表情符号的出现说明了网友对微博河北发布信息的关注和支持。并且,在评论语料库中可以发现,网友大多用形容词表达自己的感想和心情。因为评论词中,二字词居多,所以统计后发现占前五位的二字词为安全、给力、幸福、快乐、不错。这在一定程度上说明网友对河北微博发布的内容是比较认可的。
2. 句子层面数据分析
首先,句长影响着信息传播的经济性。长句多用于书面语体,且包含众多修辞成分,便于清晰描述事件、陈述事实、表达感想;而短句结构简单,包含较少修辞成分,但是意思简单明了,易懂且节奏明快,因此多用于口语语体。经过研究统计,微博河北正文的句子总数是21 573,平均句长为32字。微博河北正文部分多为中等句长(30字至40字),这一结果与其他关于政务微博研究的统计结果相近,但仍略高。由于受字数限制,微博尽量使用有限的句子和句长来提供尽可能充足的新闻内容,且从句子零散程度看,微博河北的句子介于书面语体和口语语体之间。但在微博河北的评论中,句子则更精于短小精悍,言简意赅。
其次,按照所表达功能的不同,句子可以分为陈述句、感叹句、疑问句和祈使句。通过对微博河北正文的分析可以发现,陈述句所占比例最高,这也说明政务微博保证了现代信息传播渠道的畅通,使普通民众对政府和各种政策、措施、日常事物和和突发事件具备知情权。虽然感叹句、疑问句和祈使句带有较浓厚的感情色彩,不是非常符合新闻语体对新闻客观性的要求,但微博河北中也有一定量的使用。
再次,句子的破碎度在书面语体和口语语体中存在不同。破碎度是指“一句话中停顿次数,即一句话的零散程度”。而点号在测算句子破碎度中具有重要作用。黄伯荣和廖序东区分了句末点号和句内点号[5]。句末点号数量显示了微博语料的总句数,而句内点号显示了句中的停顿。句末点号主要包括“。”“?”和“!”,句内点号主要包括“,”“、”“:”和“;”。句子破碎度的计算公式则是句子停顿总次数/语料中总句数。通过对微博河北的切分和计算,4 495条微博正文语料中总句数为21 578句,句子停顿总次数为42 835。因此,句子的破碎度为1.99。已有研究表明,书面语体破碎度为2.6,口语语体破碎度为2.9[6]。因此,微博河北从破碎度角度分析更接近书面语体的。这也在一定程度上证明,不管是在句长层面,还是从句子的破碎度上看,微博河北语体仍书面化,还应更“接地气”,避免过度官腔,脱离老百姓的实际生活。
3. 政务微博多模态分析
多模态话语是人类交流信息的一种方式。作为认知主体的人具有获得交际信息的多种渠道(如视觉、听觉、嗅觉、触觉等),因此在现代媒介和技术的支持下,人类的交流可以通过语言、图像、声音、动作等多种符号资源来完成。多模态的话语分析模式整合了如图像学、符号学、传播学等领域的研究成果。交流不再是单纯的语言文字系统。而在政务微博中,这一信息化的现代交流方式也充分整合了各种交流资源,以更多、更好地方式呈现给普通民众相关信息。比如,在“微博河北”中有一条关于“河北29万居民二代证今年到期、 二代证指纹开录”信息,微博采用图片的方式介绍给网友如何办理二代身份证。又如,在介绍河北旅游景点时,附各种美景图片进行相关介绍。经过对所有数据的统计研究,发现“微博河北”较好地运用了多模态的信息传递方式,充分利用文字、图片、音视频等多种形式,进行相关信息的发布,实现了现代媒介技术下,多种交际符号的灵活运用,用普通百姓喜闻乐见的方式,传递信息并进行交流。
党的十八大报告指出,建设中国特色社会主义,总布局是经济建设、政治建设、文化建设、社会建设、生态文明建设五位一体。根据中央精神,河北省政府在2012和2013年的工作报告中,指出了河北省今后的工作思路和目标,包括京津冀区域经济圈的建立、和谐河北和善行河北的建设、绿色低碳发展等等。
“微博河北”肩负着政务管理功能、公共平台功能和服务民生功能。但作为河北省外宣官方微博的“微博河北”,仍存在一些不足之处,未能全面发挥其在河北省各项建设中的作用。本研究对“微博河北”建设中政务微博的发展策略进行研究和总结,以期更有效地发挥其重要作用。
1.“微博河北”应在“和谐河北”和“善行河北”建设中起到良好的宣传作用
“和谐河北”和“善行河北”建设是河北省政府在新形势下,为更好推进河北省经济、政治、文化、社会和生态文明等各方面的发展所做出的全方位的转型建设。河北省政府对建设的整体规划、发展思路、推进路径、运作模式和可能存在问题等方面进行了多次的研究。作为河北省的重点建设内容,对“和谐河北”和“善行河北”的宣传和建设应该作为政府官方微博的重要推广内容之一。但经过对2011年4月建立至2014年10月以来发布的共4 495条微博的搜索,发现关于“和谐河北”的内容只有33条,“善行河北”的提及312处,且很多还是在同一条微博中反复提到。关于京津冀的内容不足200条,而目前河北省面临的最严重、亟待解决的绿色低碳问题只有8条。这是河北政务微博建设中的需要逐步改进的重要部分。
2.“微博河北”应在清晰、经济表达的同时,更丰富词语的使用
通过对前文词语层面的数据分析,可以发现“微博河北”主要的发布内容仍集中于河北省内新闻,并在一定程度上辐射中国,较关注新闻、文化、民生等内容。这是其值得肯定的部分。但河北政务微博正文的词语使用还不够丰富(词型例比为18.58),较其他省市政务微博(词型例比为5.557 1)仍存在较大的差距。造成这一情况的原因主要有两个方面:一是“微博河北”服务于本省,关注问题类型过分集中。微博内容的集中、过度重复地使用相同的表达,容易让微博用户失去继续阅读的兴趣。建议在关注本地热点的同时,也扩大辐射范围,关注国计民生;二是“微博河北”确实存在用词丰富度不够的问题,说明在文本的编辑上仍应多下工夫。如何在有限的单篇文本里,使用有限的词语数量的同时却使用更丰富的词型来简明经济地表达,是其仍需改进的部分。
3.“微博河北”应努力实现良性互动
笔者通过对句子层面的分析发现,“微博河北”正文的平均句长是32字,在句子的运用和选择上更接近于书面语体。同时,通过Excel建立的政务微博正文词频表,笔者统计了语气词和叹词的使用频次共为1 446,总使用率达到了0.284 8。语气词和叹词是口语体的重要标志。通过对语气词和叹词的词频和使用率的统计发现,“微博河北”正文中对语气词和叹词的使用远远高于其他同类文章中对此的分析数据。张瑛和赵雪在对官方微博新闻语体与门户网站新闻语体的计量对比分析中得到数据,官方微博中语气词和叹词的词频和使用率均为0,门户网站中语气词和叹词的词频和使用率都只有0.001 1[7]。这说明,“微博河北”虽然在句子的使用上虽仍更接近于书面语体,但仍尽力使所发布的内容更加口语化,更接地气,以满足普通民众的需要。这一点是非常值得肯定的,但从语言的层面上,如何能达到句子和词语使用的统一,仍是需要进一步研究的问题。
4. 河北政务微博在多模态运用应更趋于完善
文字、图片、音频、视频等多媒体传播手段的结合,突破了传统媒体单一表现手段的局限性,令微博报道更加具有挖掘空间,角度更加新颖多元化,内容更加丰富且趣味化。这是政务微博应该坚持的方面。但应该注意的是,多模态的运用不是几种表现手段的简单叠加,更不是为了发图片而发图片,为了加视频而加视频。各种表现形式应该服务于总体信息的传递。在对“微博河北”的研究中发现,其多种信息传递方式的结合仍有“为了发布而发布”之嫌,没有实现真正意义上的服务于传递信息功能的结合。并且,提倡多模态的运用,并不等于在各个微博信息中都一定要有多种表现形式,需要的就用,不需要的就不用,其原则是服务于信息的流畅、清晰的表达。
由河北省外宣办建立的河北政务微博“微博河北”,对河北省各方面的建设起着重要的支持作用。在政务管理功能、公共平台功能和服务民生功能等方面都做出了贡献。本文建立“微博河北”语料库并在语言学层面对其进行量化分析,对研究其语言层面的特点并在此基础上进行改进具有重要意义,服务于河北省“五位一体”建设。
[参考文献]
[1] 上海交通大学舆情研究课题组.我国政务微博的现状问题与相关建议[J].科学发展,2011(11):46-50.
[2] 丁金国.基于语料库的语体风格研究——兼论量化与质化的关系[J].烟台大学学报(哲学社会科学版),2009(4):114-120.
[3] 黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27,33.
[4] 张瑛.政务微博新闻语体计量分析[J].沈阳大学学报(社会科学版),2014(8):538-541.
[5] 黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社, 2007:154
[6] 阚明刚.几个语体参数的定量对比研究——以新闻报道和访谈对话为例[J].语文学刊,2011(9):46-54.
[7] 张瑛,赵雪.官方微博新闻语体与门户网站新闻语体的计量对比分析[J].理论与现代化,2014(7):107-111.
(责任编辑、校对:韩立娟)
文学文化研究
The Features of Hebei Official Micro-Blog and Its Application from the Perspective of Linguistics
FU Hai-chen1, ZHU Yan2
(1. Department of Computer Science and Technology, Tangshan University, Tangshan 063000, China; 2. Department of Foreign Languages, Tangshan Normal University, Tangshan 063000, China)
Abstract:The original micro-blog texts of Hebei official micro-blog which is called “Micro-blog Hebei” are collected and the corresponding corpus is established based on the study of linguistics. The “Micro-blog Hebei” is analyzed from the perspectives of lexicon, syntax and semiology. And its applications in Hebei province construction are put forward.
Key Words:Micro-blog Hebei; corpus; political micro-blog; serve for citizen’s welfare
作者简介:付海辰(1976-),男,河北唐山人,硕士,讲师,研究方向为计算机编程。
收稿日期:2015-05-23
基金项目:河北省科技厅软科学项目(14457669D)
DOI:10.3969/j.issn.1009-9115.2015.04.014
中图分类号:H03
文献标识码:A
文章编号:1009-9115(2015)04-0056-04