利用新媒体数据资源进行科普舆情的探索

2014-11-26 08:52:40胡熳华韩显男
中国科技论坛 2014年8期
关键词:信息提取分类

胡熳华,王 翀,韩显男

(1.中国农村技术开发中心,北京 100045;2.浙江农林大学,浙江 临安 311300;3.中经社控股有限公司,北京 100053)

1 科普宣传及新媒体

1.1 科普宣传

科普宣传是利用公众易于理解、接受和参与的方式来更好地普及自然科学和社会科学知识,在传播科学思想的同时更好地弘扬科学精神和推广科学技术。科普宣传的根本目的是促进公众理解和掌握科学技术,提高科学素质。科普宣传的内容和时间比较自由,可以随时把最新科学思想和最新科技成果向公众传播。科普宣传的形式多样,途径灵活,因需施普,科普是具有群众性和参与性的。因此,作为传播信息的介质媒体在科普宣传过程中起到了至关重要的作用。

1.2 新媒体舆情分析

随着新一代数字技术、网络技术、信息技术的发展和应用,承载信息介质的物质形态发生了革命性的变革,信息传播途径由报刊、户外、广播和电视等传统媒体衍生出了新技术支撑体系下的新媒体[1]。微博、微信、数字杂志、数字报纸、移动电视、网络、触摸媒体等一系列新媒体的出现在迅速地改变着信息世界的接发方式。以微博为例,其设计理念是引导人们关注他感兴趣的“人”,并与其建立“关注”与“被关注”的关系。人们在微博平台上,围绕包罗万象的话题,建立起由“人”汇聚成的社区,并在社区里相互分享信息、新闻、创意和观点。微博具备了信息传播迅速及时、传播面广、反馈速度快、不受时空限制、传播行为个性化等优势。科普宣传利用微博短小、及时、点对面的宣传特点,微博圈内的每个人都成为科学精神宣传的小喇叭[2-3]。在科普宣传过程中,也可以通过建立主题微博圈,开展微访谈等多项微博活动。这些丰富多样的创新模式可以更加广泛地、系统地、高效地、全方位地宣传贴近基层和百姓的科普活动[4-5]。

基于受众广泛性和参与深入性的特征,将新媒体应用于科普活动中会产生巨大的影响。同时,由于新媒体使得传媒走向了基于数据库的网络运行平台,如何充分挖掘数据信息反作用于科普宣传,便成了舆情研究的重要课题。

目前国内较为权威的观点认为,“舆情”是由个人及各种社会群体构成的公众,在一定的历史阶段和社会空间内,对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、意愿、态度和意见交错的总和。天津社会科学院舆情研究所的刘毅认为:网络舆情是通过互联网表达和传播的,公众对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、态度和意见交错的总和[6]。

舆情分析需要将定性分析与定量分析相结合,充分利用人工分析和软件的应用,对网络言论进行挖掘和剖析,了解公众舆论走势与心理偏好。微博作为互联网传播方式具体形态之一,微博的舆情反馈对工作的顺利开展具有重要意义。同时,通过实验、示范、培训、交流、服务,把科普与社会生活、生产实践结合起来,可直接为社会和经济发展服务。根据社会和经济生活中的热点问题开展科普是当前有效的、比较流行的方式,因此科普的社会性是显著的,科普与人文科学相结合、突出对人的关爱是科普形式发展的又一新趋势。

2 舆情分析技术:文本挖掘

文本挖掘又称为文字知识发现 (Knowledge Discovery from Text,KDT)或是文件信息勘探(Document Information Mining),特别着重于利用信息检索、信息萃取、计算语言学、自然语言处理数据挖掘等技术,自非结构或半结构的文字中挖掘出先前未知、隐含而有用的信息,Dan Sullivan(2001)定义文本挖掘为“一种编辑、组织及分析大量文件的过程,为了提供特定用户特定的信息,以及发现某些特征及其间的关联”。

在对文本数据进行分析之前,需要对文本原始数据进行预处理,以排除原始数据中的一些无用或冗余的信息。最常用的方法有分词技术与词干提取。分词 (tokenization)是将一段文本划分为多个词项,并去除文本中不表达任何语义信息的停止词 (stop word)。停止词指文中出现频率较高,但是对确定文本主题几乎没有用处的词,如英文文本中的a、the、that和中文文本中的“的”、 “是”、 “得”等。词干提取(stemming)指去除单词的词缀,以得到单词最一般写法的过程,如将英文单词复数“boxes”还原为单数“box”,或者将动词的不同时态还原,如“stopped”还原为“stop”等。词干提取可以避免同一个单词的不同表示形式对文本分析的影响。

对文档进行分词和词干提取处理后,得到表示该文档的一组词项称为词袋 (bag of words)。各种文本挖掘任务可以对提取的关键词、标记或者语义信息进行,包括文本聚类、分类、信息提取、关联分析和趋势分析等。

2.1 基于关键词的关联分析

基于关键词的关联分析输入的是文档中关键词或词的集合;此类分析收集频繁一起出现的关键词或词汇,然后找出其关联或相互联系。关联挖掘过程有助于找出复合关联 (compound associate),即领域相关的术语或短语,或非复合关联,如[美元,股票,交易,总额,证券]。

2.2 文档分类分析

文档自动分类是文本挖掘的重要任务。文档分类已经用在自动主题标记、主题目录构建、文档写作风格识别,以及对与文档集合相关联的超链接分类中。

2.3 文档聚类分析

文档聚类是无监督方式组织文档的最关键技术之一。最著名的聚类技术主要包括光谱聚类、混合模型聚类、使用潜在语义标引聚类和使用保持局部性标引聚类。其中,光谱聚类方法首先对原始数据运行光谱嵌入,然后对维度归约后的文档空间运用传统的聚类算法。光谱聚类表明了处理高度非线性数据 (数据空间在每个局部区域都有比较高的曲率)的能力。与微分几何学的紧密联系使它能够发现文档空间中的流形结构。

2.4 综合趋势和效果分析

通过对挖掘得到的信息进行综合分析和评价来预测和评估舆情态势。综合评价是对总体中每个个体多方面特征指标的综合比较,其基本方法是将反映每个个体的各个方面特征的多个指标综合为一个可概括全面且便于比较的综合指标,以反映其综合水平。若将每个个体的综合指标值按大小顺序排队,则可得到每个个体综合发展水平的顺序名次,为综合评比提供了客观依据,也能综合反映舆情的关注热点排名及趋势。

3 实证研究:利用文本挖掘方法对“科技列车青海行”科普微访谈宣传的舆情分析

3.1 数据来源

本文所使用的文本信息为2012年“科技列车青海行”的新媒体数据资料。文本信息参与源类别为:“科技列车行”官方微博、三个支持单位官方微博和参与人员个人微博组成。其中,“科技列车青海行”微博活动的参与人员共有61人,占本次活动总人数117人的52.14%。工作人员、记者、农业专家及科普专家开通微博的人数占各类总人数的百分比均超过50%。在各类专家中,农业专家开通且使用微博的人数比例最大,达到了65.22%。由于医疗专家的职业特殊性,开通并且发布微博的人数占医疗专家总人数23人的17.39%(见表1)。

表1 “科技列车青海行”微博活动的参与人员统计表

文本信息质量和数量方面,所有科普活动参与人员在发布微博时都坚持“客观、真实、准确”的原则,文明上网、理性发言。截至2012年5月30日,科技列车青海行微博圈中61位参与人员及3个微博支持单位共发布微博920条,连同网友共发布微博1200多条,“科技列车行”官方微博听众达35000余人。

3.2 科普微访谈舆情效果的综合评价

微访谈是利用微博进行科普宣传活动的一个重要内容,体现出了科普宣传与时俱进、敢于创新的思路。活动期间,科技部中国农村技术开发中心邀请了14名列车行专家和相关领导,围绕科技列车行回顾、农居抗震、两弹精神、日常保健、农户储粮等主题开展了5场微访谈,有针对性地与网友开展互动话题。为了能够更好地比较这五次微访谈的舆情和效果,采用综合评价的方法进行测度。

(1)构建科普微访谈效果评价指标体系。评价指标体系的构成是进行综合评价的首要环节。选取评价指标体系应以综合评价的目的为依据,对所要考察的总体按评价的目的将所涉及的各方面指标进行收集,并筛选出最重要最具有代表性的若干个指标组成综合评价的指标体系。

根据评价目标和数据可得性,通过对微博文本信息的分析将提问问题的数量、对问题的评论和转发数量、专家回答问题数量、对回答评论和转发数量这四个指标作为测量维度。同时,采用总和合成法建立综合评价模型。

(2)各评价指标无量纲处理。对评价指标体系中各个观测指标的无量纲处理,就是通过某种变换将各个观测指标的计量单位消掉并使其数量级统一的变换过程。本文采用规格化变换方法来对各指标原始数据进行处理:

设xij为第i场微访谈的第j个指标,其中i=1,2,3,4,5;j=1,2,3,4。记观测变量 xj在每个个体上的最小观测值为xmin,最大观测值为xmax,则规格化变换公式为:

经过规格化变换,消除了观测变量的计量单位,变换后的指标值均在0和1之间。

(3)权数的确定:层次分析法。层次分析法是美国运筹学家T.L.Saaty教授于20世纪70年代初提出的一种定性和定量相结合的多目标决策方法,它把一个复杂问题分解成若干组成因素,并按支配关系形成层次结构,然后应用两两比较的方法确定各因素的相对重要性,然后计算各因素的权重,并以此为基础实现排序。层次分析法简便、灵活而实用,是一种系统化、层次化的分析方法,它为复杂评价问题的决策和排序提供了一种简洁而实用的建模方法。

首先建立评价指标体系中各指标之间相对重要程度的判断矩阵,设该判断矩阵为A,则有A=(bij)m*m,其中元素bij为评价指标,zi对评价指标zj相对重要程度的比例标度,一般采用评分规则为:

若指标zi与zj同样重要,则取bij=1,bji=1;

若指标zi比zj稍微重要,则取bij=3,bji=1/3;

若指标zi比zj明显重要,则取bij=5,bji=1/5;

若指标zi比zj强烈重要,则取bij=7,bji=1/7;

若指标zi比zj极端重要,则取bij=9,bji=1/9;

若指标zi与zj比较,二者的重要性介于上述各相邻判断之间,则取bij=2,4,6,8;bji=1/2,1/4,1/6,1/8。

可将各个评价指标的重要性权数用一个向量表示,向量 W=(w1,w2,...wm)T,该向量是判断矩阵的特征向量。

设向量V为判断矩阵A与特征向量W的乘积,即:

得到计算结果见表2。

表2 层次分析法计算结果

因此,判断矩阵的最大特征根λmax值为:

判断矩阵的一般一致性指标CI为:

平均随机一致性指标为RI=0.90,则判断矩阵的随机一致性比率CR为:

所以可认为判断矩阵满足一致性要求,故所求出的评价指标权数是合适的。

(4)计算综合评价指数值。加权总和合成法是用加总求和的方法将无量纲化后的各个评价指标合成为一个综合指标。计算公式为:

通过计算得到这五次微访谈的舆情效果综合得分,对得分按照从大到小的顺序进行排名,具体数据及结果见表3。

(5)微访谈舆情效果分析。结合综合得分可以看出,关于“原子弹与脊梁”专题访谈得到了最多的关注度,网友共提出了26个问题,专家有针对性地回答了12个问题,回答问题率达到了46.15%。“农户储粮技术、杂粮营养和加工技术”的微访谈关注度排名第二,在网友提出的18个问题中有12个问题是关于农业方面的技术知识,专家的回答率在五个微访谈中是最高的,达到了66.67%。

以网友提出问题的内容进行分类,可以将问题分为技术类、政策类、支持条件类、“科技列车青海行”活动的信息类及其他共五大类。通过计算得到五次微访谈中不同类别问题数量占问题总数的百分比,具体数据见表4。

表3 综合评价表

表4 微访谈信息类型分类表 (单位:%)

4 启示与建议

4.1 可以跨时空、全方位、多角度宣传科普活动的动态

微博圈里每个人在第一时间报道活动内容,第一时间反馈网友提问,第一时间交流团队内部信息,进一步提升这次活动与大众的互动性,搭建了一个跨时空的新媒体科普服务平台。微博圈的宣传也远远超过了预期目标,它可以进一步提升科普活动与大众的互动性,搭建了一个跨时空的新媒体科普服务平台[7]。同时,通过微博中的图片可以直观了解活动情况、知识图解等内容,更好地理解所传递的信息,增强了科学普及效果。

4.2 提供了与科普工作者进行信息沟通和交流的平台

通过建立“科技列车青海行”主题页面并向网友推荐促进了微博圈的形成,将专家及参与人员 (专家、记者、工作人员等)的个人微博纳入并组建“微博圈”,发挥整体集群效应,使专家、网友、媒体记者、工作人员等紧紧联系在了一起,每个人既是信息的发布者又是信息的接收者,以点对面,使活动组织者在第一时间了解各位专家开展服务的进展,大大增进了活动参与者之间的信息沟通与情感交流。

4.3 扩大了科技服务和科学普及的范围

微博点对面的多级放大传播方式突破了以往专家一对一、一对几传授知识的局限,通过微博这一新媒体跨时空、跨地域地传播科普知识,扩大了科技服务和科学普及的范围。另外,参与者在发布微博的同时还能上传图片,在普及科学的同时也使受教者能够通过图片直观地了解活动情况、知识图解等,能够更好地理解所接受的信息,增强了科学普及的效果。

[1]王元,许晔.迎接“第五媒体”重大技术变革的挑战[J].中国科技论坛,2010,(6):5-8.

[2]许晔.微博正在改变世界的创新应用[J].中国科技论坛,2012,(8):23-27.

[3]郑婧伶.公安微博的功能与角色定位[J].传媒:MEDIA,2012,6:73-74.

[4]张光斌.科普期刊的微博内容分析及其应用研究——以新浪微博为例[J].科技与出版,2012,6:106-109.

[5]廖金宝.微博辅助思政课教学的实践探究[J].恩施职业技术学院学报(综合版),2011,23(3):21-23.

[6]刘毅.网络舆情研究概论[M].天津:天津人民出版社.2007.

[7]曲彬赫,冷盈盈.新媒体时代的科普信息传播[J].科协论坛,2011,3:46-48.

猜你喜欢
信息提取分类
分类算一算
垃圾分类的困惑你有吗
大众健康(2021年6期)2021-06-08 19:30:06
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
改正通告检查中若干问题的分析研究
航海(2017年1期)2017-02-16 20:06:02
改正通告检查中若干问题的分析研究
航海(2017年1期)2017-02-16 17:23:40
改正通告检查中若干问题的分析研究
航海(2017年1期)2017-02-16 17:16:03
享游景区服务系统的开发和研究
Excel函数在学生日常管理中的应用