基于数据挖掘的新媒体信息通信技术科学传播话语分析研究

2020-08-01 01:30王晶
外国语文 2020年3期
关键词:主题词语料库类别

王晶

(重庆邮电大学 外国语学院,重庆 400065)

0 引言

近年来,我国的信息通信技术(ICT)产业高速发展,但我国公民的科学素养与发达国家相比差距甚大,与产业发展不相匹配,这对当下的ICT科学传播及其研究提出了挑战。第四次工业革命使得新媒体成为现代科学传播的重要媒介,然而新媒体中的ICT科学传播文本数量庞大、分布广泛,传统的话语分析方法难以对其展开全面的研究。因此,本研究采用语料库与话语分析相结合的方法,收集2015年1月1日至2016年12月31日之间我国最具代表性的科学传播网站中的ICT科学传播文本,建立ICT科学传播语料库,包含7 276个文本,类符(types)约12.32万个,形符(tokens)约588.85万个。将该语料库文本分为六个类别,并在此基础上展开横向对比话语分析,对比六个子语料库在主题、共现关系、特殊主题词等方面的异同,深度剖析各领域科学传播的侧重点和话语特征,并结合社会语境展开分析,客观呈现ICT的科学传播现状。

1 语料库的分类设计

基于2015年中国信息通信研究院提出的信息通信技术的软科学研究八大领域,我们参照ICT产业流程,将ICT科学传播文本按照以下标准分为六个大类:

1) ICT原理与研发:涉及ICT领域的科学技术原理介绍,科学家介绍,学术前沿,科技活动以及最新科技成果(未量产);

2)ICT硬件及制造:ICT领域已量产的硬件及其介绍,ICT制造业;包含整机设备、元器件、仪器仪表三大领域,其中具体有:集成电路、智能硬件、芯片、元器件、智能手机制造、平板制造、PC制造、机器人制造、Sip封装、封测等;

3)信息网络建设及ICT服务业:包含涉及三个方面的文本:(1)ICT基础设施建设,光纤技术,网络架构,陆缆与海缆建设,网络操作系统,互联网交换中心,数据中心,国际出口宽带,海外POP节点,国际通信网络,骨干网(DNSCNDIDCICPCAP,SDNNFV,Tier1),丢包率,国际通信网络 ;(2)运营商,移动宽带,移动终端,光纤宽带,网络移动数据业务,提速降费,网速流量经营,App掌上营业厅;(3)公众wifi,商业wifi、政府wifi,智慧城市,4G4.5G5G及其网络建设,空天互联网研究(如谷歌气球、facebook 无人机、轨小卫星等),LTE宽带集群,高铁无线通信,频谱管理;

4)互联网及互联网+:包括消费互联网与产业互联网两种,主要关注互联网与服务业或工业相结合的领域。大数据、云计算、开源、云服务、软件与App、可穿戴智能终端(智能硬件)、智能家居、人工智能、机器人、无人车、无人机、基于分享经济的创新企业(涉及教育、医疗、交通、住宿、家政、教育、金融、传媒、印刷出版等),互联网企业或者电商(如:小米、滴滴、腾讯、百度、阿里巴巴、谷歌、facebook、微软)、工业互联网(industrial internet),域名产业,VR/AR,3D打印,手游,等等;

5)网络与信息安全,法律与监管:安全漏洞,数据泄露,病毒和恶意程序,电信诈骗,数据安全,数据保护,网络违法行为,信息传播监管,网络立法等;

6)ICT与人和社会:探讨和反映ICT技术对人与社会的影响,具体体现在辐射/人际关系/情感/伦理/智力/审美/身体健康等方面。

鉴于本语料库的文本数量庞大,纯粹使用人工逐篇分类的方法耗时耗力,因此笔者借助计算机的模型分类器来实现大数据文本的分类。每个类别的文本个数以及各类别在科学传播网站上的分布情况,参见表1。

表1 各个网站的分类分布情况统计表

从分类结果来看,不同类别中包含的文本数量差异较大。2015—2016年最为热门的ICT科学传播话题为互联网及互联网+话题,该话题占据了语料库中58%的文本数量,超过了其余话题文章数的总和。近几年,“互联网”的范畴加速扩张,可以解释这一压倒性的热门话语现象。其中有国家政策导向的推动作用,2015年,国务院出台了10余份以互联网促创新的重要战略性文件,将互联网及互联网+确立为“十三五”时期我国经济增长的重要推动力量,这彰显了互联网在我国创新中的重要载体和核心作用。尤其是2015年7月发布的《关于积极推进“互联网+”行动的指导意见》(国发[2015]40号),更是掀起了“互联网+”发展的热潮。也是在2015年,云计算进入了2.0阶段,基础设施领域的运营能力提升,呈现了向政府、金融等市场大规模延伸的态势。互联网公司的大数据引擎开始为社会和各产业服务,通过整合重构资源,打破了原有的商业规则,在交通出行、房屋租赁、家政、餐饮等领域诞生了一大批基于分享经济的创新企业。分享经济成为当下资本市场上最受欢迎的初创企业。与此同时,人工智能在2015年也取得了里程碑式的进展。脸部识别、无人驾驶、机器学习、云服务等等新科技都逐渐地进入公众的视野,引发了公众极大的兴趣。可以说,2015年的这一系列事件成就了互联网及互联网+话题热的大社会语境。与此相对地,ICT与人与社会、信息网络建设及ICT服务业是较为冷门的话题。

在结束所有ICT科学传播文本的分类工作之后,我们将这六个类别设定为变量之一,随后导入T-LAB软件并将语料库按照类别变量分割为六个子语料库,并展开进一步的横向对比话语分析。

2 基于语料库的横向对比话语分析

社会是语言运用的环境,“认知语境分析”方法主张将话语置于大的社会语境中进行考察,探索语言使用者对语境的认知方式和程度以及这种认知对语言运用的影响。田海龙(2009:29)指出:“社会语境包括机构语境和社团语境,前者体现权力关系,与话语实践的目的相联系,后者体现社会团体的价值取向,与话语再现的意识形态相关联。”将以上的分类结果放置于科学传播的社会语境中,可以充分解释各类别中的文本数量差异现象。

2.1 分类与聚类主题的差异性

本研究首先进行的是基于聚类主题(cluster analysis)的横向对比。文本聚类分析是指在无任何先验知识的情况下, 从下而上的、根据文本内容自动实现文本类别的划分。对于大规模的、高维的文本数据,聚类分析能从大量文本集中发现隐含的知识,为研究者了解研究对象文本,发现研究问题,设计研究方法等提供帮助。图1显示了在设定的六个分类中,各个聚类主题的分布状态。可以看出,各个主题在六大类别中的分布并不均衡,需要特别留意的有以下几个分布:

首先,有关“人工智能”的内容主要分布在第1类与第6类中,这说明科学传播中一方面致力于对人工智能科学原理的介绍,对人工智能的前沿学术展示了极大的兴趣,另一方面也开始反思人工智能与人和社会之间的关系。通过检索“人工智能”一词在第6类子语料库中的前后词汇搭配,可以发现在“人工智能”之前共现频率最高的六个词汇是“人类、未来、强、担忧、发展、担心”,在其之后共现频率最高的六个词是“技术、机器人、发展、取代、人类、系统”。“词语像人类一样聚群”(梁茂成 等,2010:86),在语言运用的横向序列中,一些词总是与其他词共同使用,具有很高的共现频率。以上搭配词汇反映出当下的科学传播文本中对于人工智能的发展关注度很高,因为“发展”一词在其前后都有超高的共现频率,但是在人类与人工智能的关系上,对人工智能在未来对人类可能产生的影响上,语料库反映出人们对此的忧虑,“担忧、担心、取代”都传递出一种消极负面的情绪。

图1 六大分类中的聚类主题分布图

其次,可以看到“量子通信”的主题内容主要分布在第1类与第2类中,而在每个类别中的比重几乎是呈递减的状态分布。量子通信是相对比较专业的学术术语,而我们做出分类的依据是ICT的产业流程,也就是说第1类是纯理论研究和学术前沿,第2类属于将第一类的研究成果进行量产的制造阶段,第3类属于ICT的基础建设和运营商,这是互联网得以实现的保障,第4类是ICT与普通公众融合最紧密的应用产业领域,第5类属于网络安全与监管,ICT产业相关规则制定的范畴,最后的第6类则是ICT技术与人类关系的反思阶段。量子通信是近20年发展起来的新型交叉学科,是量子论和信息论相结合的新的研究领域,能实现安全高效的信息传输,它主要属于基础的理论研究范畴,因此在第1类出现的次数最多,而在ICT的应用和商业阶段,自然占比就越来越低了。

第三, “运营商与监管”这一主题集中出现在了第3类与第5类当中。这与该主题的两个关键词“运营商” “监管”是完全对应的。第3类的分类标准的第二点,就是有关运营商的内容,而第5类的分类标准也包括监管的部分。“网络安全”的主题,最多的也出现在了第5类当中,这也与第5类的另一个分类标准关键词“网络与信息安全”对应。由此可见,文本的主题聚类与分类结果,都具有相当高的精准度,才能在内容分布的分析中呈现如图的一致性。

最后,“市场”这一主题主要出现于第2类与第4类当中。但出人意料的是,“市场”在第2类,即ICT的硬件及制造类别中出现的比例甚至高过了第4类,也就是互联网及互联网+产业。可见当下的ICT科学传播文本中,更多地关注硬件制造业的市场规模及销售情况,这说明对于整个ICT基础产业的市场关注,甚至超过了对与人们生活更接近的应用市场领域。这与我们的预期大相径庭,Baker(2013)曾指出,在聚类分析中,那些与之前对语料库文本的原始预测不一样的语言现象尤其需要引起研究者的重视和解释。这种方法能迫使研究者面对真实的话语文本,能有效降低批评话语分析中的主观性和偏见。新媒体的科学传播话语对我国ICT基础产业而非应用市场的关注,展现了国家对基础理论和基础产业的鼓励和倾斜,为我国科学的自主创新、可持续发展做出了保证。

2.2 各分类子语料库的特殊主题词对比分析

其次,选取各个子语料库中的特殊主题词进行分析。也就是说,将某一子语料库与其余五个子语料库进行横向对比,发现该语料库中出现频率显著高于其他五个子语料库的关键词,这种关键词被称为特殊主题词。T-LAB软件的特性分析功能(Specificity Analysis)可以实现这一对比研究。对于特殊主题词的分析能反映各个子语料库不同的内容关注点。因为“重复的话语结构能证明某种评价性信息不仅仅是个人的判断,也不是乖僻的论断,而是在话语社区中具有广泛的共识。一个单词、短语或句式可以引发一种文化定型(cultural stereotype)”(Stubbs,2001:215)。值得注意的是,特殊主题词不是只出现在某一个子语料库中,也不是某一个子语料库独有的词汇。它可能也出现在其他的子语料库中,但它在其他子语料库中的出现频率显著低于这一个子语料库。

表2 各分类子语料库的特殊主题词分析

通过使用特性分析功能,选取各个子语料库排位前十的特殊主题词进行对比分析,可以客观呈现各个科学传播类别中所关注的重点。Fairclough(1989:25)认为“话语的社会实践性要求话语的生产和解释具有一定的社会条件”。Fairclough(2009)也强调CDA不仅要关注话语符号,更要关注它和其他社会因素之间的关系。我们尝试将这些特殊主题词与社会因素联系起来,充分展示科学传播话语在新媒体这一特殊的语境中如何参与、再现,同时向公众构建ICT这一科学概念。

从表2可以看出第1类的科学传播文本关注的重点在“量子”/“光子”通信以及“计算机”模拟“大脑”“神经网络”进行“学习”的前沿科学技术“研究”上,其中“ALPHAGO”一词值得注意。在2016年初,谷歌研发的围棋人工智能ALPHAGO与韩国棋手李世石进行较量,并最终取得胜利,这一事件受到广泛关注并引发了人工智能可能取代、威胁人类的恐慌和讨论。按照我们的判断,与ALPHAGO有关的科学传播内容极有可能更多地出现在第6类,即ICT与人的关系探讨类别中,但特殊主题词表却显示ALPHAGO一词在第1类的出现频率远高于其他类别。通过检索ALPHAGO的原文索引,可以看出,第1类中与ALPHAGO相关的文本集中探讨ALPHAGO的工作原理与程序细节以及国内人工智能的研究发展现状。这样的科学传播文本抓住了科学热点事件,及时进行相关科学原理的普及,从相对专业的角度对ALPHAGO进行祛魅,帮助公众了解看似高深的前沿科技。有了对ALPHAGO程序原理的认知,公众对人工智能的恐慌自然就不复存在,通过提高公众的科学素养,才是最好的消除谣言、祛除盲信的解药。尤其需要注意的是,ALPHAGO的工作原理属于相对前沿的科技,与ALPHAGO相关的科学传播文本作者大多来自科学共同体,这表现了科学人走出学术圈,融入大众的意愿和行为。由此可见,在如何帮助公众学习认识前沿科技这一点上,新媒体以其自身独有的方式,开辟出一条实际可行的道路。

在第2类ICT硬件及制造中,特殊主题词事实上围绕着两个范畴展开:“手机”与“平板”。在这十个主题词中,出现了三大手机平板的制造商(三星、苹果、华为),根据中关村在线发布的《2016上半年中国智能手机市场研究报告》,这三家占据了目前市场上大部分的份额与关注度,分别是苹果22.2%排在第一,三星以微弱差距屈居第二,为21%,本土品牌华为以15.2%排在第三。其余的是与手机平板性能紧密相关的四个词:“GB” “英寸” “处理器”以及“芯片”。这十个主题词清晰地反映出了第2类别在ICT领域中科普最多的两种硬件。

第3类的核心关注点同样非常清晰,围绕着我国三家“运营商”(中国联通、电信、移动)以及“宽带提速降费”的热点事件展开。可以看出,“流量” “资费” “套餐”都是与提速降费相关度极高的词汇。这一主题成为第3类的内容热点与我国高速的信息化进程有关。

第4类互联网及互联网+领域中,主要的关注点集中在了商业化的领域,“公司”“美元”“投资”“融资”“创业”都是将互联网与其他产业深化结合的思路。随着2015年云计算进入2.0时代,国家发布《关于促进云计算创新发展 培育信息产业新业态的意见》,互联网的发展为国家提倡的万众创业提供了诸多的契机和可能,也使得互联网+产业蓬勃发展起来,成为风险投资青睐的行业。

第5类的特殊主题词展示了一种不平衡的内容现象,十个主题词中,有九个都是与网络与信息安全有关,只有一个词“规定”与法律监管有关。图2显示,十个主题词中,除了“规定”“加密”两个词与其他词汇的关系疏远一些,其余八个主题词的互信值(MI)都较高。可见目前的科学传播对于网络安全的内容关注度更高,而法律监管则涉及较少。近年来,我国的信息通信法律监管工作也取得了重大的进展,“十二五”期间我国制定出台互联网相关法律法规、规范性文件共76部,同比增长262%④;2016年《网络安全法》《未成年人网络保护条例》也相继出台,然而,新媒体的科学传播主体显然对这一些进展关注不够,并未使用过多的篇幅对此进行介绍。

最后一类ICT与人和社会的特殊主题词主要关注的是ICT与人们日常生活中引发“伦理”讨论的一些热点问题。“人工智能”“机器人”以及“家庭”应该指向的是被网民热议的家用机器人的研发与生产,这一企图用机器人取代人类的做法自然引发公众对于伦理和家庭关系的探讨。“武器”和“玩家”指向的是网络游戏,而网络游戏最有可能影响的是自控能力不强的“孩子”的健康成长。据《中国互联网络发展统计报告2017》显示,目前我国“新增网民年龄呈现两极化趋势,19岁以下40岁以上人群占比分别为45.8%和40.5%,互联网向低龄高龄人群渗透明显”。新媒体中的科学传播更多地关注ICT带来的负面的、有争议的影响,展示了公众对这一技术的担忧,同时也展示出新媒体科学传播帮助公众答疑解惑的重要功能。

对以上六个类别的详细分析之后,我们发现,民间网站与第四类的关联度最高,与第一类的关联度最低,而政府网站则与第一类、第六类以及第三类保持着相对高的关联度。这说明民间的科学传播网站最关注的是ICT技术应用,即其商业化的阶段,而对于ICT的原理和研发——即基础科学的兴趣不大。政府科学传播网站的关注点则与民间网站呈现出极大的差异,更注重对ICT领域基础科学的普及(ICT原理和研发、基础网络建设与运营商),并对ICT与人和社会的关系做出思考。对于ICT给人们生活方式、行为方式和思维方式等带来的巨大改变,政府传媒更多关注的不是经济导向,而是其可能产生的伦理影响和社会冲击。从这个方面来说,它比民间传媒呈现出更多的社会责任感和使命感。

3 结语

六个子语料库的聚类主题对比与特殊主题词对比分析清晰地呈现了各个类别中最关注的内容,而对于以上六个类别,民间与政府的科学传播网站也表现出不同的兴趣点与责任感。Habermas(1999)曾说,一个科学化的社会,作为成熟的社会,似乎只有随着科学和技术通过人的头脑而与生活实践相沟通时才能建成。在当下的中国,新媒体中的科学传播话语正是通过与社会语境的紧密结合,充分服务于科学发展和科学普及的需要,展现出巨大的话语欲望和话语潜力。

猜你喜欢
主题词语料库类别
基于语料库的清末民初日源外来词汉化研究
论陶瓷刻划花艺术类别与特征
一起去图书馆吧
《语料库翻译文体学》评介
智能传感器的智慧战略,新技术创造新价值
取消公文主题词的真正原因是什么?
语篇元功能的语料库支撑范式介入
公文主题词消失的原因浅析
选相纸 打照片