喻国明+马思源
舆论是“社会的皮肤”,是反映社会形势的晴雨表。而舆情分析是根据特定需要,针对社会舆论问题对于相关数据进行深层次的思维加工和分析研究,得到相关结论的过程。网络是当下社会舆论的主要载体之一,在互联网时代,尤其是移动互联网时代,大数据及大数据分析技术为舆情分析和研判提供了全新的资源、方法与范式。
从总体上说,现阶段网络舆情分析的基本框架为:信息采集、热点发现、热点评估与热点跟踪和分析处理(见图1)。
由于网络舆情数据存在着海量、多维度等特点,舆情数据的深度价值挖掘一直是这一领域发展的瓶颈之一。近年来,人工智能技术的兴起与实用化,为我们借助于人工智能实现网络舆情分析的自动化、智能化、精准化提供了新的手段和路径。为此,一些研究者也做出有益的探索,如使用小波分析分解舆论发展过程,再利用人工神经网络进行建模预测舆论走向;使用神经网络仿真模拟舆论发展过程;使用灰度预测和模式识别预测舆论走势等。
本文试图在梳理舆情研究的現状与特点的前提下,探讨在现有技术条件下,网络舆情分析的实践范式存在的缺陷与不足,而人工智能技术可以为网络舆情分析带来哪些有应用前景的改变。
人工智能提升网络舆情分析能力的环节
现阶段网络舆情分析的不足可以主要归结为“人机不协调”的问题。在应当使用机器进行学习和处理的权重配比、走势预测、情感分析、效果检查上,现实应用显得机械、浅层次;而在应当使用人工进行分析的特征维度划分、对策建议提供上,现实应用又显得粗糙、重复,且机器对人的辅助不够有力,分工协同的模式还不成熟。
得益于数理算法和计算机科学的发展,人工智能时代的机器学习能力日益增强,这为网络舆情分析领域实现自动化、精准化、智能化创造了新的契机,而实现新要求的关键点在于切实实现网络舆情分析领域中的人机互动与双向协同。
1.数据预处理环节:特征的人工识别与机器匹配的协同。
在互联网的社交网络中充斥着非结构、半结构数据,数据库需要为这些数据提供合适的存储标签,方便分类和调用。在数据特征分类上,人的作用至关重要。完全依赖无监督的学习,不仅需要大量数据拟合,而且速度慢、容易产生偏差。因此,在最初的特征分类中,可以由人工尽量设计较细的分类,此后通过信息增益等算法,经历半监督式机器学习的训练,在分类环节可以去除影响力较小的部分,留下影响力较大的部分,在机器能力支撑下建立合理的特征维度数量,并赋予权重。这种特征的构建方式更能体现舆情信息的原貌,对现实的解释力更强。
2.热点发现环节:话题预测的机器提示与人工选择的协同。
人工智能是建立在数理模型和计算机支持上的一种应用,其内核依赖因果逻辑和概率统计。即使人工智能可以自动探索不同事物之间的关联,它判断是非的方式只能是:第一,A能推导出B,或不能。第二,根据以往经验,某事件有多大的概率会发生。所以,想让人工智能做出正确的判断,要么存在必然的因果逻辑,要么有足够的案例用以辅助统计。
然而,现实生活中有许多事物并不真正按照因果逻辑运行。很多情况下,人工智能需要依靠概率预测事物的走向,但又不是任何事情都有足够的先例可供学习。
对舆论的预测很难按照因果逻辑执行,想做到准确预测只能先依靠足够多的、已完结的舆论话题作为机器学习的对象,寻找它们概率上的特征。凭借之前的这些经验,将有可能产生重大影响的舆论在萌芽期识别出来,并设计回应办法。即便如此,机器也不可能完全精准地预测舆论,在一定范围内的预测建议中,需要人的智慧进行分析判断,找出真正存在进一步发酵可能的舆论。同时,这样的人工选择行为需要完整的记录,作为机器进一步学习的训练集,以供下一次舆论预测参考。这种人机互动的模式可以提升机器学习的能力,使人工智能逐步达到更高水平,更加智能地为人提供辅助。
3.对策分析环节:专家库的经验及其量化。
技术领域公认,操纵机器进行情感分析,比事实分析要困难得多。机器可以通过分词法、训练集的反复训练学会分析句子成分、找到陈说的事实,但对于微妙情感的辨析、反讽修辞的运用,机器极难进行判断。鉴于此,在对舆论进行整理、分析和预测的过程中,人工智能对于事实的理解能力可以提升到与人类比肩的程度,但对于舆论的情感判断,机器恐怕很难达到人类的理解高度。
在互联网时代,情感是一种十分重要的逻辑,许多互联网事件的发酵、扩散,背后都有情感诉求的影子,有时情感诉求甚至超出理智诉求,成为左右舆论极其重要的一个因素。因此,在舆情分析的对策环节中,梳理的事实可以由机器提供,但对策建议始终要依赖专家的经验。当然,对专家库中的经验予以量化,可以为类似舆情再出现时提供辅助建议,逐渐使机器的智慧能为人类提供更高水平的咨询意义上的帮助,乃至应对一些常见的、并不新颖的舆情危机——而这类舆情危机通常占危机发生总量的80%以上。
人工智能条件下的网络舆情分析新范式
人机互动是人工智能应用于网络舆情分析的重要逻辑,结合现有网络舆情分析模式与流程,以及每一环节的技术支持情况,我们提出人工智能技术支撑下的网络舆情分析的新范式。即遵循从现实问题,到量化建模,再到探索结论的基本方向,并在每一详细环节中遵循人机互动与协同的原则,对人工智能技术加以有效应用(见图2)。
应该说,人工智能的实现,得益于科学界量化整个世界的尝试。科学界试图构建模型来表达纷繁复杂的客观世界,并得到了许多成就。这些成就在一定程度上鼓励了“计算主义”哲学的发展,信奉计算主义的人认为世界在极大程度上是可以被量化的,因此,人工智能才能够比我们想象的更接近人类。显然,这种信仰并不代表真理,相反,有更多的学者质疑,我们的世界中不能量化的问题远远多于可以量化的问题。现代经济学、社会学、政治学的一些研究也表明,不同于自然法则,在人为世界中,人的复杂程度远超过人类自己的想象和技术可以完全把握的能力。
因而,唯有人和机器相互促进,人的创造力才能被释放,而非被科技所奴役。人类凭借本身的经验、判断和天赋提出新的理论,解决问题的框架,而人工智能强大的数据处理能力和逻辑演绎能力可以为这些新颖的想法提供验证、修正或否定。人机互动的视角不仅对人工智能条件下的舆情分析具有启示作用,对所有社会科学而言,人机互动也可以成为普遍遵循的解决问题的模式。
参考文献
1.夏火松、甄化春:《大数据环境下舆情分析与决策支持研究文献综述》,《情报》,2015年第2期,第1-6页、21页。
2.舒予、张黎俐:《基于小波分析与人工神经网络的网络舆情预测》, 《情报科学》,2016年第4期,第40-47页。
3.何炎祥、刘健博、孙松涛:《基于神经网络的微博舆情预测方法》,《华南理工大学学报(自然科学版)》,2016年第9期,第47-52页。
4.杜智涛、谢新洲:《利用灰色预测与模式识别方法构建网络舆情预测与预警模型》,《图书馆情报工作》,2013年第8期,第27-33页。
5.李清敏、张华平:《面向话题的中文微博观点倾向性分析研究》,《科学技术与工程》,2014年第12期,第227-231页。
6.李英乐、于洪涛、刘力雄:《基于SVM 的微博转发规模预测方法》, 《计算机应用研究》,2013年第9期,第2594-2597页。
7.彭兰:《万物皆媒——新一轮技术驱动的泛媒化趋势》,《编辑之友》,2016年第3期,第5-10页。
8.李建会:《走向计算主义》,《自然辩证法通讯》,2003年第3期,第31-36页。