王 鹏 闫 芸 王 荣 屠怡潼 马洁欣 田 梅
( 1) 山东师范大学心理学院,250358,济南; 2) 山东师范大学图书馆,250014,济南 )
2008年9月,《Nature》出版专刊《Big Data: Science in the Petabyte Era》,大数据研究与应用迅速成为人们关注的热点[1].大数据研究呈现出爆发式增长的趋势,并在许多领域取得了长足的进展[2].大数据,又称海量数据,是指所涉及的数据规模庞大到无法通过人为采集的方式在合理时间内达到截取、管理、处理并整理成人类所能解读的信息,其数据类型有着丰富性与关联性的特点,并能够克服传统研究样本容量小、测量有时差等问题,同时还有着较高的的匿名性与真实性,保证了研究开展的生态效度.心理学研究也从大数据挖掘中获益,大数据时代的心理学这一新兴研究领域便诞生了[3,4].
大数据时代背景下的心理学,即在网络背景下,以大数据为基础进行分析处理、计算建模、构建知识体系以及开展应用创新的心理学研究.这一概念最早可以追溯到1994年,由国外学者提出的“社会计算”这一概念,它被用于代指“由计算机技术支持、又服务于社会”的软件.但随着科技的发展,时代的变迁,“社会计算”的内涵变得更加丰富——不仅限于让计算机科学服务于社会,还包括将信息科学技术应用于社会科学研究.开始是由计算机建模代替真实被试,对人的心理特征与行为进行仿真模拟,而后大数据分析技术的开发更是为心理学提供了文本挖掘与自然语言处理等全方位的技术支持[5].大数据技术肇始于七十多年前,有学者提出了有关建立多媒体数字图书馆以连结集体知识的设想.自上世纪六十年代起,有相当数量的研究就在信息检索领域取得了成就.上世纪八十年代后期,自由文本检索被大量文本存储系统所采纳.上世纪九十年代,搜索引擎成为定位网络资源的常见方式,此时网络数据发掘成为了新的研究热点[6].要应用大数据首先就需要数据分析技术.
大数据分析技术,尤其是基于机器学习的大数据分析技术,在某种程度上与科学研究的假设驱动、假设预注册方法背道而驰.假设驱动的研究是一种自上而下的结构办法,它从一个旨在做出决定性的假设开始.大数据分析通常涉及探索性分析,采用自下而上的投机方法假设.在大数据与心理学融合之初,研究者大多采用“先提出心理特征与网络行为的相关关系,再通过处理分析网络用户的行为数据,对假设进行验证”这一研究模式.而大数据分析技术的开发则引导研究者找到了“直接分析网络行为,进而识别心理特征”这一新方向,为心理学研究提供了数据驱动这一新思路[7],这一新研究模式是心理学研究方法上的又一次历史性变革.新的研究模式也催生了具体研究,朱廷劭等人总结了利用大数据进行人格预测的基本研究思路,即分析大数据得到的用户网络行为数据,通过机器学习分析技术,建立基于网络使用行为的人格特征预测模型[3].
目前大数据时代下的心理学应用已经在情绪、人格、健康心理学等方面广泛应用,并取得了显著进展.例如,在健康心理学领域,Merchant等人[8]利用开放词汇分析技术对语言和人格进行了研究,实现了对网络用户精神健康状况的精准预测;在人格心理学领域,Schwartz等人[9]用类似方法,实现了对网络用户人格特征等信息的精准预测,Kosinski等人[10]利用将数字行为记录降维再进行线性回归的方法预测了用户的性取向、人格特质、政治倾向、智力等个体心理特质,Chittaranjan等人[11]从智能手机中自动提取的行为特征与自我报告的“大五”人格特征(外向、愉快、认真、情感稳定性和开放性)之间的关系等;在情绪心理学领域,Kramer等人[12]通过对Facebook用户动态信息的分析证实了网络环境下的情绪传染现象.
采用文献计量学的方法,借助CitespaceⅤ对Web of ScienceTM的核心数据库收录的大数据背景下的327篇心理学相关文献进行可视化图谱分析,揭示了以大数据时代下的心理学为研究主题的国家、学科分布情况,以及被引期刊、作者的分布情况,并进一步展示了该领域的发展现状、趋势和研究热点,可为国内相关研究的进行提供重要借鉴.
2.1数据来源所用数据来源于Web of ScienceTM核心合集数据库[13].在基本检索中,以“big data, psychology”为主题词,将时间限定为2000-2019进行检索,共得到327条有效检索记录.将检索结果按Citespace Ⅴ要求的“全记录与引用的参考文献”格式,下载并保存为纯文本.数据下载日期为2019年10月21日.
2.2研究工具信息可视化软件Citespace Ⅴ是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件.利用文献网络变化可视化技术,将科学文献表示为三维景图,用户通过控制时间能够看到科学研究随时间的发展趋势.
2.3分析方法用共被引文章聚类形成科学引文网络中的学科(领域)点,用点的中心性(Centrality)图论概念量化点(聚类)在共被引网络中的地位重要性,用突变检测算法(Turst Detection Algorithm)辨认新兴学科研究前沿专业术语,用中介中心性(Betweenness Centrality)突显潜在范式变化的关键点,用自动文本概要和自然语言处理算法将研究集中在为数不多的连接点上,用最小生成树(Minimal Spanning Trees)和关键路径网络(Pathfinder Network Scaling)两种方法选择和控制学科点间链接.[14]
中介中心性是测度节点在网络中重要性的一个指标,(此外还有度中心性、接近中心性等),在Citespace中用紫色圈对该类文献(或作者、期刊以及机构等)进行重点标注,出现紫圈的节点的中介中心性 ≥ 0.1.
引文年环代表着某篇文章的引文历史,引文年轮的颜色代表相应的引文时间,一个年轮厚度和与相应时间分区内引文数量成正比.
3.1大数据时代下的心理学研究领域的文献发表情况图1为对Web of ScienceTM收录的2000-2019年内大数据时代下的心理学研究文献发表量的统计.可以看出,大数据时代下的心理学发文献表量呈整体上升趋势,2016-2018年一直保持着高文献发表量,截至2019年10月,检录到的文献量已达41篇.
3.2大数据时代下的心理学研究领域的国家图谱分析节点类型(Node Types)选择国家(Country),算法选择Minmum Spanning Tree,Top N=10,其他设置为默认,形成可视化图谱.图2为大数据时代下的心理学研究的国家分布情况,从输出结果来看,网络节点数量(Nodes)总共有22个,连线数量(Links)43条,网络密度(Density)为0.1861.节点越大表示出现的频数越多,连线愈多、越粗表示彼此之间的合作越密切可以得出,大数据时代下的心理学共享研究合作总体比较集中,很多都是重合的点,形成了一个良好的合作系统.
从导出数据可以明显地看出,美国发文151篇,占总量的38.8%,遥遥领先其他国家,与荷兰和比利时的合作比较密切,并且荷兰与比利时的合作更加密切.发文量排名靠前的国家还有德国(45篇),英国(41篇)和中国(30篇),中国与新加坡、英国的合作更为密切.
图1 2000-2019年大数据时代下的心理学研究领域的文献发表量统计
图2 大数据时代下的心理学研究领域的国家分布图谱
3.3大数据时代下心理学研究领域的学科图谱分析节点类型(Node Types)选择Category,Top N=10,其他设置为默认,运行数据得到大数据时代下心理学研究领域的学科分布情况的可视化图谱,如图3.
从结果来看,发表文献最多的领域为心理学(Psychology)达199篇,占总量的34.2%,处于核心位置.突现值(Brust)为3.28,说明该变量在短期内有很大变化;其他依次为Psychology, Social(61篇),Psychology,Multidisciplinary(56篇),Business and Economics(40篇)等40个不同领域,说明大数据时代下心理学的应用前景比较广泛,与各学科之间的交叉性比较强.
图3 大数据时代下的心理学研究领域学分布图谱
3.4大数据时代下的心理学研究领域的被引作者图谱分析节点类型(Node types)选择作者(Cited Author),算法选择Minmum Spanning Tree,Top N=10,其他设置为默认,形成可视化图谱.Line shape选择spline,得到图4.其中节点最大,即引用频次最高的作者为Mccrae R R,自2000年起被引用频次为90次.其他被引频次较高的作者依次为John O P(60次),Goldberg L R(52次),Costa P T(49次)等.从节点来看,同一颜色的年轮厚度都在增加,说明文章的被引频次也在逐年上升,对该领域的影响力逐渐增加.其中Goldberg L R的突现值(Burst)为6.71,说明其被引频次在短期剧增.
图4 大数据时代下的心理学研究领域被引作者分布图谱
3.5大数据时代下的心理学研究领域的被引期刊图谱分析节点类型选择Cited Journal,算法选择Minimum Spanning Tree,Top N=10,其他选项保持默认状态.运行Citespace Ⅴ,得到大数据时代下心理学的被引期刊分布图谱,如图5所示.从图5中可以看出,最大的节点,即被引用频次最高的是Journal of Personality and Social Psychology,是美国心理学界的核心期刊,影响因子为5.919(2018年),自2000年起被大数据时代下的心理学研究文献引用189次.该期刊收录的研究主要涉及社会环境中个人行为的资源,包括群体过程、人际过程、跨文化关系等.另一个较大的节点是Psychological Bulletin,影响因子为16.405(2018年),自2000年起被大数据时代下的心理学研究文献引用了143次,该期刊主要收录了心理的发展与变化,感知、思维和行为的生物学和神经学基础等.图5中各节点的年轮环厚度逐年增加,即其被引次数一直呈上升趋势,上述情况也表明,大数据时代下的心理学研究正成为一个热点.
图5 大数据时代下的心理学研究领域被引期刊分布图谱
3.6大数据时代下心理学的研究热点及前沿分析
3.6.1 研究热点分析 关键词中心度反映了其在整个关键词共现网络中的重要性,代表了一定时期内核心的研究主题.节点类型选择Keywords,算法选择Minemum Spanning Tree,绘制图谱,该图代表着自2000年起大数据时代下心理学的研究热点,排名前十的关键词及出现频次和中心度信息见表1.从表1中可以看出,与大数据结合的心理学研究多集中在对人格特质的分析,这是因为互联网以及网络通讯工具的发展,大量社交媒体用户在网上对自己的日常生活行为记录进行发布,这些记录可以充分反映出用户的心理特征和心理状态.通过对用户的浏览痕迹以及发表内容相关的数据整理,可以在不浪费大量人力物力的基础上对用户的心理特征和主观感受进行实时地评价.
图6 大数据时代下的心理学研究领域关键词图谱分析
图6中连线纵横交错,说明关键词之间联系非常紧密,其中节点最大的是psychology,即该关键词引用频率最高.此外,研究还涉及人格模型的相关研究.从中心度来看,各节点的数值>0.1,即中心度都较高,为关键节点.
表1 大数据时代下的心理学研究的关键词频、词频排名和中心度
3.6.2 前沿分析 研究前沿被定义为一组突现的动态改变和潜在的研究问题[13],通过探测某一段时间内某一关键词的突现,可以了解该时间段内研究的最新前沿.图7为通过Citespace Ⅴ探测的2000-2019年内突现的前5位关键词及其影响力的大小,按出现时间排序.红色标记的长度代表关键词突现时间的长短,标记越长,突现时间越长;按突现的时间点排序后,我们可以看到突现词在不同时间段的走向,并将其称之为“脚印”.从上图中可以看出,5 factor model的持续突现时间长达十二年之久,说明在这段时间对人格五因素的研究较为广泛.
图7 2000-2019年突现词出现情况统计
3.7大数据时代下的心理学的共被引网络分析节点类型选择Cited Reference,算法选择Minimum Spanning Tree,其他选项保持默认状态.表2中呈现了文献被引用频次与中心度信息.
表2 引用中心度排名前五的文献信息
中介中心性较高的文献在大数据时代下的心理学处于奠基性地位,对于整个研究方向的转移有很大影响,对于其他节点信息传播的控制能力较高.中介中心性最高的是Schwartz于2013年发表在PLOSONE上的一篇文章,题目为“Personality, gender,and age in the language of social media: The open-vocabulary approach”[9],该文对语言和人格进行了研究,利用开放词汇分析技术(Open-vocabulary Technique),即数据本身推动对语言的全面探索.使用LIWC分析作为基线,主要采用了DLA的方法进行语言特征的提取、相关分析、和可视化分析.
语言特征提取研究了两种类型,即单词和短语、主题,其中在提取短语时,作者主要根据点态交互信息,即联合概率与观察短语的独立概率之比,只保留信息价值较高的单词序列.研究主题由潜在狄利克雷分配(LDA)创建的词簇组成,LDA生成模型假设文档(即Facebook消息)包含主题的组合,并且主题是单词的分布.由于文档中的单词是已知的,所以可以通过它来估计主题的潜在变量.相关分析的方法使用普通最小二乘回归可以识别开放词汇表中的单词、短语和主题,将目标解释变量的系数作为其相关强度,并将其他变量(如年龄、性别)作为协变量.另一种方法则使用词云来直观总结研究结果,该文根据词与人口统计学或心理学测量兴趣的相关性来衡量词的大小,而不是依据词的频率来进行衡量.研究结果显示:开放性词汇比通过在预测模型中使用的先验词汇能提供更多信息.
中介中心性最高的文献为Kosinski等人[10]发表的名为“Private traits and attributes are predictable from digital records of human behavior”的文章,该文用数字记录自动准确地预测一系列高度敏感的个人属性.
该研究结果主要介绍四个方面:1)以感知操作特性曲线(AUC)下的面积表示二分类变量的预测精度,即从每个类别中随机选择两个用户对其进行正确分类的概率(如男性、女性);2)用实际值与预测值之间的皮尔逊积差相关系数表示数值变量预测的准确性;3)获得的数据量及预测精度;4)Likes的预测能力.这篇文章也为后续深入的研究提供了可能的方向.截至2013年,Schwartz等人[9]的文章是最大的利用大数据对语言和人格进行的综合性研究.
3.8大数据时代下的心理学研究文献共引网络的聚类分析在得到的文献共引网络的基础上对其聚类以得到大数据时代下的心理学的研究热点与发展方向,聚类采用LLR算法进行命名.即用一个核心词汇对不同分类的引用文献进行概括,以得到更清晰的结果.运行结束后,共得到13个类别,见表3.Cluster ID为聚类号,Size为该聚类包含的文献数量,Silhouette代表聚类内部的相似程度,该指标为0到1之间的小数,数值越大,相似度越高[16]、本次运行所得结果中54%的Silhouette大于0.9,即聚类效果很好,Label为通过LLR算法得到的聚类标签.
表3 文献共引网络中的重要聚类
3.8.1 大数据时代下的心理学研究领域中与人格相关的重要聚类 ID为1的聚类规模最大,包含20篇文献,聚类名称为situation experience(情境体验),其中Chittaranjan于2013年发表的名为“Mining large-scale smartphone data for personality studies”[16]的文章.该文用从智能手机中自动提取的行为特征与自我报告的“五大”人格特征(外向、愉快、认真、情感稳定性和开放性)之间的关系.ID为2,specht于2012年发表的“Stability and change of personality across the life course: The impact of age and major life events on mean-level and rank-order stability of the big five”[17],介绍了五种人格特征的平均水平和等级顺序的变化.
3.8.2 大数据时代下的心理学研究中与其他学科相关的重要聚类 ID为3,Buhrmester等人[18]于2011年发表的“Amazon′s mechanical turk: A new source of inexpensive, yet high-quality, data?”描述并评估了MTurk对心理学和其他社会科学的潜在贡献.ID为4,Cobb-clark等人[19]于2012年发表的“The stability of big-five personality traits”评估了人格在经济行为中的作用,并表明非认知技能更被普遍地视为许多经济决策的稳定预测变量.
4.1大数据时代下心理学研究领域的知识基础Persson[20]指出知识基础是一个有利于进一步明晰研究前沿本质的概念.也就是说,研究前沿是一个研究领域的研究方向,那么相应的知识基础就是引用研究前沿术语的科学文献所形成的演化网络的引文和共引轨迹.
利用Citespace获取档案学研究的共引文献时间序列图谱,可以得出大数据时代下心理学研究的奠基性节点.奠基性节点分别为Kosinski等人[10]于2013年发表的文献以及Schwartz等人[9]于2013年发表的文献,主要讨论了如何进行对非结构化数据进行分析.
大数据时代下心理学研究领域中所采用的数据处理和数据分析方法,推动了整个领域的发展,对后来的研究有着较强的参考价值.其中数据分析技术分为文本分析、多媒体分析、监督学习和无监督学习,后两种方法又构成了两种主要类型的数据挖掘和机器学习分析技术.比如,文本分析涉及用户定义的词典、特征提取和单词共现.这类文章为如何分析来自社交网站的各类数据和构建原始的非结构化数据奠定了基础[21].
4.2大数据时代下心理学的研究热点和前沿前人对大数据时代下的心理学研究的若干问题进行了探讨,分析并提出大数据时代下心理学研究的主要的四大议题:一般性个体情绪变化规律、特大事件社会情绪化、个性品格、幸福感[2].本研究通过对大数据时代下的心理学的关键词进行提炼,得出频次排名较高的关键词:心理学、个性、大数据、大五人格、模型、行为、五因素模型、元分析、特质、人格特质以及社交媒体.正是因为互联网上存在着大量的用户日常行为记录,社交媒体平台成为了心理学理想的数据库.为了有效地对这些非结构数据进行提取,大量研究将机器学习方法与心理学相结合,构建了大量可以对个体进行心理特征评估的模型.这也正是个性、大五人格和模型等关键词频次较高的原因.此外,从这些频次较高的关键词中可以看出,大数据时代下的心理学的主要研究确实是基于上述四大议题.
虽然突显词(被引用最多的关键词)近十年中出现频率较高,但是在近三年中,大数据时代下心理学的研究并没有涉及过多的关于相关突显词的研究,甚至近几年关于这些突显词的研究问题出现了空白期.但是这并不代表着大数据时代下的心理学研究热度的下降,相反,大数据时代下的心理学正与时俱进.研究发现,近四年来大数据时代下心理学研究领域有了多样化的研究方向,出现了几个新兴的关键词,比如策略性行为、测量、精神病学、统计学习理论、神经过敏症、复现性、公司规模、数据资料等.这些词虽然出现的频次不是很高,但是代表了大数据时代下心理学中逐渐兴起的一些新研究方向,也说明了大数据时代下心理学不断发展、延伸,与其他研究方向,甚至是与其他研究领域进行了碰撞和交融.也就是说,近四年来,大数据时代下的心理学在广度上有了一定的拓展.
研究发现,态度、神经质、自我、情感、生活满意度、感知、自尊、责任心、决策力、社会心理学、自我控制、自我同情、道德和自我效能等重要关键词,说明大数据时代下的心理学研究具有一定的社会心理学研究趋向,主要体现了个体或某些群体的社会心理现象的表现.在前人研究中也发现,社会心理学在大数据中是一个较受关注的研究热点[22].不仅如此,大数据已被成功应用于探索情绪心理学、人格心理学等诸多心理学研究议题[23].并且,将大数据分析作为传统方法范式和技术操作的有益补充加以借鉴、应用,使得社会心理研究在内容、方法、数据品质、效度以及现实有效性等方面有所推进与突破[24].
另外,研究还发现了健康、乳腺癌等医疗健康行业的关键词,说明大数据不仅在心理学领域具有比较大的推进作用,也为心理健康与医疗健康行业作出了巨大的贡献.近年来,基于大数据的历史医疗档案检索系统也逐渐发展起来,可实现海量历史医疗档案的信息化管理,这是国家医疗行业的一大进步[25].大数据时代下心理学的研究可以帮助医护人员更加清晰地认识到病人的心理需要,运用大数据时代下的心理学方法研究最有效的心理治疗与护理方式,最大化消除病人消极心态,满足其多种心理需要.
4.3大数据时代下心理学研究的局限与展望首先,由于大数据具有体量庞大的特征,样本量过大可能会导致在统计学上变得显著.虽然大数据克服了小样本不具代表性的问题,但是同时高维数据也可能会导致虚假相关、超拟合、控制假阳性、虚假群集的问题[2].不仅如此,数据的挖掘和获取过程中可能会造成对人隐私的侵害.
基于大数据的心理学研究,基本上都来自脸书、微博、推特等的第三方数据.第三方数据有很多不足之处,首先是可能会有字数方面的限制,用户不能将内心中想要表达的想法全部表达出来,会缺失很多有研究价值的信息.其次,社会意识偏差也会造成研究结果的偏差.比如一个内向的人,可能在网络上表现得比较活跃,甚至是把自己伪装成与生活中不一样的人,此时网络上获取的数据可能就存在一定的虚伪性,不能真正说明现实中个体的真实特征.并且对于较年长的人来说,可能并不经常使用网络社交媒体,对于大数据的分析无法代表全体[2].微博、微信、QQ等都具有地域性,一个地区流行,另一个地区可能并不流行,采集到的数据信息可能大部分来自于城市或是郊区.因此,在进行大数据时代下心理学的分析时,需要进行人口特征的统计.
在研究方法上,以往有关大数据时代下心理学的研究主要是以数据分析为主.近年来,数据分析中的文本分析发展迅速,对于心理学的相关研究也有比较好的推动.但是很少有研究工作利用多媒体大数据分析调查.虽然多媒体分析还存在种种问题没有解决[26],如两大挑战“存得下”、“找得快”[27].多媒体大数据分析使得生态效度更高,大数据时代下的心理学可以探索运用多媒体分析方法研究相关议题.大数据分析技术除了主要的文本分析和多媒体分析等技术以外,还包括语音分析与视频分析.相较于心理学领域目前更多使用的文本数据,音频与视频数据更具复杂性.所以,除了将语音、视频转化为文本进行分析外,静音检测、语音情感识别等内容本身也有着研究价值[28].比如,语音情感识别可以识别情绪,可以应用于情绪心理学等领域;视频分析则可以预测行为或异常事件,甚至基于面部和姿势数据“猜测”用户意图[29],可以应用于工业心理学,也可以应用于管理心理学,在选拔人才时起到重要作用.除了为心理健康与医疗健康作出贡献,大数据还与经济学、图书管理学等学科有所交互.比如,在经济学领域,大数据背景下云会计的使用将企业财务信息经济化、透明化、便捷化[30],而机器学习则被应用于宏观经济预测与因果推断[31].在图书管理学方面,大数据能为图书馆未来发展和服务体系提升作出趋势分析,也在客户关系中通过数据挖掘发现营销模式[32].可以预期,在不远的未来,大数据将成为心理学深入开展多学科领域合作的桥梁.
通过绘制被引作者、期刊、对被引文献的分析的可视化图谱直观反映出年轮环的厚度逐年增加的趋向,说明近年来大数据时代下的心理学逐渐成为被学者关注的研究热点,大数据时代下的心理学研究的相关理论和应用对于现实生活中众多问题解决具有重大意义.但即使如此,我国对大数据时代下的心理学缺少相关的本土化研究,这一短板亟待改善.同时,目前的研究更多是将数据分析作为一种不同于实验方法的工具,但随着科技的发展,大数据分析技术不断更新换代,能够进行的心理学研究也愈发多样化.虽然目前并未存在“大数据心理学”这一具体的研究学科,将来随着实证和理论研究不断丰富,“大数据心理学”成为一门心理学的子学科未来可期.