基于LLR和Kleinberg算法的大学生抑郁研究热点及前沿可视化分析

2024-05-07 08:58孙思宇李泽义黄琳心郝梓旭
黑龙江科学 2024年7期
关键词:发文图谱聚类

孙思宇,李泽义,陈 爽,黄琳心,郝梓旭

(长春中医药大学,长春 130117)

0 引言

数学领域中的对数似然比LLR(likelihood rate)算法常见于通信领域中[1],将该算法运用到聚类中,可根据关键词频度、集中度与分散度等指标组成向量,判断关键词是否可以作为聚类的特征词[2],进而对聚类标签词进行提取,挖掘某领域的研究热点。21世纪,抑郁是影响人类身心健康的主要危险因素,大学生是抑郁的高发群体,抑郁症状的发生与大学生网络成瘾、学习倦怠等密切相关,抑郁情绪严重者会出现自伤、自杀等行为。目前,国内学者围绕自我概念、人格、体育锻炼、应对方式等对大学生抑郁开展研究,研究力度大,文献众多,但观点较为分散,研究重点不突出。

2002年,Kleinberg提出了突发监测算法[3],统计出低频但却比高频词更具情报意义的突发词,以此来探测学科前沿。该算法在自然科学领域,尤其是在医学领域应用广泛,在社科领域的应用起步较晚[4]。对关键词进行聚类分析,应用Kleinberg监测算法探求大学生抑郁领域研究的发展趋势,可为日后研究提供思路与参考依据。

在中国知网(CNKI)中以“抑郁症”“抑郁”“大学生”为关键词进行精确检索(截至2022年11月),文献检索来源限定为北大中文核心期刊、中国科学引文数据库(CSCD)、科学引文索引(SCI)、工程索引(EI)来源期刊。剔除无效文献,共得到有效学术论文522篇。

使用COOC软件进行数据查重与处理,将最终数据导入CiteSpace6.1.R3对关键词进行可视化分析。参数设置:时间分区为1992—2022年,时间切片设置为1(Year Per Slice=1),节点类型设置为关键词(keyword),共现选择g-index(k=25),节点越大表示该节点代表的关键词出现的次数越多。节点间的连线代表关键词间的关联程度,连线越粗代表两个关键词的联系程度越强。

利用CiteSpace软件中的快速聚类功能Clustering进行快速聚类,借助Dunning于1993年提出的Log Likelihood Ratio(LLR对数极大似然率)算法对聚类标签词进行提取,用下面两个可选的假设解释关键词x、y的出现是否独立,用0、1表示关键词x是否出现:

假设H1:p(0|y)=p=p(1|y)

假设H2:p(0|y)=p1≠p2=p(1|y)

使用最大似然估计的方法计算p、p1、p2,用c1、c2、c12来表示x、y、xy出现的次数,N表示所有关键词出现的总次数。

1 发文情况

如图1所示,大学生抑郁研究领域发文量整体呈上升趋势,尤其是近十年累计发文量曲线斜率增大,表示发文量处于快速增长阶段。构建作者合作网络,其中节点(N)523个,连线(E)547条,网络密度为0.004,即作者523名,作者间合作547次。发文作者中存在多个子网络,主要形成了以伍晓艳、刘双金、金岳龙、姚桂英等人为核心的研究团队。发文机构合作网络图谱显示,节点(N)431个,连线(E)497条,网络密度为0.0032,即发文机构431个,机构合作497次;发文量较多的机构为安徽医科大学公共卫生学院儿少卫生与妇幼保健学系,共发文15篇。

图1 1992—2022年大学生抑郁研究领域发文量分布Fig.1 Publication distribution of research on college students’ depression from 1992 to 2022

2 关键词

2.1 关键词共现

运行CiteSpace,生成关键词共现图谱,共包括447个节点、1403条连线,网络密度为0.0141。依据普莱斯定律,即M=0.749(Nmax)1/2,定义频次大于14的为大学生抑郁研究的领域高频词,关键词中心性>0.1表示有显著重要性和高影响度,高频词频次及中心性详见表1。

表1 高频关键词Tab.1 High frequency keywords

2.2 关键词聚类

采用LLR算法进行聚类分析,得到11个聚类群,详见图2。一般认为聚类模块值(Modularity Q)>0.3意味着聚类结构显著,聚类平均轮廓值(Silhouette S)越接近1,表示网络的同质性越高;S>0.5表示该聚类合理,S>0.7意味着该聚类信度较高。表2的聚类分析结果显示,Q=0.4967,S=0.7992,说明聚类结构显著,聚类结果可信。

表2 关键词聚类号及聚类子簇Tab.2 Keywords cluster number and cluster subcluster

图2 关键词聚类图谱Fig.2 Keywords clustering map

聚类#0、#1、#4、#6、#9中“睡眠质量”“手机成瘾”“体育锻炼”等关键词反映出部分学者关注行为生活习惯与大学生抑郁的相关性研究。聚类#2、#3、#5、#8中“孤独”“心理韧性”“自尊”等关键词可反映出部分学者关注心理、人格特征与大学生抑郁的相关性研究。聚类#7、#10中“社会阶层”“人际关系”等关键词则反映出部分学者关注人际关系、社会网络与大学生抑郁的相关性研究。

2.3 关键词演变趋势

从关键词演变整体趋势来看,我国大学生抑郁研究可划分为3个阶段。1992—2005年,为大学生抑郁研究的起步阶段,研究内容较为单一,关键词主要为“抑郁”“抑郁症状”“大学生”。2006—2015年,为相关研究的发展阶段,“生活事件”“自尊”“人格”等主题类关键词与“回归分析”“中介作用”等统计学类关键词同时出现,说明该阶段研究内容与研究方法呈多元化趋势。2016—2022年,该阶段主要关键词多与“睡眠”“手机”“体育锻炼”相关,说明近年该领域主要研究热点为行为生活习惯与大学生抑郁的相关性。详见图3。

图3 关键词聚类时间线图谱Fig.3 Keywords clustering timeline map

2.4 关键词突现

运用Kleinberg监测算法进行突现词检测,得到16个突现关键词;“医科”“自我概念”“自杀意念”“人格”“完美主义”这5个词的突现时间较早,是大学生抑郁领域早期的关注方向;其中“医科”这一突现关键词持续时间较久,说明我国早期有关大学生抑郁的研究主要以医学生为研究对象。2012—2018年,关键词“调节作用”“中介作用”“留守经历”“应对方式”逐渐开始突现,说明学者逐渐关注对中介变量及调节变量的挖掘,“留守经历”“应对方式”成为这一阶段学者主要关注的影响因素。近两年的突现关键词为“睡眠”“回归分析”“睡眠质量”“行为”,较好地体现出未来大学生抑郁领域研究将围绕行为生活因素与大学生抑郁的相关性展开,睡眠质量与大学生抑郁的相关性成为研究前沿。详见图4。

图4 关键词突现图谱Fig.4 Keywords emergency map

3 结论

可利用LLR聚类算法和Kleinberg监测算法挖掘大学生抑郁领域研究的热点与前沿趋势。我国大学生抑郁领域研究热点主要包括行为生活习惯、心理、人格特征、人际关系、社会网络与大学生抑郁的相关性。睡眠质量、手机使用情况、体育锻炼等行为活动习惯与抑郁情绪的相关性研究是近期研究前沿。

猜你喜欢
发文图谱聚类
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
校园拾趣
爷孙趣事
以牙还牙
基于DBSACN聚类算法的XML文档聚类
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
一种层次初始的聚类个数自适应的聚类方法研究