基于复合粗糙集的异构属性患者社区划分模型

2023-04-29 11:10刘晨曦孙秉珍楚晓丽祁畅
复杂系统与复杂性科学 2023年3期

刘晨曦 孙秉珍 楚晓丽 祁畅

摘要: 社区划分是网络研究中的重要组成部分,基于医疗数据对类风湿关节炎患者进行社区划分能够有效提升临床医疗决策的准确性。考虑到社区划分过程中可能会存在患者属性异构及相关性问题,首先基于复合粗糙集理论实现对患者异构属性的有效处理,其次将复合粗糙集理论与 louvain 算法相融合,构建出基于异构属性节点的社区划分模型。通过采用临床真实数据集及经典网络数据集对本文构建的模型进行实验分析,验证了本文模型能够取得模块值较大的社区结构,实现将不同疾病活动程度的患者划分到不同社区内,从而提升患者疾病活动程度评估的有效性和准确性。

关键词: 异构属性;网络构建;复合粗糙集;社区划分;louvain算法

中图分类号: TP399文献标识码: A

Community Partition Model of Patients with Heterogeneous Attributes Based on Composite Rough Sets

LIU Chenxi1, SUN Bingzhen1, CHU Xiaoli2, QI Chang1,3

Abstract:Community partition is an important part of network research. Community partition of patients with Rheumatoid Arthritis based on medical data can effectively improve the accuracy of clinical medical decision-making. Considering that there may be problems of  heterogeneity and correlation of  patients′ attributes in the process of community partition, this paper firstly classifies patients based on composite rough sets theory to effectively deal with heterogeneous attributes. Secondly, the rough sets theory and the louvain algorithm are combined to build a community partition model of patients with heterogeneous attributes. By using the clinical real dataset and the classical network dataset, it is verified that the proposed model can obtain the community structure with large module value, and the realize the division of patients with different disease activity levels into different communities, so as to improve the effectiveness and accuracy of the assessment of patients′ disease activity level.

Key words: heterogeneous attributes; network construction; composite rough set; community partition; Louvain algorithm

0 引言

隨着社会的发展,现实生活中的各种关系变得越来越复杂,形成了各种类型的系统,如果将这些系统中的个体表示为节点,将个体之间的关系表示为边,就可以得到一个复杂网络,复杂网络具有社区结构,包含了节点间的隐藏关系。社区结构的划分是复杂网络研究中的重要问题。一般来说,社区划分是指利用网络中节点和边的信息,将网络划分为若干个子网络,并使这些子网络尽可能相似,同时它们之间的差异尽可能大的过程[1]。传统的社区检测算法[2-5]在很多社区划分问题上都取得了较好的效果,并且大都强烈依赖于网络的拓扑结构。然而在现实中,大多数网络都会提供额外的参与者信息,如年龄、兴趣等。这些属性信息反映了节点之间的共同特征,可以澄清和丰富参与者的信息,并赋予被检测社区意义[6]。尤其对于医疗背景下的异构信息系统来说,患者的异构属性包含了关于疾病诊断更为丰富的信息,这些信息对于患者社区划分是十分重要且不能被忽略的。

目前已有很多基于节点属性相似度对网络进行社区划分的方法。现有方法大致可分为两类,第一类由节点属性与边结合的概率生成模型组成,以此来推断网络中节点所属的社区[7-9],但是它们不如另一类混合方法[10-13]有效。然而,这些基于节点属性进行社区划分的方法仍存在着两点不足:1)已有研究均是基于节点单个属性或同类型属性进行社区划分,对于具有异构属性的网络社区划分不具有普适性;2)对于节点属性的相似性度量方法较为简单,难以满足具有相关性且复杂的患者医疗诊断属性的相似性度量。

针对上述几点不足,并考虑到临床诊疗数据中患者的异构属性特征,本文将复合粗糙集理论与louvain算法相融合,提出了一种考虑异构属性节点特征的网络社区划分方法。众所周知,Pawlak[14]提出的经典粗糙集是建立在离散型信息系统的基础上,因此只适用于分类属性的集合划分。为有效处理具有数值属性的决策问题,胡清华等[15]在经典粗糙集基础上引入邻域概念,构造了邻域粗糙集。然而在现实生活中,随着决策问题属性特征的不断变化与属性类型多样性的增加,已有的单一粗糙集模型已不能较好地满足现实复杂属性决策问题的需要。因此,学者们提出了融合已有粗糙集模型的复合粗糙集理论。复合粗糙集理论[16]能够解决基于异构属性节点集合划分的聚合问题,将具有异构属性的节点划分退化成单一的集合划分。鉴于已有复合粗糙集模型的建模思想,本文将经典粗糙集与邻域粗糙集相结合,形成了适用于处理异构属性节点集合划分问题特征的复合粗糙集模型,并在最终的集合划分结果基础上提出节点间的关系网络构建模型,为后续的社区划分奠定基础。在基于关系网络图进行社区划分的过程中,考虑到louvain[2]算法速度快,可以在较短时间内实现大规模网络不同粒度的社区划分,并且无需指定社区的数量,当模块度不再增益时迭代便自动停止。因此本文在复合粗糙集模型基础上引入louvain算法进行社区划分,进一步提升了社区划分的效果和效率。

基于以上分析,本文从异构属性网络及粗糙集理论进行集合划分的视角提出基于节点异构属性相似度的社区划分方法。该方法主要包括:1)基于节点异构属性相似度的集合划分。运用复合粗糙集对各个属性上的集合划分结果进行聚合以退化成单一的集合划分,实现将具有高度属性相似性的节点划分为一类。2)关系网络构建。基于患者集合划分结果,将属于同一集合划分中的两两节点之间建立链接,以构成关系网络中的边,并且以所有集合中的对象作为网络中的节点。3)社区划分。将构建出的网络关系图转化为矩阵形式,并引入louvain算法进行社区划分。本文的主要贡献有:1)提出一种基于节点异构属性的集合划分方法。2)将节点的异构属性相似度融入社区划分,提高社区划分的准确性和有效性。3)将所提出的方法应用于类风湿性关节炎患者划分问题,为临床实践中患者的疾病活动程度划分提供了理论参考。

1 基本理论

本文提出的基于复合粗糙集的异构属性节点社区划分方法涉及经典粗糙集,邻域粗糙集,以及复合粗糙集理论。

1.1 经典粗糙集

粗糙集理论是Pawlak[14]提出的一种处理不确定性信息的有效工具,传统的粗糙集模型建立在离散型信息系统的基础上,已经在模式识别、机器学习、决策支持等领域得到成功的应用。

定义1 设U为对象集,A为属性集,且U和A是有限集合。将二元组(U,A)称为信息系统,对于每个属性a∈A都有其对应的信息函数a:U→Va,其中Va是属性a的信息函数值集合。

定义2 设(U,A)是一个信息系统,对于BA,x,y∈U,属性B的二元等价关系RB定义为:RB={(x,y)∈U×U|ax=ay,a∈B}。

定义3 设(U,A)是一个信息系统,对于BA,x,y∈U,则x关于属性集B的等价类xRB可定义为xRB={y|(x,y)∈RB}。

本节在基于异构属性节点集合划分结果的基础上建立节点间的关系网络图,保证了节点与节点之间链接关系的可靠性,能够在属于同一集合划分即具有高度属性相似性的节点之间建立联系。再将建立好的网络关系图G以矩阵的形式输入louvain算法中进行社区划分,当模块度不再变化时,实现将具有高度属性相似性的节点划分为同一个社区,而划分为不同社区的节点之间的属性值差异较大。即在临床诊疗中能够使异构属性相似、疾病活动程度相近的RA患者归为同一个社区内,而处于不同社区的RA患者之间具有不同的疾病活动程度,从而有助于对患者病情进一步评估,有效提升RA患者疾病活动程度划分准确性。

目前所提出的基于复合粗糙集的异构属性节点社区划分方法,在解决了基于异构属性节点的社区划分问题的同时,也能够对同类型属性网络进行有效的社区划分。

4 基于异构属性节点社区划分的医疗决策应用与仿真分析

粗糙集能够在不需要先验知识,只依赖于数据集本身的情况下对集合进行有效划分。在实际的医疗决策中,粗糙集已广泛应用于医疗多准则推荐[19],医疗诊断[20]及医疗数据挖掘[21]等各个场景中。通过融合复合粗糙集与louvain算法可以解决RA患者社区划分过程中存在的属性异构及属性相关性问题,实现医疗决策背景下基于患者诊断属性的社区划分,进一步提高患者疾病活动程度评估的有效性和准确性。

4.1 基于RA患者的社区划分

4.1.1 问题描述

基于本文提出的社区划分背景,采用来自广东省中医院的375位真实患者的类风湿性关节炎诊断数据进行实验,验证本文方法的有效性。目前类风湿性关节炎是最常见的一种关节炎,也是造成发病率和死亡率的主要原因[22]。在诊断过程中除了观察关节肿胀程度外,还需要进行ESR,RF,CRP等多项辅助指标的检查[23],具体的数据描述如表1所示。

实验通过基于复合粗糙集的异构属性节点社区划分方法对具有异构属性的RA患者进行社区划分。首先基于分类属性集B2进行经典粗糙集划分得到与对象xi相似的集合划分结果xiRB2,接着对ESR、RF、CRP指标进行距离度量以及邻域粗糙集划分得到对象xi基于数值属性集B3的集合划分结果δB3(xi),其中邻域参数δ=0.05。最后基于复合粗糙集模型对集合划分xiRB2、δB3xi进行聚合以退化成单一的集合划分结果CRBxi,并在最终集合划分结果基础上建立375名RA患者之间的关系网络图,引入louvain算法进行社区划分。

4.1.2 结果分析

最终将375位RA患者划分为6个不同的社区0~5,且划分出的社区可视化结果及人数分布如图2、图3所示。其中,每一个颜色代表一个社区,各个社区的患者人数依次为:61,82,3,116,67,27,由于在真实网络中无法预先明确网络社区结构,所以在衡量社区划分准确性时,本文采用3.2中提出的模块度Q作为评价指标。本实验中社区划分的最终模块度为Q=0.476,得到了明显的社区结构划分效果。

其次,在考虑患者异构属性特征的基础上,根据社区划分结果得到处于不同社区内的RA患者对应的各个异构属性值,观察图3可以发现社区2和社区5的患者数过少,因此,本文主要分析其余4个核心社区。不同社区RA患者数值指标平均值如图4所示,根据图4可知,属于不同社区0、1、3、4的患者的数值指标ESR、RF、CRP的不同社区平均值均具有较大差异。除此之外,观察图5可以发现,属于4个不同社区的RA患者的关节腫胀程度4在分类属性上均有明显不同(图中以100~400分别对应关节肿胀程度的不同等级),如:属于社区0的患者为III级(关节活动受显著限制),社区1中患者为I级(关节可自由活动),社区3中患者为II级(关节活动受中度限制),社区4的患者为IV级(部分或完全失去活动能力)。根据划分出的不同社区RA患者的异构属性值,进一步说明了处于不同社区内的RA患者在各个属性值上均具有较大差异,实现将不同疾病活动程度的RA患者归入不同的社区内,验证了方法的有效性。

4.2 基于同類型属性的社区划分

首先在两个常用的真实网络上进行实验,验证本文提出的方法对于同类型属性社区划分具有同样的适用性;其次与经典louvain算法相比较,以说明提出的方法能够更好地反应节点属性,从而提高社区划分效果。第一个网络是根据美国大学生足球联赛创建的一个真实的社会网络,其中网络中的节点代表足球队,两个节点之间的边表示两只球队之间进行过一场比赛,其中每个球队都只有一个属性,即所属联盟。第二个网络是关于2004年美国总统选举期间出版以及销售书籍的数据集,其中每本书只有一个属性,属性值为:保守、自由主义、中立性。每个网络的详细信息如表2所示。

针对上述两个真实网络,采用提出的方法进行社区划分。首先运用传统粗糙集理论对节点进行集合划分,然而依据节点分类属性的集合划分结果构建节点间的关系网络图并进行社区划分;其次在不考虑所提出的节点异构属性情况下,采用经典louvain算法进行社区划分。最终采用两种方法分别划分出的模块度如表2所示,观察表2可以发现,采用提出的方法划分出的社区模块度值均高于经典louvain算法,并且对两个真实网络运用两种方法进行社区划分的可视化结果如图6和图7所示。在两个真实网络上进行社区划分后的模块度值以及可视化结果,不仅证实了提出的方法在基于同类型属性网络上也能够达到明显的社区划分效果,且进一步说明了提出的方法能够更好地反应节点属性信息,从而提高社区划分效果。

5 结论

本文从社区划分视角出发,考虑患者诊断属性的异构特征,提出了基于复合粗糙集的异构属性节点社区划分方法,并对提出的方法基于真实临床数据进行实验分析。针对异构属性提出适合于医疗背景下的复合粗糙集模型,实现对节点的集合划分;基于节点集合划分结果提出关系网络构建方法,实现将具有高度属性相似性的节点之间建立链接,进而引入louvain算法进行社区划分,充分结合复合粗糙集模型以及louvain算法对异构属性节点进行社区划分,提高该社区划分方法在异构信息系统及医疗背景下的适用性。实验表明,基于复合粗糙集的异构属性节点社区划分方法取得了明显的效果,能够将属性高度相似的患者归为同一个社区,而属于不同社区的患者之间属性差异值较大,从而实现将不同疾病活动程度的患者划分到不同社区,提升患者疾病活动程度评估的有效性和准确性。

需要指出的是,本文基于异构属性进行社区划分的同时,对基于同类型属性也同样适用,并在football和polbooks两个真实网络数据集中验证了这一点。与此同时,也存在一个问题,就是考虑的网络为无权无向网络,但实际生活中网络节点之间更多的是存在方向或考虑权重的,因此,这也是我们下一步努力的重点。

参考文献:

[1]HU J J, WANG Z Q, CHEN J Q, et al. A community partitioning algorithm based on network enhancement[J]. Connection Science, 2021, 33(1): 42-61.

[2]BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008(10): 10008.

[3]NEWMAN M, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2): 26113.

[4]PONS P, LATAPY M. Computing Communities in Large Networks Using Random Walks[M]. Berlin, Heidelberg: Springer, 2005: 284- 293.

[5]郑文萍, 车晨浩, 钱宇华, 等. 一种基于标签传播的两阶段社区发现算法 [J]. 计算机研究与发展, 2018, 55(9): 1959-1971.

ZHENG W P, CHE C H, QIAN Y H, et al. A two-stage community discovery algorithm based on tag propagation[J]. Journal of Computer Research and Development, 2018, 55(9): 1959-1971.

[6]MENG F R, RUI X B, WANG Z X, et al. Coupled node similarity learning for community detection in attributed networks[J]. Entropy, 2018, 20(6): 471.

[7]CHAI B F, YU J, JIA C Y, et al. Combining a popularity-productivity stochastic block model with a discriminative-content model for general structure detection[J]. Physical Review E Statistical Nonlinear, 2013, 88(1): 012807.

[8]XU Z Q, KE Y P, WANG Y, et al. GBAGC: a general bayesian framework for attributed graph clustering[J]. ACM Transactions on Knowledge Discovery From Data, 2014,9(1):1-43.

[9]XIN Y, YANG J, XIE Z Q. A semantic overlapping community detection algorithm in social networks based on random walk[J]. Journal of Computer Research and Development. 2015, 52(2): 499-511.

[10] 杨晓波, 陈楚湘, 王至婉. 基于节点相似性的LFM社团发现算法[J]. 复杂系统与复杂性科学, 2017, 14(3): 85-90.

YANG X B, CHENG C X, WANG Z W. LFM community detection algorithm based on vertex similarity[J]. Complex Systems and Complexity Science, 2017, 14(3): 85-90.

[11] 赵卫绩, 张凤斌, 刘井莲. 一种基于节点嵌入表示 学习的社区搜索算法 [J]. 控制与决策, 2021, 36 (8):1970-1976.

ZHAO W J, ZHANG F B, LIU J L. A community search algorithm based on node embedded representation learning[J]. Control and Decision, 2021, 36(8): 1970-1976.

[12] 钟丽君, 宾晟, 袁敏, 等. 多功能复杂网络模型及其应用[J]. 复杂系统与复杂性科学, 2019,16(2): 31-40.

ZHONG L J,BIN S, YUAN M, et al. Multi-functional complex network model and its application[J].  Complex Systems and Complexity Science, 2019, 16(2): 31-40.

[13] STEINHAEUSER K, CHAWLA N V. Community Detection in a Large Real-World Social Network[M]. Berlin: Springer, 2008: 168-175.

[14] PAWLAK Z. Rough sets[J]. Information Sciences. 1982, 11(5): 341-356.

[15] HU Q U, YU D R, LIU J F, et al. Neighborhood roughest based heterogeneous feature subset selection[J]. Information Sciences, 2008,178(18): 3577-3594.

[16] ZHANG J B, LI T R, CHEN H M. Composite rough sets for dynamic data mining[J]. Information Sciences, 2014, 257(2): 81-100.

[17] 方良春, 孙哲, 杨凯. 类风湿关节炎中 RF、抗 CCP 抗 体、CRP、ESR 的相关性分析 [J]. 医药前沿, 2016, 6(5):181-182.

FANG C L, SUN Z, YANG K. Correlation analysis of RF, anti-CCP antibody, CRP and ESR in rheumatoid arthritis[J]. Journal of Frontiers of Medicine, 2016, 6(5): 181-182.

[18] MEO P D, FERRARA E, FIUMARA G, et al. Generalized Louvain method for community detection in large networks[C]. Intelligent Systems Design and Applications. Cordoba: IEEE, 2011:88-93.

[19] 张萌, 孙秉珍, 王婷, 等. 融合粗糙集与 GRA 的异构信息多准则三支推荐及其在医疗推荐中的应用[J]. 控制与决策, 2022,37(7):1883-1893.

ZHANG M, SUN B Z, WANG T,et al. Multi-criteria three-way recommendation of heterogeneous information based on rough set and GRA and its application in medical recommendation[J]. Control and Decision, 2022,37(7):1883-1893.

[20] 王效俐, 刘潇, 苏强. 邻域粗糙集融合贝叶斯神经网络在医疗决策中的应用研究[J]. 工业工程与管理, 2016, 21(5): 141-147.

WANG X L, LIU X, SU Q. Research on application of neighborhood rough set fusion bayesian neural network in medical decision-making[J]. Industrial Engineering and Management, 2016, 21(5): 141-147.

[21] 刘洋, 张卓, 周清雷. 医疗健康数据的模糊粗糙集规则挖掘方法研究[J].計算机科学,2014,41(12):164 -167.

LIU Y, ZHANG Z, ZHOU Q L. Research on fuzzy rough sets based rule induction methods for healthcare data[J]. Computer Science, 2014, 41(12): 164-167.

[22] LITTLEJOHN E A, MONRAD S U. Early diagnosis and treatment of rheumatoid arthritis[J]. Prim Care, 2018, 45(2): 237-255.

[23] JOHNSON T M, MICHAUD K, ENGLAND B R. Measures of rheumatoid arthritis disease activity[J]. Arthritis Care and Research, 2020, 72(10): 4-26.

(责任编辑 耿金花)

收稿日期: 2022-03-04;修回日期:2022-05-19

基金项目: 国家自然科学基金(72071152);陕西省杰出青年基金项目(2023-JC-JQ-11);西安市软科学研究项目(2022RKYJ0030);陕西省高校青年创新团队项目(2019);广州市重点研发计划(202206010101);广东省中医院中医药科学技术研究专项(院内专项)(2022);广东省自然科学基金(2022);广东省新黄埔中医药联合创新研究院项目(2022);甘肃省哲学社会科学规划项目(2021YB059)

第一作者: 刘晨曦(1999-),女,山西运城人,硕士研究生,主要研究方向为数据挖掘与智能决策。

通信作者: 楚晓丽(1985-),女,山东阳谷人,博士,主要研究方向为中医药数据挖掘、智能决策等。