罗雨宁 景慎旗
【摘要】 随着互联网应用的发展,越来越多的患者通过在线健康社区获取健康信息。以“甜蜜家园”为例,通过描述性统计和聚类模型,分析用户行为特征,对论坛用户生成内容进行主题聚类并绘制词云图以挖掘用户需求特征,从用户行为和需求两个维度构建用户画像,以期为在线健康运营者提供启示和建议方法,更好地为用户提供服务。
【关键词】 在线健康社区 用户聚类 主题聚类
引言:
随着互联网、社交媒体的广泛应用,越来越多的患者通过网络获取疾病和诊疗信息,在线健康社区(Online Health Community,OHC)应运而生。有研究指出,慢性病患者会主动通过博客或论坛来寻求健康信息,并与具有相似经历的人群共享信息、彼此支持[1]。通过在线社区,用户不仅可以互相交流心得、共享医疗信息、进行专家咨询等,OHC的社交属性还能够为用户赋予个体对自我意识的感知,提高自身对群体的情感依赖和社会认同[2]。同时,OHC的技术特点可以保障用户信息的匿名性,提供相对安全和可信任的沟通环境,激励用户创造更多内容。
通过用户大数据实现对OHC用户的精准定位,对用户健康及社区运营发展至关重要。深入分析用户行为特征及用户生成内容(User Generate Content,UGC)有助于论坛运营者和社会各界深入了解患者需求,提升OHC的服务水平,为患者提供更多个性化、人性化的服务内容。因此,本文通过采集糖尿病在线社区“甜蜜家园”(http://bbs.tnbz.com/)的用户数据,对其行为特征和需求特点展开分析,实现用户行为、需求与用户属性的关联,旨在为更加有效、精准的信息服务提供启示和建议。
一、相关研究
在线健康社区用户行为指用户通过社区平台浏览信息、发帖、评论等行为。张敏等通过深度访谈和扎根理论,梳理分析在线健康社区用户诊疗信息求助行为的影响因素及机理。[3]
翟羽佳等通过采集百度贴吧主题帖、发帖人、发帖时间等信息,对用户发表主题和帖子数、用户活跃度与存在期以及好友关系网络等信息进行分析。研究发现,活跃用户已经形成了稳定的群体,但也成为了新用户加入的壁垒。其次,评估好友关系对用户信息发布行为的影响,发现社交支持对于在线健康社区用户积极性存在较强的正向推动作用。[2]
张海涛等从用户角色和行为、用户需求维度构建在线健康社区用户画像概念模型,并构建用户标签概念格,通过关联规则挖掘用户行为规律。[4]徐孝婷等通过调查问卷获取老年用户健康信息需求,并结合马斯洛需求层次理论对信息需求展开分析并提出对策和建议。[5] Liu等通过主题模型分别对男性用户和女性用户的发帖内容进行对比分析。[6]
本文将从用户行为、用户需求两个维度对糖尿病在线社区用户属性进行分析,展示在线健康社区用户基本行为特征,通过对用户基本特征进行聚类,揭示在线健康社区的用户角色,进一步通过自然语言处理和主题聚类模型挖掘用戶需求特征,全面展现用户参与社区交互的行为和需求特征,为社区运营优化和服务升级提供数据支撑和方向。
二、数据获取
“甜蜜家园”是国内较大的糖尿病在线健康社区,目前拥有约45万用户,提供多个糖尿病主题板块。利用Python爬虫工具共采集到454759条用户数据,包括性别、年龄、疾病类型、好友数、发帖数、回帖数、注册时间、最近登录时间、累计在线时长等信息。
经过数据清洗,剔除“僵尸用户”,排除缺失值及异常值数据,最终得到46967条用户信息。此外,共采集14.4万条用户发帖及其所有回帖,使用结巴分词及哈工大停用词表、百度停用词表完成对文本数据的预处理。数据采集时间为2019年5月23日。
三、数据分析
3.1描述性统计分析
对46967条用户数据进行描述性统计。论坛用户以30多岁的青年人为主,男性用户明显多于女性用户,其中II型糖尿病患者占比最大,家属占比达14%。从用户行为特征来来看,发帖数、回复数的中位数都是0,大多数用户是“沉默”的。
注册时长指用户注册时和数据采集时的时间间隔,数值越大则注册时间越长,从表1可以看出论坛用户平均注册时长超过3年。最近登录时间指最近一次登录与数据采集时的时间间隔,数值小表示用户近期有登录行为,可以看出多数用户近3年未登录过论坛。累计在线时长中位数是0,过半用户累计在线时长不到1小时。
3.2用户聚类分析
选取性别、年龄、疾病类型、好友数、发帖数、回帖数、注册时间、最近登录时间、累计在线时长信息,经过标准化处理后采用K-means聚类算法进行聚类。通过肘部法确认聚类簇数,选取3作为最佳k值。对聚类结果降维,最终得到3个簇,聚类中心如表2所示。
其中,聚类1中用户年龄最小,在论坛登录、发帖、回复等行为较活跃,且注册时间较短,因此将其定义为活跃新用户。聚类2中用户注册时间最长,但很不活跃,很多用户注册后却很少登录论坛,逐渐成为论坛流失用户。聚类3中用户年龄相对较大,行为较不活跃,但近期仍有登录论坛,称其为沉默用户。
3.3主题聚类
LDA(Latent Dirichlet Allocation,LDA)模型在文本语义分析中被广泛应用,由Blei等在2003年提出,它是一种三层贝叶斯概率模型,是无监督的机器学习模型。[7]LDA模型可以自动提取文本主题,解决单词、主题和文档间的语义关联问题。[6]
通过抓取论坛数据,共获得144209个论坛帖子,经文本预处理后,采用LDA模型提取主题。经过实验,当主题数为9时模型运行结果较好,如表3所示,论坛用户话题主要围绕诊疗、健康管理、血糖仪、血糖监测、胰岛素、心得交流等,此外还有很多帖子聚焦新用户欢迎、好友聊天,具有明显的社交属性。
3.4词云图
对分词结果进行词频统计,结果见图1。词频排名前10的词汇分别是记录、健康、血糖、糖尿病、胰岛素、大家、控制、空腹、运动、谢谢。可以看出,论坛用户讨论内容集中于血糖监测和控制。根据金碧漪[8]提出的八大糖尿病病主题,“甜蜜家园”关于糖尿病并发症、社会生活、疾病预防、教育和研究的内容较少,内容质量较低。
四、结束语
根据用户特征分析结果,一方面可以针对性地实施增加用户粘性的举措,例如:挖掘论坛活跃用户,做好KOL(Key Opinion Leader)运营,向新注册用户推荐高质量内容和用户,防止新用户的快速流失,通过移动端APP推送消息,提高论坛服务的易用性等。另一方面,可以进一步提升论坛内容质量,如邀请医生、健康管理专家开展在线讲座和咨询活动,激励患者分享经验等。
本文聚焦患者用户的行为特征和需求特征,未关注医生用户群体,存在一定局限性。后续研究可以对两类用户群体展开对比研究,还可以进一步对医生论坛和患者论坛做比较分析,充分挖掘在线健康社区用户特征,为社区的进步提供更多方向。
參 考 文 献
[1] Han J Y, Shah D V, Kim E, et al. Empathic exchanges in online cancer support groups: distinguishing message expression and reception effects[J]. Health communication,2011,26(2):185-197.
[2] 翟羽佳,张鑫,王芳.在线健康社区中的用户参与行为——以”百度戒烟吧”为例[J].图书情报工作,2017,61(7):75-82.
[3] 张敏,刘雪瑞,张艳.在线健康社区用户诊疗信息求助行为形成机理的概念模型——基于扎根理论的探索性研究[J].情报科学,2019,37(4):22-28.
[4] 张海涛,崔阳,王丹等.基于概念格的在线健康社区用户画像研究[J].情报学报,2018,37(9):912-922.
[5] 徐孝婷,赵宇翔,朱庆华.在线健康社区老年用户健康信息需求实证研究[J].图书情报工作,2019,63(10):87-96.
[6] Xuan L,Min S,Jia L.Research on gender differences in online health community[J]. International Journal of Medical Informatics,2018,111:172-181.
[7] David M B,Andrew Y N,Michael I J.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[8] 金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105.