夏立新 胡畔 刘坤华 翟姗姗
Web2.0时代为在线健康社区用户带来了全新的、自由的、互动的社交体验,但在用户无拘束表达自我的同时却受到诸多问题的困扰。一方面,健康社区相对于普通社区具有特殊性,这主要是由医疗健康问题的复杂性及专业性所决定的。患者用户通常不具备清晰表达以及快速定位自身所需信息并进行鉴别的能力,在健康社区搜索、浏览的过程中被海量无关信息裹挟会使得用户对于自身疾病的困惑情绪难以排遣,极易产生对于社区的不信任感,进而使其社区参与感难以得到保障。另一方面,我国在线医疗用户规模不断增加,加速了在线健康社区服务场景范围的扩大以及服务场景深度的进一步细化,传统导航、关键词检索等信息服务模式已难以全面满足医学健康领域用户的实时信息需求。在此情形下,信息推荐作为一种具有高度交互性的数字化信息服务,随着相关算法的逐步成熟越来越受到各行业信息服务研究者们的重视。
凭借对象聚焦化、需求精准化、特征标签化等优势,用户画像为该系列问题提供了新的解决途径:从用户群体中抽象出典型用户需求,在某种特定的情境下抽取出真实用户行为数据,形成描述用户需求与行为的标签集合,刻画细粒度、多维度的活跃用户画像,从而为用户提供更加个性化、多样化的信息推荐等服务。基于此,本文以信息推荐服务为导向,融入信息推荐场景要素,丰富用户画像的标签体系,从而更为全面地刻画在线健康社区用户。
用户画像即用户信息标签化,采用一定的技术方法将用户的自然属性、社会属性、行为习惯等维度的特征提炼成标签,形成较为完善的用户标签体系。用户画像作为描述目标用户、提高决策效率的有效工具,一经提出便被广泛应用到电子商务领域[1]。当前,国内外已有较多领域开展了有关用户画像的理论与应用研究。相关学者结合当前的环境和用户画像理论基础,通过内容分析、主题挖掘、社会关系网络、聚类、可视化等方法,对图书情报、旅游、教育、医疗等行业进行应用研究,揭示了多个领域下用户的需求与行为特征规律[2-5]。
在“健康中国”的战略下,全民健康意识大幅提升,用户健康信息需求个性化、多样化特征愈发显著,用户画像在健康医疗方面的应用也越来越广泛,涉及多种应用模式。如个人信息管理方面,健康医疗用户画像聚焦于用户健康信息资源管理,Wang等人提出并研发的用户个性化健康信息管理系统[6];刘莉等人从患者个性化需求的角度出发,基于慢性疾病患者健康画像开发了健康管理系统[7]。在精准服务方面,唐晖岚等人通过采集书签数据构建了网络健康信息精准服务模式[8];郭顺利等人采用用户群体画像为高校大学生提供精准化服务[9];张海涛等人利用概念格进行在线健康社区用户群体聚类以实现精准服务[10];王凯等人基于模糊概念格建立多粒度用户细分模型,精准化定位用户的需求[11]。在个性化推荐方面,Abidi等人根据用户的谈话内容进行健康信息的推荐[12],Lerouge等人研发了面向老年用户的健康信息推荐系统[13],翟姗姗等人基于用户病情画像与用户兴趣构建了个性化信息推荐模型[14]。由此可知,用户画像在个人信息管理、精准服务、个性化推荐等多个方面都有一定研究成果,在健康医疗领域具有良好的应用前景。
在线健康社区内,用户行为所包含的信息量巨大,是构建与完善医学用户画像重要的参考维度。在线健康信息行为是指用户利用互联网寻求、获取、评价、分类和利用健康信息以满足个体的健康信息意识和需求的一系列信息行为。目前国外与国内在线健康信息行为方面的研究方向存在一定区别,但均已取得显著成果。国外用户在线健康信息行为研究主要包括4个研究方向,分别是在线健康信息搜寻行为、在线健康信息素养教育、在线健康信息服务使用行为和在线健康信息交流行为;国内在线健康社区用户健康信息行为的研究涉及信息披露行为、信息获取与搜寻行为、信息共享行为、信息服务使用及持续使用行为、社会支持行为等多种行为类型。由此可见,从传统的信息科学角度而言,用户在线健康信息行为主要包括健康信息浏览行为、信息搜寻行为、信息共享行为和信息利用行为。
近年来,一些学者在前人研究成果的基础上,借鉴相关理论或方法对用户在线健康信息行为进一步探索。如张鑫通过案例研究方法将在线健康社区的用户参与行为类型划分为求助类、提问类、描述类、情感表达类、经历记述类、知识分享类、社交类、质疑类、广告类以及无关行为共十大类参与行为[15];翟羽佳等人采用社会网络分析方法按照长短期和活跃度划分用户,对用户的社交支持需求进行深入分析[16];杨梦晴和朱庆华采用K-Means聚类方法将在线健康社区中个人健康管理行为界定为健康信息发现、健康信息互动和健康信息分享行为[17]。在线健康领域用户信息行为的研究方兴未艾,探索用户参与在线健康行为的特征和内在机制,有助于把握用户需求及其演化规律,为在线健康信息服务提供有益的参考和目标导向。
在线健康社区信息服务的方式是由社区运营的首要功能和服务内容所决定的。如美国权威医患交流论坛MedHelp,主要提供用户个人健康管理和专家问答服务,用户可以通过网站导航、检索框和信息推荐的方式获取健康信息;PatientsLikeMe作为综合疾病的病友交流社区,聚焦于个人病历管理、相似病理展示以及疾病自查等服务内容,社区为用户提供导航、检索等基本服务的同时也为其推送有类似健康状况的病友信息。国内健康网站“好大夫在线”为用户提供就诊、问诊咨询搜索服务及疾病、药品、保健知识的推送服务;“甜蜜家园”通过主题帖分享的形式为用户提供糖尿病问答、疾病自查及知识科普推荐等服务。通过上述国内外典型的在线健康社区服务与运行模式可知,市场上已有的在线健康社区信息服务方式,按照健康用户需求可大致分为个人健康信息管理服务、健康信息搜索服务、健康信息咨询服务和健康信息推送服务,其信息服务方式较为多样。然而,对尚未明确病情的用户而言,传统的网站导航和搜索功能难以满足其实时需求,易出现重复查询、返回无关网页等问题。其中,信息推荐服务模式充分利用了用户个人数据、行为数据、社会关系数据和UGC等各类数据,能够更好地为用户提供个性化的健康信息[18]。
综上所述,目前已有的在线健康社区信息服务方式具有交互性强、多样化等特点,但满意度却普遍不高。而用户画像已在多领域、多研究情境中取得相对成熟的应用成果,在医学领域中也显现出极大的发展潜力,能够借此发现在线健康社区用户群体特征、挖掘用户核心健康需求从而提升用户满意度。然而,用户画像起源于电子商务领域,大多是以企业或平台的利益为主要目标,而不是以用户需求为主要目标,因此并非完全适用于在线健康社区的信息服务。此外,常见的用户画像构建标签体系维度较为单一,局限于用户自然属性与领域属性,未充分考虑健康社区信息服务的场景属性、病情属性等维度,难以适应个性化、多样化的用户健康信息需求特征。基于此,本文以精准投放、场景化推荐等信息服务方式为导向,充分利用用户信息行为数据,以刻画出更为细致完善的用户全貌。
用户“井喷式”的健康信息需求使得用户信息行为产生大幅差异,其在在线健康社区内的活动场景也愈加丰富,因此在社区场景布局上便要充分考虑信息推荐的多维度场景及各场景中的代表性要素。故本文以用户信息需求为准则,在划分在线健康社区信息推荐场景的基础上,归纳信息推荐的场景要素,为在线健康社区用户画像建模与实证提供理论支持。
不同类型的用户信息行为能够一定程度上体现用户的心理状况和信息需求。本文通过调研在线健康社区“甜蜜家园”帖子标题的方式,采集儿童糖尿病板块下2020年1月至2021年1月用户发布和回复的主题帖标题文本,参考在线健康社区已有研究中对用户兴趣偏好、参与内容和行为类型的分类结果[15-17],结合用户信息需求特质进行用户行为类型的划分。
(1)搜索类用户需求
在线健康社区搜索类用户行为包含求助、提问类行为和社交扩展类行为。发生求助类行为的用户倾向于在发布主题帖时使用强情绪类词汇,如“真心”“(着)急”等,十分需要情感上的支持;发生提问类行为的用户对相关病情认知较浅,因而容易产生观望的心态难以决断;发生社交扩展类行为的用户社交能力较强,发帖内容中包含较强互动需求。发生搜索类行为的用户共同特征表现在对知识、社交等新事物强烈而迫切的探求心理。
(2)分享类用户需求
在线健康社区分享类用户行为包含知识分享和医疗广告类信息行为,该类型用户具有较强的创作能力。发生知识分享类行为的用户包括专家和普通用户两类,发帖内容主要是专家提供专业信息咨询服务,以及普通知识分享类用户搬运专业人士生产知识;医疗广告类行为是指在在线健康社区中发布以治疗方案、药物、治疗仪器等广告以及求购信息等主题帖。对于发生分享类行为的用户,应关注其社交方面与自我展示方面的需求。
(3)提供类用户需求
在线健康社区提供类用户行为包含记叙描述类行为和情感互动类行为,该类用户行为的动机一般包括记录生活、寻求认同或即时的感受。如记叙描述类信息行为叙述了用户自身或患病亲属的患病、治疗等相关情况或经历;情感互动类用户并不展示具体的问题等,而仅为了抒发当前心理状况及情绪情感。该类行为体现用户个性化需求、创作需求、社交需求以及即时需求。
通过上文对在线健康社区用户信息需求与信息行为的深入分析,本文采用网页定位的策略划分场景,将在线健康社区信息推荐场景划分为社区首页、个人主页、信息详情页、用户发帖页四类[14],并初步建立在线健康社区网页定位与用户行为间的联系,再结合不同场景下用户对信息推送内容的实时需求,关联场景与用户需求,最终确定以“网页位置-行为-需求”为依据的在线健康社区信息推荐场景划分策略,如表1所示。
表1 在线健康社区信息推荐场景划分标准Table1 Classification Criteria for Online Health Community Information Recommendation Scenarios
社区首页场景下,用户一般有较强的欲望探索新的主题信息,其信息行为以浏览、搜索为主;个人主页场景下则侧重于与用户自身兴趣、偏好相关的信息,部分用户易产生社交需求,发生社交扩展类信息行为;信息详情页场景下则常常更需要与当前信息相关的内容,用户易被当前主题触发情感互动和记叙描述类提供行为;发布页面下用户具有较强的表达欲和求知欲,易发生分享和提供类信息行为。
基于此,本文综合网页位置、用户需求和用户行为特征,最终将在线健康社区信息推荐场景划分为四类,即:基于猎奇心理的社区首页场景、基于用户自我意识的个人主页场景、基于当前主题的详情页场景、基于用户内容生产能力的发布页场景。
学者们关于场景要素的研究已有精辟的论述,具有代表性的观点包括罗伯特和谢尔提出的场景五力理论[19],彭兰提出的移动时代场景四要素等[20]。然而,这些场景要素并不都是面向信息推荐服务的,甚至不都是面向信息服务的。目前面向信息推荐服务的场景要素研究主要集中于图书馆、电子商务等领域。图书馆领域有关场景划分或构造策略的研究成果较为丰富,例如,针对高校移动图书馆资源推荐的用户、兴趣、时间、位置、设备五类场景要素的理念[21],以及从“场景-情境-用户”三个维度实现的移动图书馆场景化服务要素配置的策略[22]。电子商务领域场景要素的分类主要倾向于用户个性化,有学者将移动电商环境下的场景推荐要素归纳为用户、位置、时间、环境、设备五类[23];还有学者将传统场景五力要素嵌入创新商业服务模式中,促使推荐服务效用由“千人一面”向“千人千面”转变[24]。
因此,本文综合已有的场景要素相关研究,着重考虑各场景要素对信息推荐服务的支撑能力,并结合实体物理环境和虚拟网络环境,将在线健康社区场景要素归纳综合为四类,即用户要素、兴趣要素、时空要素和设备要素。如图1所示。在线健康社区信息推荐的场景要素归类需要充分考量在线健康社区的特有性,并对于其中各类要素信息进行合理的取舍,如删除难以体现用户健康特质的职业、婚姻状况等冗余信息,增加病情、居住地等信息的精准获取。对场景进行精准化处理,能够增强后续构建用户画像模型过程中对用户标签进行取舍与分类的合理性与科学性,以提升用户画像模型在信息推荐服务中的可用性。
图1 面向信息推荐服务的在线健康社区场景要素Fig.1 Scenarios Elements of Online Health Community Oriented to Information Recommendation Services
上文基于用户需求划分了信息推荐的四类基本场景,并明确了面向在线健康社区信息推荐服务的四大场景要素。基于此,本文通过建立信息推荐场景要素与用户画像标签的关联关系,识别不同信息推荐场景下的要素标签,构建在线健康社区用户标签体系,并基于形式概念分析实现用户画像建模。
用户画像是实现信息推荐的重要参考体系,不同场景下用户的需求具有明显的差异,这种差异也体现在用户画像的标签识别上,各场景下用户需求特征属性标签识别的过程也是场景与标签建立连接的过程。
本文对四种网页位置中用户的需求-行为特征展开分析,并将用户画像标签与其适应的场景关联,以识别不同信息推荐场景下的要素标签,如表2所示。
表2 四类信息推荐场景下的要素标签分布Table 2 Distribution of Element Labels in Four Types of Information Recommendation Scenarios
社区首页的任务是捕获用户兴趣点,来源于用户浏览首页时寻求新奇事物的猎奇心理。因此,该场景与用户的当前情境联系紧密,在社区首页,用户常常没有明确的需求倾向,对推荐信息的类型、主题具有较强的包容性。因而,用户倾向于获得热门信息和最新信息的推送,时空要素和设备要素所包含的标签内容更能体现用户在该场景下的动态需求。
在基于用户自我意识的个人主页的场景下,用户显然希望获取能够满足其个性化需求的信息,既包括需求内容的个性化,也包括其信息阅览、交互中的偏好信息,如不喜欢视频类资源。因而,对其进行信息推荐时可以综合利用用户要素、兴趣要素、时空要素和设备要素所包含的各类标签,使用个性化推荐策略满足其多维度需求。该场景下用户的需求仍然是以搜索行为为主,部分用户易萌生社交类需求。
用户进入详情页后,即提供了一个捕获用户即时需求和猎奇心理的独特场景,进入这一场景的用户是受到某主题的吸引,更易对相似的主题或该主题帖作者所生产的其他内容产生兴趣。因而,用户倾向于获得与当前主题相似的信息推送,但推送结果需融合主题语义和用户病情双重特征,用户要素和兴趣要素所包含的标签便不可忽视。在该场景下,用户更愿意表达自己对该主题的见解,发生描述记叙或情感分享的提供类信息行为。
在线健康社区的帖子发布页面较为特殊,一般平台的发布页面只有当前热门话题的推荐,而在线健康社区用户发帖时往往是需要解决病情上的困惑。因此在在线健康社区用户帖子发布页面的场景下,需要调动用户要素、兴趣要素、设备要素为其进行推荐,此时的用户兼具求知欲与创作欲,其分享类和提供类信息行为特征明显。
本文所构建的用户标签体系以用户场景化需求为出发点,基于上文识别的信息推荐场景要素标签,将用户特征属性划分为以下几个维度。(1)用户基本信息属性维度,包括用户自然属性和用户病情属性,属于用户要素的范畴。其中,用户的病情属性是在线健康社区中最具有代表性的一类特征。(2)用户信息行为属性维度和用户能力属性维度,属于用户兴趣的范畴,相对于用户信息行为属性中各类行为数据的量化,设置用户能力属性则倾向于采用二值判断的方式直观反映用户能力的强弱。(3)情境属性维度中的特征标签分别对应两个范畴的要素标签,即时空要素和设备要素,收集各类标签主要用于满足用户的即时需求,以及用于判断用户是否具有明显的个性化特征。
由此可知,不同用户属性维度包含的特征标签内容有所差异,与其所属的信息推荐场景要素范畴具有一定的映射规则,具体如表3所示。
表3 信息推荐场景要素标签范畴与画像维度映射表Table 3 Mapping Table of Label Categories of Information Recommendation Scenario Elements and Portrait Dimensions
一般而言,用户标签体系的构建信息维度越完善,属性描述越详细,则越可能挖掘更多的用户特征与关联规则。然而,在构建用户标签体系时,还需要参考业务流程及服务目标对各级标签进行合理取舍,使其能够适应系统服务的目标。基于上述的要素标签映射规则,综合不同信息推荐场景下的用户需求构建在线健康社区用户标签体系,如图2所示。
图2 基于要素标签的在线健康社区用户画像标签体系Fig.2 User Portrait Label System of Online Health Community Based on Element Labels
形式概念分析又叫概念格(concept lattice),是一个以概念为元素的偏序集,它可以通过Hasse图可视化,其中每个节点是一个形式概念,实际意义是揭示每个节点或者说属性特征间的关系。其工作原理是通过对频繁项集的挖掘,建立形式概念背景模型,从而找到用户需求的特征和关联,进一步实现相同需求用户的聚类和不同需求用户的区分。因此,基于形式概念构建在线健康社区用户画像模型,其实现流程主要包括用户特征标签化、概念格构建和关联规则生成。
(1)用户定位与特征细分
该步骤即用户特征标签化的过程,借助于结构化信息处理的思想实现自然语言处理以便计算机理解和应用。用户信息包括结构化数据与非结构化数据,对于结构化数据,例如发帖量、好友数可以直接用于标签的生成处理,而大量的用户标签需要通过对非结构化文本的分析才能获取。因此,可以采用对整体文本切分词的方式统计词频,保留有实际意义的中高频词,即可用于判断用户需求、划分用户类别以及确定用户属性的词。以糖尿病为例,通过构建用户画像标签体系细分模型维度,将用户特征属性标签与各维度一一映射,形成更加全面的用户特征标签集,如图3所示。
图3 在线健康社区用户定位与特征细分Fig.3 User Orientation and Feature Segmentation of Online Health Community
基于形式概念的用户标签体系构建需对各属性数据进行标准化。以本文在线健康社区用户画像中最为典型的病情特征标签为例,就患病类型、症状及治疗方案等属性而言,相对于数值型数据形式,文本型属性特征更能代表用户的健康特征,且在健康社区内容中出现频率更高,因而以糖尿病为例,在对主题文本进行语义抽取后,采取文本标签分类的形式进行处理,如表4所示。
表4 用户病情属性标签分类表Table.4 Tags Classification of User State of Illness
(2)构建概念格
概念格的出发点是布尔型数据,因而本文研究中存在的大量数值型、文本型数据需要经过处理才能生成Lattice形式。
就概念格对象而言,其对应指标属性只有“空白”(不存在)和“X”(存在)两种可能,为降低概念形式分解后的高维稀疏数据矩阵的消极影响,需采用RFM模型对用户进行精细化筛选。该模型是通过三个指标,即消费时间间隔(recency)、消费频率(frequency)和消费金额(monetary)将用户划分为8个类别,从而能够帮助企业为每个类别的客户推送不同的服务。其后再对典型用户群体实现概念格聚类,就概念格属性而言,概念格的呈现需要严格控制属性的数量,过多的属性会导致最终可视化图形效果不佳,所以在编辑形式概念背景时,尽可能保留最能体现用户特征和偏好的属性标签,而对其他属性标签采取删减、合并等方式进行整合,形成形式概念背景(context)。
(3)关联规则生成
概念格聚类统计的结果是每种标签出现的频率,以及各标签属性之间的联系,这种关系可以通过各频繁项集的推理从而实现关联规则挖掘。利用属性联系可以实现各频繁项集的推理,挖掘其中的关联规则。对于大量Lattice生成的规则,可以通过对最小支持度和置信度的设置进行规则筛选,从而得出符合推荐和应用场景的用户类型,通过Hasse图中标签属性之间的关系可以实现用户画像聚类。
基于关联规则的分析旨在搜寻属性两两之间的关系,置信度和支持度作为关联规则中两个评价指标,通常用来判断关联规则的可靠性和重要性。其中,支持度是指规则中某属性出现的频率,若是属性集合D有s%的属性包含XY,则称在D中关联规则XY的支持度为s%,实际上,可以表示为概率P(XY),即Support(X,Y)=P(XY),如公式(1)所示。
置信度指规则的强度,含义是集合D中c%的属性包含X的同时包含XY 。如果说X支持度是Suppor(tX),那么规则的置信度则表示为:Support(XY)/Support(X),此时为条件概率P(Y|X),即Confidence(XY)=P(Y|X),如公式(2)所示。
本文获取典型在线健康社区用户数据,采用RFM模型对用户进行筛选,定位目标用户群体;再对用户特征进行标签化处理;最后对典型用户群体实现概念格聚类。
传统以医生为中心的垂直型社区中信息并不能集中呈现,而是散落分布于各个疾病板块中,而以糖尿病这一单一疾病为背景的综合类在线健康社区具有极高的专指度,用户需求相对集中,信息资源特征更为突出。因此,本文选取糖尿病论坛“甜蜜家园”作为在线健康社区实证的数据来源,使用python爬取其“儿童糖尿病论坛”相关数据(爬取时间为2021年1月25日),总样本为2020年1月至2021年1月有回复的主题共150个,主题下的评论帖2,328条,涉及用户1,097名。获取的用户属性仅包含用户昵称、用户性别、年龄、关注主题、发表主题贴及评论帖、注册时长、在线时长、患病类型、症状和治疗方案。
以上的用户数据兼具文本、布尔、数值类型,与概念格构建的出发点相去甚远,因此结合用户筛选模型,并对照用户画像概念模型细分模型维度。本文采用的用户筛选模型是RFM模型,指标映射规则如图4所示。
图4 RFM 指标映射Fig.4 The RFM Indicator Mapping
因此,首先筛选出一年内有回复的主题帖发表者和最近一年内发布评论的用户,去除身份重复,保留用户共103人;其次对103名用户RFM三项指标的数值取均值进行比较;最后按每项高于平均值或低于均值分为八类,每种类型选择2名用户,共计16名典型用户,为保护用户隐私,对其昵称进行处理,如表5所示。
表5 RFM 典型用户Table 5 Typical RFM Users
定位RFM模型筛选出的目标用户群体,并采用画像标签对其进行概念格聚类,其实现过程分为以下几个步骤。
(1)编辑context
利用Conexp工具构建概念格,构建对象即RFM模型的16名典型用户,构建标签包括男、女、成年人、未成年人、I型糖尿病、II型糖尿病、妊娠型糖尿病、其他、酮症酸中毒、血糖异常、感冒发烧、呕吐腹泻、体型异常、无特殊症状、预防、手术治疗、药物治疗、日常护理、社交型、非社交型、内容生产能力强、内容生产能力弱、搜索行为>Avg、搜索行为≤Avg、提供行为>Avg、提供行为≤Avg、分享行为>Avg、分享行为≤Avg,共28个维度,如表6所示。其中“X”格代表1,即用户有该标签,空白格代表0,即用户没有该标签,某列越稀疏则意味着具备该属性的对象数量越少。
表6 context 标签编辑(部分)Table 6 Context Label Editing(Partial)
(2)Lattice用户画像生成
对构建好的概念形式标签生成Lattice,得到整体Hasse图,如图5所示。其中每个圆形节点代表一个概念,连线表示超概念与其子概念间隐含的关联关系,每个节点上的数字标签表示该概念具有的对象数量及其概率。可以看到,Hasse图中共包含四类圆形节点,绿白色节点表示该概念包含一个属性,白黑色节点表示该概念含有一个对象,绿黑色节点即代表该概念有一个属性且有一个对象,而白色的节点则是潜在概念,圆形节点越大则说明能支持该概念成立的对象越多。概念包含的属性名称用灰色矩形标识,随着层次的增加,该层概念具有的属性逐渐增多,具有这些概念的对象数量逐渐减少。
(3)用户画像聚类
由Lattice进行用户画像聚类后的属性标签可以揭示社区内用户群体的主要特征,并借助属性出现的频率完成用户特征等级的排序。以对象所含标签数量降序排列,聚类得到特征最为突出的四类用户群体,即“观望型用户群体”“宣传型用户群体”“高产型用户群体”和“经验型用户群体”。这四类用户群体所具有的属性及其数量,以及含有该属性对象数量、占比如表7所示。
表7 用户类别及其属性-对象Table 7 User Categories and Their Attributes-Objects
通过用户画像聚类得出上述四类典型用户群体,均为“甜蜜家园”中具有代表性的用户群体,属性标签数量越多,对于该用户群体的描述便越精细,基于这部分标签构建的画像准确性就更强。此外,对用户进行信息推荐的前提是确定用户的具体类型,本文通过比较用户标签与具体用户类型属性标签的重合数量来明确用户类型。当某用户标签与多个类别的用户属性标签重合数量相同时,说明该用户隶属于多个类别,则采用混合推荐的方式,即综合不同类型用户群体的推荐方案进行推荐。不同类型的用户群体具体分析与健康信息推荐方案如下。
(1)观望型用户群体
该类群体聚集了81%的典型用户样本量,是维持社区运行最重要的基数,主要围绕患病类型、治疗手段和相关症状的病情问题进行提问和讨论,其Hasse图生成结果如图6所示,图中节点与连线内涵同图5。以观望型用户群体Hasse图中所含概念标签及对象占比生成用户群体画像,如图7所示。该类型用户在社区内倾向于潜水、观望,在社区中也缺乏互相关注的好友。同时,该类用户的注册和发帖时间较早,但用户活跃度不高、等级较低。其中,用户A注册时长1,040天,好友数仍为0,总发帖量仅有7篇,帖子的评论回复总数共20条,是“观望型”用户的典型代表。
图6 “观望型”用户群体概念格Hasse 图(部分)Fig.6 Hasse Diagram of Concept Lattice of "Wait-and-See" User Group(Partial)
图7 “观望型”用户群体画像Fig.7 Portraits of "Wait-and-See" User Group
该类型用户个人信息普遍不够完善,对其进行信息推荐的重点是在社区首页场景下,结合当前日历以及用户IP地址推荐最新信息以及热门社区活动,充分调动用户对于各类健康信息的好奇心理与社区参与度,从而增加发文、交友、评论回复等行为。因此,针对该类型用户,“甜蜜家园”需要提高其忠诚度,使其对社区产生信任的同时增加发文量。
(2)宣传型用户群体
该类群体聚集了75%的典型用户样本量,倾向于科普预防知识、分享较为权威的健康信息,不常发生记录日常或是抒发情绪的提供类信息行为。这类用户发帖频率较为稳定,发文也是围绕糖尿病病情展开探讨,但由于其中部分用户频繁发布医疗广告信息,活跃度过高,在社区内获得的好友关注反而较少。其中,用户B注册时长611天,在线时长423小时,发布的1,264篇主题帖的评论回复数量仅有26条,且多数为自评或广告宣传,提供自身情况类的信息行为发生0次,是“宣传型”用户代表。
该类型用户提供类信息行为不足,其他用户对其信任度不高,因而对其进行信息推荐的重点是在帖子发布页面场景下,为其推荐能够引起其他用户关注和共鸣的主题标签信息,从而增加该类型用户的内容影响力。因此,针对该类型用户,“甜蜜家园”应该重视其内容生产能力,但需要加强对其发布内容的审核以保障患者类用户的权益与健康需求。
(3)高产型用户群体
该类群体聚集了69%的典型用户样本量,在社区内影响力较高,普遍关注病情症状和治疗手段等主题。该类型用户的内容生产能力、分享与提供行为均高于平均水平,且受好友关注程度较高,可推测其文章质量也高。高产型用户群体一般自身无特殊症状或疾病,用户角色主要为专业知识较为丰富的用户。例如,用户C注册时长5,285天,在线时长9,709小时,发帖总量为357篇,提供自身情况的信息行为发生126次,分享类信息行为发生223次,发帖内容较为权威,如“[原创] [2011更新]我们反对什么样的干细胞移植手术&常见误解辨析...”,且所发主题帖的评论回复达17,464条,是“高产型”用户群体中的典型代表。
该类型用户内容影响力高,为其进行信息推荐的重点是在信息详情页和个人详情页场景。一方面通过用户历史参与主题构建兴趣模型,为用户推荐兴趣内容相似度高的信息列表以激发其创作热情;另一方面,依据用户的社交能力,为其推荐好友圈用户参与或发布的主题,从而激活社区内互动行为。因此,针对该类用户,可以增设活动日历,带动社区话题讨论氛围,以新颖应季的活动主题扩大其影响力,可以考虑为其开设专栏,从而提高信息传播效率。
(4)经验型用户群体
该类群体聚集了69%的典型用户样本量,患病类型主要是I型糖尿病,患该类型糖尿病的儿童通常是遗传性获得。这部分用户包含儿童患者的监护人以及儿童时期患病的成年人,已养成在社区发布病情相关的主题帖和评论帖的习惯,各类病理知识储备丰富,属于资深糖友,平台黏性高。其中,用户D平台注册时长5,558天,在线时长13,172小时,发帖总量300篇,主题帖评论回复15,317次,提供自身情况类信息行为发生139次,好友数高达118,是“经验型”用户群体中的典型代表。
该类型用户个人信息完善,发布信息行为成熟,推荐重点是在个人详情页和帖子发布页面。在个人详情页需要更加关注经验值、好友互动等信息管理,为其提供个性化推荐服务以及增值服务;此外,该类型用户发帖数量高,在帖子发布页面除了为其提供与病情相关的主题短语式标签选项,还需推荐搜索热度高、专业化程度高的标签以增强其发布内容的阅读权重。因此,针对该类型用户,平台可以考虑将其设置为管理员,辅助论坛开展后续活动交流,鼓励其推送更为专业化的内容,并设置考核激励制度。
本文聚焦于在线健康社区信息推荐场景划分和用户画像构建整个环节,通过构建社区内用户画像以支持在线健康社区信息推荐服务新模式,以对传统的网站导航和关键词检索的信息获取方式进行补充。基于此,本文在充分考虑到在线健康社区自身特殊性的基础上,首先,采用文本分析方法,对在线健康社区用户信息需求与信息行为进行分解与归类;其次,基于用户需求划分在线健康社区信息推荐的四类场景,并明确了面向在线健康社区信息推荐服务的场景要素;再次,建立信息推荐场景要素与用户画像标签的关联关系,识别不同信息推荐场景下的要素标签;然后,构建在线健康社区用户标签体系,并基于形式概念分析实现用户画像建模。最后以糖尿病为例进行实证研究,构建了针对信息推荐服务模式的在线健康社区用户画像并通过聚类得到四类核心用户群体,便于平台针对各类群体特征属性的标签表现,为用户推荐符合其真实需求的健康类信息资源。
作者贡献说明
夏立新:提出研究思路,设计研究方案;
胡畔:论文起草与修订;
刘坤华:数据采集与处理分析;
翟姗姗:提出修订意见。
支撑数据
支撑数据由作者自存储, E-mail:1160708724@qq.com。
1.胡畔,刘坤华.Users.xlsx.用户数据及聚类结果数据.