王晋 支茵
摘 要:[目的/意义]生活习惯和饮食习惯等因素导致肥胖成为社会公众普遍关注的健康问题,减肥信息成为社会公众健康信息需求中的重要内容。文章对网络问答社区用户的减肥信息需求主题特征展开研究,主要关注不同性别用户减肥信息需求特征,为减肥信息服务的社会支持提供一定的帮助。[方法/过程]文章利用网络爬虫抓取“知乎”减肥话题下的问答文本数据,利用LDA主题模型对用户数据进行自动主题识别,通过分析主题特征发现用户减肥信息需求特征,并从性别差异视角分析不同性别用户的减肥信息需求差异。[结果/结论]用户减肥信息需求呈现出多样化、专业化的特点。网络社区用户在交流减肥信息的同时也在寻求情感的社会支持和获得情感的释放。男性用户的减肥信息需求更加科学化和专业化,注重身材的健美和营养的均衡;女性用户则更加关注能够快速改变身材外形的信息内容。
关键词:性别差异;网络问答社区;减肥信息;信息需求
DOI:10.3969/j.issn.1008-0821.2021.02.009
〔中图分类号〕G252.0 〔文献标识码〕A 〔文章编号〕1008-0821(2021)02-0089-08
Abstract:[Purpose/Significance]Obesity caused by lifestyle and diet has already become a health problem of public concern,and weight loss information plays an important role in needs of information on public fitness.This research focuses on the thematic characteristics of weight loss information needs of users in the online Q&A community,mainly focuses on the gender differences of individual in information needs on weight loss,as support the related social services.[Method/Process]The research implemented a web crawler to extract pieces of original information in the‘Weight Loss Sectionin‘zhihu.com,from which the LDA model was utilized to analysis.With the illustrated pipeline,demands for losing weight were differentiated from the perspective of gender differences by thematic characteristic analysis.[Result/Conclusion]The representations of the information needs on weight loss were diversified and specialized,and people who engaged in discussion and interaction of messages like this,were at the same time,seeking for emotional support and release.In the view of gender gaps,male prefers more scientific and professional information,keeping their body shape and balanced diet.Female was in favor of the content that leads a rapid change on their figure.
Key words:gender differences;Q&A community;weight loss information;information needs
中國互联网络信息中心(CNNIC)发布的第46次《中国互联网络发展状况统计报告》显示,截至2020年6月我国网民规模达9.40亿,互联网普及率达67%[1]。庞大的网民规模和不断提升的互联网普及率反映出互联网与群众生活结合日趋紧密,互联网在人们日常信息获取中发挥着越来越重要的作用。随着人们健康信息需求的不断增长,互联网由于其信息资源丰富、使用便捷等特点,正在成为社会公众获取健康信息的重要渠道。网络问答社区(Q&A Community)是以问题为核心、交互为手段、共享为模式的社交网络平台[2]。网络问答社区具有开放性、匿名性、便捷性、交互性等特点,已被社会公众广泛认可。网络问答社区以其特有的信息交互方式激发用户知识创新,用户的知识创新不仅有助于解决提问者和参与者的现实生活问题,甚至还能实现网络虚拟社区平台创新知识的输出[3],例如截至2018年11月底,网络问答社区“知乎”用户数破2.2亿,同比增长102%[4],输出《知乎周刊》《知乎「盐」系列》等高品质话题讨论的知识产出[5]。可见网络问答社区已成为公众搜寻与获取信息、解决日常生活问题不可或缺的信息资源平台[6]。
生活习惯和饮食习惯等因素导致肥胖成为社会公众普遍关注的健康问题,因此减肥信息也成为社会公众健康信息需求中的重要内容。腾讯广告与腾讯新闻ConTech数据实验室联合发布的《大健康行业数据洞察报告2019》显示,仅在2019年上半年,腾讯新闻健康内容的点击/播放量就突破了41亿次。用户最关注的生活方式关键词中“减肥”成为关注度最高的热词,阅读量达10 003.5万次[7]。越来越多的社会公众利用网络问答社区获取减肥信息、分享减肥知识与经验以及寻求社交和情感支持[8]。用户在利用网络问答社区获取和分享减肥信息过程中关注的热点内容是什么?不同性别人群的减肥信息需求有何差异?围绕此类问题,本研究以网络问答社区“知乎”为数据来源,利用文本挖掘的方法,针对不同性别减肥信息需求的主题特征展开探索性研究。
1 相关文献回顾
互联网的匿名性可减少患者的顾虑,能够更加真实地表达出患者的信息需求。公众利用网络问答社区在线咨询不受时间、空间的约束,能够随时随地进行提问,也极大地拓宽了获取健康信息的方式,对网络问答社区的问答内容进行文本挖掘研究,能够更好地发现患者真实的健康需求[9]。目前网络问答社区的健康信息需求研究,一般以问答内容为数据来源,采用内容分析、主题编码和文本挖掘等方式,发现用户关注的焦点内容,理解和揭示用户客观、真实的健康信息需求。
研究者关注的网络问答社区类型主要包综合性网络问答社区和在线健康社区(Online Health Community,OHC)两种类型。综合性问答社区涵盖与公众生活、工作和学习相关的各方面话题内容,用户数量大、内容丰富是其典型特点,研究其中包含的大量健康类相关问答内容能发现公众的健康信息需求。如An O等以2014年日本“雅虎问答”中与乳腺癌相关的问题为数据源,通过编码方式进行分类,在2 392个选定的问题中,确定了6个主要类别:疑似症状、筛查、治疗、生活、预防、其他,反映日本乳腺癌相关的用户信息需求[10]。金碧漪等以英文健康社区“雅虎问答”为例,抓取与糖尿病有关的8 762条提问记录,依据糖尿病信息的特点及分类策略对这些信息进行手工编码,通过文本处理获取表达用户信息需求的中心词,并以聚类的方式获取用户的最大关注点[11]。邓胜利等从“百度知道”平台中抽取6 888条有关高血压的提问和回答,并对这些文本进行研究,发现用户对于高血压健康信息的关注重点[12]。在线健康社区大致可以分为两类:一是医患互动形式的P2D(Patient to Doctor)社区,例如好大夫网站、寻医问药网等;二是病友间相互交流的P2P(Patient to Patient)社区,例如甜蜜家园、慢友帮等[13]。在线健康社区的参与者主要是医护人员、患者和患者家属等,主要专注于健康知识的交流和共享,分析在线健康社区的问答内容更能更加专业的获取用户健康信息需求。如李为在“寻医问药网”糖尿病频道抓取了共35 000条提问数据,对健康问答社区进行主题识别,挖掘患者真实信息需求[9]。石静等抽取“慢友帮”和“DailyStrength”两大在线健康社区中糖尿病主题下的问答数据,识别国内外健康问答社区用户信息需求的特征与异同[14]。
目前,网络问答社区的健康信息需求研究的常见思路是利用网络爬虫抓取获得问答文本数据,进行数据清洗之后,采用人工编码、词频统计或主题识别的方法发现用户关注的热点主题,揭示用户健康信息需求。网络问答社区的健康信息需求内容研究多以具体疾病为主题开展研究,目前主要关注的疾病种类有糖尿病[9,11,14]、高血压[12]、癌症[10,15-16]等。各类疾病的健康信息需求主要包括:症状、确诊、治疗、预防等主题。此外网络问答社区中的健康保健类信息需求正在被部分研究者所关注,如刘冰等指出在健康网络社区中,处于母亲身份转换初期(即备孕期)女性的信息需求呈现多样化特点,社交网络平台是处于该阶段女性的重要信息获取平台[17]。
减肥已成为社会公众广泛关注的日常健康保健问题,公众利用互联网获取和分享减肥信息的相关问题正在引起信息行为领域研究者的关注。Schwartz J等研究发现,大多数肥胖者试图通过互联网来获取减肥信息[18]。Cerri E M等指出,随着肥胖成为一个重要的公共健康問题,个人可以从YouTube上清晰、简洁的信息中获得有效、安全和长期的体重管理指导[19]。Alassiri S A等研究发现Twitter有助于公众获取健康信息,预防和治疗疾病,受访者中有59.6%的人关注减肥信息[20]。刘奕瑶研究发现,不同群体的肥胖人群都对网络健康信息有着一定的认可度,大部分人会主动搜索网络健康信息满足自己的需求,新媒体满足了肥胖者对健康信息的需求,新媒体的便捷性也让肥胖者寻找健康信息的过程变得轻松[21]。刘艳笑将减肥信息定义为,所有与保持或减轻肥胖程度,以保持适度体型或防病治病等相关的信息,包涵健身知识、医药知识以及饮食信息等诸多内容[22]。目前,已有少数研究者关注网络问答社区中的减肥信息需求,左贤莉采用关键词统计的方法对“39减肥论坛”中的帖子提取关键词进行主题归类,获得9类主题,并发现在“减肥宣言”“减肥咨询”和“减肥日记”主题下的帖子数最多,其次是“减肥成功”“情感表达”和“减肥运动”类帖子,而“减肥食谱”“健康研究”和“其他”的帖子数相对较少[23]。
纵观国内外现有研究,网络问答社区的健康信息需求研究正在被越来越多的研究者所关注,研究成果不断涌现,研究内容从关注常见疾病信息需求过渡到多元化的健康信息需求,健康保健类信息需求成为研究者关注的新热点。网络问答社区的减肥信息需求研究还比较少,对不同性别人群的减肥信息需求研究则更为少见,本研究拟从性别差异视角采用文本挖掘的方法,研究网络问答社区中不同性别人群的减肥信息需求主题特征。
2 研究设计
综合性网络问答社区的用户来源广泛,内容综合多元,更有利于获得多角度、全方位的公众观点和态度[24]。减肥是社会公众普遍关注的健康问题,全面调查网络问答社区中的用户减肥信息需求更适合选取综合性网络问答社区为数据获取平台。知乎用户来源范围广、层次多及其低商业化特点,使得从知乎爬取的文本数据能够反映更广泛、真实的公众观点、态度和立场等信息[24],故本研究选取综合性网络问答社区“知乎”为数据获取平台。本研究采用文本挖掘的方法,以“知乎”社区中“减肥”话题下的问答文本为研究数据来源,对非结构化文本数据进行深入挖掘与分析,通过抽取文本主题,进而识别出用户的减肥信息需求及特征。研究流程如图1所示,总体分为5个步骤:数据采集、数据预处理、选取最佳主题个数、构建LDA模型以及话题挖掘与对比分析。
2.1 数据获取与预处理
在遵循相关爬虫协议的前提下,通过自编Python网络爬虫程序抓取知乎减肥话题下2011—2019年间具有性别标识的有效数据共计120 549条,其中男性用户数据53 980条,女性用户数据66 569条,以此形成原始文本数据集。
为便于后续进行LDA(Latent Dirichlet Allocation)主题建模,首先对原始文本数据集进行清洗降噪处理,剔除无意义的链接及空格等,将英文字母大写转换为小写,将中文繁体字转换为简体字,然后利用Python第三方库——Jieba库对文本进行分词,并调用哈工大停用词典去除停用词。
2.2 LDA模型简介
学者Blei D M等在2003年提出了潜在狄利克雷分配(Latent Dirichlet Allocation)模型,简称LDA模型[25]。其核心是三层贝叶斯概率分布,主要思想是假设每个文档由多个主题构成,每个主题则是多个词汇上的概率分布[26]。
LDA模型生成过程可描述如下:
图2中,K为主题个数;M为文档个数;Nm为第m个文档单词总数;为每个文档下的主题Dirichlet先验参数;为每个文档下的主题Dirichlet先验参数;为第m个文档下的主题分布;为第k个主题下的单词分布;zm,n为第m個文档的第n个词的主题;wm,n为第m个文档的第n个词。
2.3 基于LDA模型的主题抽取
LDA模型主题个数K值需要预先给定并且在主题抽取实践中对主题敏感度较高,因此确定主题个数尤为重要。Blei D M等在2003年提出可以用计算困惑值(Perplexity)的方法来评价主题模型的泛化程度,从而选取最优主题个数。一般而言困惑值随主题个数的增多而递减,困惑值越小,主题的泛化程度越好[25]。本研究使用Python中的Scikit-learn库进行数据处理与分析。首先调用lda.perplexity()函数求取困惑值,遍历10~40个主题得到结果如图3所示,最终确定最佳主题个数为30。
然后调用LatentDirichletAllocation()函数进行LDA主题建模,其中主题个数n_topics=30,最大迭代次数max_iter=50。同时获取LDA模型中文档主题的概率分布,并根据不同用户类别,将文档离散到对应类别中,以求取不同用户对不同话题关注的强度。最后调用pyLDAvis()函数对总体主题分布进行可视化处理。
3 数据分析与讨论
3.1 数据量总体分析
在获取的120 549条具有明显性别标识的数据中,男性用户数据53 980条,女性用户数据66 569条。按年度分别统计男性和女性发帖量,用户发帖量年度趋势如图4所示。从用户发帖量趋势可以明确看出,从2011年起男性用户和女性用户的发帖量呈现同步波动和递增趋势,尤其从2017年开始,用户发帖量显著增加,表明用户对于减肥话题的关注度越来越高,减肥信息需求快速增长。2017年以后女性用户的发帖量明显高于男性用户的发帖量,表明女性用户比男性用户更加关注减肥信息。
3.2 用户信息需求主题特征分析
利用LDA主题模型对用户数据进行自动主题识别,通过分析主题特征发现用户减肥信息需求特征。用户数据的主题识别能够揭示用户信息需求的主要关注热点以及关注热度,但主题模型无法自动生成每个Topic的主题名称,故将抽取出的30个主题进行人工分类并命名。用户信息需求的主题特征分布如表1所示。为了直观识别主题比重及分布,本研究采用多维尺度分析(Multidimensional Scaling,MDS)利用主题间的相似性构建多维空间到低维空间映射,从而可视化LDA主题的相互关系,直观地识别核心主题,结果如图5所示。
如表1所示,综观数据可以看出用户的减肥信息需求呈现出多样化、范围广、跨度大等特点,重点鲜明且内容涵盖广泛。用户重点关注的减肥信息主要集中在经验感悟分享、健身训练、营养与饮食、减肥研究和节食减肥5方面,总占比超过80%。占比最大的是经验感悟分享类信息,比重达到35.7%,这表明知乎用户在网络问答社区归属感的驱动下更乐于交流和分享经验感悟。健身训练、营养与饮食和减肥研究占比分别为14.9%、13.7%和9.6%,与之形成对比的是减肥药与医学美容等主题仅占据总体比重的2.3%和1.6%,这体现出人们在减肥信息的搜寻、获取和交流过程中,关注重心聚焦于更加健康、科学的信息内容上,信息需求趋向专业化,而不仅仅只关注体重和外形的变化,逐渐摒弃了以损害身体健康为代价来换取体重减轻的减肥信息。值得注意的是节食减肥也占据了相对较大的比重,为7.1%,这说明在急切求美心理的驱使下,用户对能达到快速瘦身效果的相关信息需求也达到了一定比重。
如图5所示,主题分析结果表明与减肥信息主题最相关的30个关键词,排名前2位的关键词是“运动”与“健身”,这些词中大部分都与健身运动与营养饮食相关。我国学者对减肥的研究从20世纪90年代末开始由药物转向运动[27],随着人们科学素养的提高以及对健康的重视,与运动相关的信息在减肥信息中的出现频率攀升到了一个新的高度。越来越多的人更加注重科学的减肥瘦身,因此“健身房”“训练”“体脂率”“蛋白质”“脂肪”“热量”等关键词迅速成为减肥信息的常见内容。
3.3 性别差异下信息需求对比分析
根据每篇文档中的主题构成情况来计算出不同性别用户的信息需求差异情况,男、女性用户的减肥信息需求对比如表2和图6所示。
如表2和图6所示,不同性别用户对减肥信息的关注重点有着显著的差异,男性用户对健身训练、减肥研究和有氧运动的关注度明显高于女性用户,而女性用户对经验感悟分享、节食减肥、局部瘦身和减肥药的关注度要远高于男性用户。这表明男性用户相较于女性在减肥信息交流、获取与分享行为方面更加科学化和专业化,男性用户对运动和减肥研究的高关注进一步表明男性用户更加偏好用科学和健康的方法来实现形体的健美而不是在短期内追求身体的纤细。
经验分享类主题的比重在男性用户和女性用户的减肥信息需求中都占据了最大比重,女性用户的信息需求中经验分享类主题比重达到了43.9%,明显高于男性用户,表明女性用户比男性用户有更多的情感依赖和倾诉欲,孤独和压抑等情绪会促使其在网络空间中进行信息交互以寻求情感的社会支持或获得情感的释放[28]。同时也体现出网络问答社区不仅是一个重要的信息获取和交流的平台,也是一个情感倾诉的平台。
女性用户对于节食减肥、局部瘦身和减肥药等信息的高关注度表明女性用户比男性用户对身体纤细的外形有更高的要求。同时也有研究表明,在通过运动来减肥的对比实验中,男性用户往往比女性用户减去更多的体重,这与生理和心理的性别差异有着密切的关系,这也印证了本研究的结果,从侧面说明男性比女性更适合采用运动的方式来达到减肥的目的[29]。
4 研究结论与讨论
本研究利用网络爬虫程序获取“知乎”社区减肥话题下的文本数据,借助文本挖掘方法,分析得到不同性别用户的减肥信息需求,研究得出以下结论:
1)用户减肥信息需求呈现出多样化、专业化的特点。用户的减肥信息需求内容广泛、主题多样,具有科学化、多样化的特征。用户的减肥信息需求不仅仅局限于减肥本身和体重的变化,更加关注体脂率、饮食营养、睡眠、健身训练和有氧运动等更加专业的信息内容。
2)網络社区用户在交流减肥信息的同时也在寻求情感的社会支持和获得情感的释放。经验感悟分享在所有主题类别中占据了最高的比重,这表明用户在网络社区中更容易建立起归属感和认同感,用户在分享各种减肥相关信息的同时也愿意分享自己与减肥相关的经验感悟和心路历程等。在我国严峻的肥胖趋势蔓延下[30],“减肥”不仅是一个与公共健康相关的话题,与之相关的社会心理问题也不容忽视。知乎用户在“减肥”这一话题的讨论中对由肥胖产生的心理问题、婚恋问题和其他社会问题的讨论占到了很大比重。在相关话题讨论中,用户大都能得到正面的积极的回应,其情绪也能随着信息需求的表达、交流和被满足而发生正向的转变,这表明网络社区是用户情感交流和宣泄的重要渠道,也说明网络社区的存在对提升大众心理健康水平起到了一定的积极作用。
3)不同性别用户的减肥信息需求有显著差异。男性用户的减肥信息需求更加科学化和专业化,注重身材的健美和营养的均衡;女性用户则更加关注能够快速改变身材外形的信息内容,对外表的关注程度要远高于男性,且对产后瘦身等专属于女性的主题也有较高关注度。关于性别差异的社会学研究中也提到,社会对于男性的肥胖是容忍的态度,往往会从健康的角度来倡导男性减肥,而女性则是追求极致的苗条以外形的优势在男权社会中谋求更多的社会资源[31]。女性对于身材外形比男性有着更高的负面评价,当感受到减肥的压力时会对身体产生更强烈的消极情绪[32]。本研究的结果与关于性别差异的社会学研究结果相互印证,说明了在社会生活中减肥给女性带来更大压力,而男性相较于女性则把减肥更多地与身体健康联系在一起。另外女性用户对经验感悟分享有着极高的关注,这表明在问题的讨论与信息的交流中男性往往比女性更加理性,而女性则更加感性,有更强的情感依赖和倾诉欲,更倾向于在网络社区谋求认同感和归属感。
本研究存在的局限:首先网络问答社区的数据噪音大,很多网络用语、新生词、错别字和符号语言等对主题抽取的准确性会造成一定的影响。其次由于知乎社区的反爬机制和实验条件的限制,本研究未能采用知乎减肥话题下全部的文本作为实验数据。最后,未能设计线下访谈、问卷或焦点小组访谈等形式的研究来验证建立在机器学习模型基础上主题抽取结果的可信度。
参考文献
[1]中国互联网信息中心.第46次中国互联网发展报告[EB/OL].http://www.cnnic.net.cn/gywm/xwzx/rdxw/202009/W020200929 343125745019.pdf,2020-09-29.
[2]Guo J,Xu S,Bao S,et al.Tapping on the Potential of Q&A Community By Recommending Answer Providers[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management.ACM,2008:921-930.
[3]施涛,姜亦珂,陈倩.网络问答社区用户知识创新行为模式的影响因素:基于扎根理论的研究[J].图书情报知识,2017,(5):120-129.
[4]搜狐网.知乎发展迅猛!用户已破2.2亿,同比增长102%[EB/OL].https://www.sohu.com/a/281597481_100159019,2020-05-11.
[5]马克秀.数字出版的媒介学思考:以“知乎出版”为例[J].现代出版,2016,(4):13-15.
[6]章小童.国内网络问答社区研究现状、热点及趋势分析——基于文献计量与内容归纳分析[J].情报科学,2020,38(1):169-176.
[7]腾讯.大健康行业数据洞察报告2019[EB/OL].https://mp.weixin.qq.com,2020-05-11.
[8]Stephenson P W B A.Help Me,I'm Fat!Social Support in Online Weight Loss Networks[J].Consumer Behaviors,2011,(10):332-337.
[9]李为.健康问答社区主题识别和情感分析研究——以糖尿病为例[D].武汉:华中科技大学硕士论文,2019.
[10]An O,Ahmed S,Afzal A R,et al.Breast Cancer Information Communicated on a Public Online Platform:An Analysis of‘Yahoo!Answer Japan[J].Journal of Primary Health Care,2017,9(2):167-172.