,,
阅读疗法是以文献为媒介,将阅读作为保健、养生以及辅助治疗疾病的手段,通过对文献内容的学习、讨论和领悟,养护或恢复身心健康的一种方法[1]。它通常分为两类:一类是治未病的阅读疗法,属于阅读保健、阅读养生,也可以称之为“发展阅读疗法”;另一类是治已病的阅读疗法,即选择有治疗作用的图书供患者阅读,达到辅助治疗的目的,也可以称之为“临床阅读疗法”。可见,阅读疗法能够起到无病保健养生,有病辅助治疗的功效。
“互联网+”时代,社交网络平台以更新快、信息量大、传播广等特点,汇集了大学生丰富的情绪表达深受他们喜爱。高校图书馆如何依托大数据分析技术,对大学生读者的海量网络数据进行挖掘,及时捕捉负面情绪倾向,针对患者早期病症实施阅读疗法,对维护大学生读者心理健康、防止心理疾病的发生大有裨益。
用户画像作为大数据时代实现产品和服务精准营销的工具之一,为高校图书馆阅读疗法工作提供了新思路。
用户画像,即用户信息标签化,最早由“交互设计之父”Alan Cooper提出,它是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型[2]。通过对用户属性及其行为数据进行挖掘、分析,进而提取用户的兴趣标签,以达到了解用户需求的目的[3]。其核心理念是按照特征为不同用户打“标签”,将所有标签综合起来,最终获取该用户画像。用户画像最初应用在计算机和电子商务领域的产品设计、个性化推荐、精准营销等方面。大数据时代图书馆领域也可以引入用户画像,通过分析用户行为,为每个用户打上标签,了解和预测用户需求,实现服务的个性化和精准化。
国外阅读疗法研究主要侧重于心理学、医学等领域,研究者从不同侧面对阅读疗法进行综述。McCulliss探讨了阅读疗法对促进心理健康的作用,对阅读疗法课程开设和培训项目提出了建议[4];Brewster总结了英国阅疗书方模式[5]。国外文献的研究内容主要包括对阅读疗法的态度、文献选择标准、阅读疗法应用与疗效评价3方面。
国内阅读疗法研究起步晚于国外,理论研究集中在阅读疗法机制、阅读疗法应用与疗效评价、阅读疗法实施策略3方面。宫梅玲采用贝克抑郁自评量表对部分在校大学生进行抑郁状况调查,吸收中医方剂学配伍理论,制定了书方配伍原则[6];王波列出了包括心理健康教育等内容的新生书目[7];杨双琪、王景文等回顾了近几年的儿童阅读疗法研究成果并提出了建议[8]。技术应用方面,赵晓华等结合当今大学生对自媒体的运用,探讨了高校图书馆基于自媒体开展阅读疗法的创新方式[9];韩梅花等首次将用户画像应用在抑郁症阅读疗法的研究中[10]。
综合国内外已有研究,用户画像能为用户提供个性化、精准化的信息推荐及服务。将用户画像及智能推荐技术引入到阅读疗法实践中,不仅能保护患者隐私、维护患者尊严,而且创新发现患者机制,突破受众范围,促进阅读疗法精准、快速、广泛地开展。但目前阅读疗法实施对象的选取方法过于单一,私密性差,利用新技术创新性开展阅读疗法的研究尚待进一步加强。在移动互联网和大数据时代背景下,阅读疗法只有创新服务模式,才能适应时代发展。
因此,笔者提出了基于用户画像的高校图书馆阅读疗法模式。通过对大学生读者微博、博客等网络文本进行情绪分析,观察他们的情绪变化曲线,为不同读者构建情绪画像,针对患者早期病症推送阅读资源,力求为“互联网+”环境下大数据时代阅读疗法工作提供新的视角。
情绪词典是带有情绪色彩的词或词组组成的集合,是对文本进行情绪分析的重要资源。人们在文本表达中选择的词汇往往带有主观倾向性,体现出他们当时的情绪状态,这些带有情绪色彩的词汇是进行情绪分析的重要线索。
目前,HowNet和C-LIWC是被广泛应用的情绪词典[11],然而它们无论是在规模还是在针对性方面都存在局限性,尚不能识别更加细致的情绪类别。大学生在微博、博客等网络文本中喜欢使用大量的网络词汇,如“么么哒”“扎心”“蓝瘦香菇”等带有情绪色彩的网络用语,但现有的情绪词典无法匹配不断更新的网络词汇,影响情绪分析的准确性。
因此,扩充情绪词典势在必行,从微博文本中获取将是重要途径。大数据时代,随着信息技术的发展,基于机器学习扩充情绪词典省时省力,准确度较高,已成为主流方向。将HowNet中文正负面情绪词典作为基础情绪词典,首先获取微博语料并进行预处理,为后续分析工作做准备,然后利用Word2vec(Word to vector)模型分析这些新词的情绪倾向,最终确定带有情绪色彩的新词,将它们加入到基础情绪词典中。具体流程如下。
2.1.1 获取微博语料并进行预处理
首先爬取微博账号发表过的微博以及所有评论文本,清除噪声信息并进行分词处理,包括去除重复文本、停用词等,但要保证表情符号对应的代码以及颜文字不被切分。
2.1.2 基于Word2vec计算词语相似度
Word2vec(Word to vector)是2013年谷歌开发的一种用于训练词向量学习工具,提供了distance函数,可以分析出所查询词语的相关词语列表。根据获取的微博语料,依次输入基础情绪词典中各个类别的词汇,通过优化的训练模型快速有效地用K维向量表示微博文本,对微博及评论等语料进行相似度计算。由于微博语料的获取呈动态性,扩充词典时应采用迭代方式,即将上一轮语料扩展输出的词典作为下一轮扩展的情绪词典,同时注入新的微博语料,实现词典的增量式扩展。
2.1.3 情绪词筛选
通过Word2vec扩展获得的词语可能存在准确度不高的问题,因此需要对扩展后的词典进行基于HowNet词典的自动筛选和人工筛选。借助HowNet计算扩展出来的词语与种子词的相似度,按照高低排序筛选相似度高的词语。由于HowNet更新具有一定滞后性,不能通过计算相似度筛选候选词,因此通常采用以下方法:如果某词语没有出现在HowNet词典中,则默认为新词保留;如果出现在HowNet词典中但相似度小于指定阈值,则剔除该词。最后通过人工判断其类别。
2.2.1 大学生读者用户画像数据获取
图书馆构建用户画像首先要对大学生读者的属性数据和行为数据进行初步刻画。大学生读者的基本信息包括姓名、年级、专业、年龄等,这些信息相对稳定,可称之为静态信息;行为数据主要包括图书馆管理系统、移动社交平台(微信、微博)等个人网络行为数据、互动数据等,这些不断变化的信息记录了读者浏览、搜索、转发、评论等行为轨迹,属于动态数据。在图书馆用户管理系统中采集读者的属性数据,通过移动终端、网站系统识别网络行为数据,还可以利用网络爬虫技术追踪读者在全网的行为信息。
2.2.2 根据情绪词典进行情绪分析
图书馆用户画像获取是一个逐步完善的过程。以移动社交平台新浪微博为例,通过搜索关键字爬取某个读者的微博文本,然后基于词典对微博文本进行情绪分析。具体过程如下。
2.2.2.1 文本预处理
首先删除掉广告、重复文本,然后利用分词系统导入扩充的情绪词典进行文本分词,如去掉停用词和与感情无关的字符。
2.2.2.2 提取情感特征词
选取情绪词典里的词作为该条微博文本的情感特征词,构建文本的情感特征向量。
2.2.2.3 赋予情绪词权值
由于文本情绪强度受句法结构、语境等因素影响较大,因此要对情绪词典的每个词语赋予权值1,以减少单个词语对文本情绪强度的影响。针对文本中出现多个同类别情绪词语,加权计算对应的向量维度值。
2.2.2.4 程度词和否定词的特殊处理
如果情感特征词前有程度词,则将程度强度划分等级并赋予相应权值。情感特征词的权重应该为程度词与特征词的权重之积,被否定词修饰的情绪词通常会改变情绪倾向,统计否定词的个数并设定每个否定词的权重为-1,情感特征词的权重应该是N个-1与特征词权重之积。
2.2.2.5 计算和选取微博文本的情绪类别
根据单条微博文本的情绪类别,计算其对应的情感特征词权值之和,选取权值最大的作为该微博文本的情绪类别。
通过计算得出每条微博文本情感特征向量后,选取权值最大的特征项作为该微博文本的最终情绪倾向,形成该用户的情绪画像。
自古以来,中医重视非药物的情志调摄方法,尤其重视调畅情志的心理疗法[12]。阅读疗法作为心理疗法的一种方式,最早为医学界用语,其中阅疗书方的选择是最有技术性的环节。
高校图书馆通过情绪分析获取读者情绪画像后,根据患者负面情绪倾向,利用现有的信息推送技术,向其自动推送具有最佳治疗功效的的阅读资源,如心理自助类图书、励志类小说、哲学类图书等。在同类图书中,精心挑选针对问题最全面最权威的经典之作。在阅读过程中,患者通过与作者的情感交流,将积压在内心深处的烦躁、苦闷、焦虑等负面情绪消灭在潜意识层里,找到自身存在的问题和解决办法,恢复平和的心态。另外,社交媒体作为大学生沟通情感和获取信息的重要途径,不仅宣泄了情绪,而且也增进了友谊,疏通了心理郁结,达到疗伤止痛的目的。
“互联网+”时代,基于用户画像的高校图书馆阅读疗法模式为高校图书馆阅读疗法工作带来了新的发展机遇。一方面,通过对读者的网络文本数据进行情绪分析获取读者的情绪画像,及时发现潜在患者,把握治疗时机,提供精准化阅读疗法,能够起到“有病辅助治疗、无病保健养生”的目的;另一方面,基于用户画像的高校图书馆阅读疗法的实践,丰富了阅读疗法理论,必将促进阅读疗法研究的深入。