赵雪芹,王青青,蔡 铨
(湖北大学历史文化学院,武汉 430062)
随着互联网技术的发展与信息更迭速度的增长,传统的知识获取模式与知识交流路径已无法满足学者多元化的需求,兼具线上社交与资源共享功能的在线学术社区成为了学者知识交流与获取的新路径。在线学术社区为学者实现跨时空的学术交流与前沿知识获取提供了便利。但随着时间积累,在线学术社区的弊端也逐渐显现,社区资源的碎片化、高冗余、品质不齐等问题增加了用户的资源获取成本,降低了用户对于社区服务的满意度。为改善上述问题,满足用户个性化的知识需求,知识推荐被引入到在线学术社区服务中。现有的知识推荐服务主要依赖于用户与用户交互数据、用户与平台交互数据、用户个人属性数据的采集,进行用户知识需求感知分析,这些数据都属于交互行为数据、个体特质数据范畴[1]。然而已有研究证实用户的知识需求感知是受多维因素影响的,服务情境对用户的知识需求也有显著的影响作用[2],是以服务情境的分析需被纳入到学术社区用户知识需求感知计算中。此外,由于用户对于知识需求的发现是一个心理内化的过程,其交互行为、个人特质、所接受的服务情境都会交织作用于用户感知,用户通过心理分析明确最终的知识需求。那上述3 类影响因素在用户心中是如何交织作用的,又是如何整合成用户的最终需求的呢,目前社区知识推荐领域尚未有学者给出明确的解释。而班杜拉的三元交互决定论则指出了个体行为、特质、所处情境之间的交互关系,认为三者是相互连接、互相作用的,三者在互相作用的过程中共同影响用户心理感知[3]。故本研究拟以三元交互决定论为理论指导,探讨学术社区用户交互行为、个体特质、服务情境的关系,并基于此构建相应的推荐模型,以实现对在线学术社区的推荐优化。
三元交互决定论是心理学家班杜拉(Albert Bandura)于20 世纪60 年代,以勒温模型为基础所提出的理论。班杜拉的三元交互决定论打破了行为主义的环境决定论,否认了人本主义的个人决定论,而主张交互决定论[4],其认为个体、行为、环境这三者是互为因果关系,彼此相互决定,从而形成一个环形系统,共同影响着个体的认知。
三元交互决定论最初用于教育心理学领域,用以对学生的个人素养的培养、行为纠正等方面的研究[5,6]。近年来图书情报领域也逐步引入了三元交互决定论,用于对居民阅读需求的分析、阅读素养的提升以及网民社会情绪产生的内在动因研究。王雅倩等即基于三元交互决定论对中国农村留守儿童的课外阅读需求展开了研究,证实了个体特质、个体行为、周边环境对于留守儿童阅读需求的影响作用[7];马捷等以三元交互决定论,构建了阅读推广情境、用户内在个人因素、用户阅读行为这3 种主要因素之间的交互因果关系模型并提出了相应的阅读推广方案[8];杜昊在阅读素养研究中引入了三元交互决定论,揭示了大学生阅读素养与三要素的内在关联[9];朱代琼等以案例分析的方式,基于三元决定论验证了网络用户个体特质、环境、交互行为对于其网络社会情绪的共同影响作用[10]。
综上,现有的研究已一定程度验证了三元交互决定论对于个体的内在感知作用,为研究的需求感知分析提供了参照依据,确保了研究的可行性。
在线学术社区的推荐研究根据推荐客体的不同,可主要分为3 类:知识推荐研究、专家推荐研究、好友推荐。知识推荐研究主要是向社区学者提供基于用户交互而产生的非结构化知识或完整的论文;专家推荐研究则是挖掘领域研究领袖推荐给同领域或相近领域的社区学者;好友推荐则是社区学者推荐兴趣相投的用户,促进其交流与合作。知识推荐研究方面,房小可等通过对用户使用社区论文或非结构化知识时的情境数据采集,对社区资源进行了语义表示重构,在基本的主题描述中加入了情境描述,加强了文本相似度计算的准确度,并基于此改进将与用户所阅读过的高相关度的知识文本推荐给学者[11];游凤霞等基于用户属性相似度计算与书籍使用相似度计算,挖掘相似用户团体,将团体内用户所使用的书籍推荐给彼此,以实现知识推荐[12]。专家推荐方面,李春英等根据学者的个体特质与发文主题挖掘不同领域的领袖学者,并将之推荐给同领域或相邻领域的学者[13];JORDAN等则基于用户的交互数据,构建用户社交网络,通过对社交网络的中心度计算,挖掘位于核心位置的社区学者,并将其推荐给相似领域的学者[14]。好友推荐方面,张继东等基于用户的交互量级、个体特质对用户进行了社群划分,将共处同一社群的学者推荐彼此,促进其成为好友[15];杨丰瑞等基于用户交互内容的主题相似度,将其聚类以构建主题社区并将同处以主题社区的用户推荐给彼此[16]。
上述有关学术社区的推荐研究都是基于个体特质、交互行为、服务情境中的一维或多维数据分析开展的,并取得了相应的成效,完善了社区的推荐服务。本研究拟基于前人的研究基础与技术运用展开知识推荐模型的构建工作。
根据前人的研究,本研究将“三元”中的个体特质细化为属性特征与心理特征;用户交互行为数据细分为人机交互与人人交互数据;服务情境细分为时间、地理位置、设备使用以及周边环境等[17]。在线学术社区中用户的知识需求感知与“三元”紧密相关。用户是感知情感产生的主体,用户的个体特质,如学科背景、研究领域、学历层次、个人知识质量评定标准等都会影响用户的知识需求感知;用户的知识需求感知的产生亦离不开服务情境,用户是情境中的客体,任何行为活动都是在相应的情境中开展的,服务情境势必会影响到用户的需求感知;而用户在学术社区中的交互行为结果则会直接作用到用户的需求感知。
“三元”在直接作用于用户的知识需求感知的时候,也会彼此相互作用,促进彼此变化。用户的个体特质影响用户在社区中生成的知识内容,知识内容的性质影响着用户服务情境的选择,同时,个体特质影响着用户的交互行为:个体的交互行为受个体特征、自身知识架构、认知水平等内在因素的影响,个体特质推动着用户在学术社区中交互行为的产生与发展;用户的交互行为,可以视作是促进服务情境与个体特质变化的动因:在长期的社区使用过程中,用户的交互行为结果会反馈给用户的服务情境感知,促使其调整交互行为发生前服务情境,同理,用户交互行为的发生意味着其知识交流和积累的进行,认知水平、知识架构、思维信念等内在的个体特质会受到交互行为结果的影响;而服务情境则可以视作个体特质与交互行为存在的客观条件,社区个体的存在离不开情境,个体的思维、兴趣与其认知水平必然会受到情境的综合影响,用户交互行为产生的基础是情境,其对个体交互行为起到一定的引导作用,不同的情境会促使用户对社区不同知识服务功能的使用。
综上,用户的知识需求感知是呈动态变化的。“三元”在分别作用于用户需求感知的同时也会彼此作用,促进彼此的改变,进而三者重新影响用户的需求感知,如此循环往复,形成了环形的影响系统,具体如图1 所示。因而在采用技术对用户的需求进行分析时,应该采用动态分析的思路,分别计算出“三元”所表现出来的需求特征后,需进一步构建需求链,即将各时间段的用户知识需求串联起来,用以明确“三元”交互影响后对于用户需求变化的动态影响作用,最终完成完整的需求分析。
图1 用户知识需求环形影响系统Fig.1 The circular influencing system of user knowledge demand
结合三元交互决定论下的用户需求分析特征与推荐服务模型构建流程,本研究拟采用“三横两纵”的模型构建思路。其中“三横”指的是数据层、技术层、应用服务层,这3 个层级至下而上形成了推荐服务的内部框架,数据层的采集、技术层的技术选择均以“三元”为导向,分别采集3 个维度的数据并根据各维度数据特征采用相应的分析技术,分析出不同维度下的需求特征与需求变化特征,进而构建完整的需求链;“两纵”指知识推荐服务提供方与平台用户,二者贯穿服务工作的始末,形成了服务的外部框架,知识推荐服务提供方与平台用户通过反馈渠道不断进行信息交互,提升知识推荐服务的质量。具体的推荐流程如图2所示。
3.2.1 数据层
数据层处于整个服务体系的最底端,是实现其他层级功能的基础,该层级主要负责数据采集、预处理、存储、安全维护等工作。由于本研究的服务模型是以三元交互决定论为理论指导而构建,而三元交互决定论强调“三元”对用户需求的动态影响,需要明确“三元”对于用户需求感知的影响变化过程,从而构建需求链,是以数据层的数据采集工作需要分时进行,以便数据层动态分析各时间段的用户需求,为需求链的构建提供支撑。在资源推荐服务中已处理好的数据主要以数据库的形式进行分类存储,根据图2 数据层的数据被分装与4 个数据库:社区资源数据库,个体特质维数据库、交互行为维数据库、服务情境维数据库,后3 个数据库是根据三元交互决定论而设立的,用以服务上层进行分维度的需求分析。
图2 动态知识推荐服务模型Fig.2 Dynamic knowledge recommendation service model
3.2.2 技术层
技术层包含推荐服务过程中所在涉及到的主要技术,技术层是数据层与应用层的中间层,其通过对下层数据的挖掘,向上层的应用服务层提供支撑。对社区资源数据的分析主要采用了LDA 主题聚类与质量分级,通过LDA 模型分析各社区资源的潜在语义,将具有相似语义的资源整合于一个集合中,归纳形成同主题资源集,为了能够切合用户心理特征对知识需求感知的影响作用、实现资源质量与用户认知水平的匹配,需进一步引入利用资源质量分级技术对资源进行进一步的分类,以便将既有平台资源与用户知识需求进行匹配。个体特质维数据库的分析则采用了用户聚类属性技术和心理预期分级技术,用户聚类技术主要遵循协同过滤的思路,挖掘用户初入社区的知识需求。而心理预期分级技术则用以分析用户对准确率和全面性的侧重,进而进行分情况推荐。交互行为维数据库的分析,主要通过LDA 分析技术和社区网络分析技术,利用LDA 技术对用户的使用资源主题进行抽取,明确用户的显性知识需求,利用社会网络分析技术和LDA技术,掌握对用户影响作用明显的用户群体,通过对该群体用户的关联资源的主题抽取,明确目标用户的隐性知识需求。服务情境维数据库的分析,需要依赖于资源数据库的分析,通过朴素贝叶斯分类法,计算用户对不同主题资源的使用情境的偏好,以便在进行分情境的个性化资源推送。由于数据采集遵从了三元交互决定论的动态原则,进行了分时采集,因此依赖于三维数据库的需求分析也是分时的,三元交互理论动态视阈下的知识链的建立则根据分时知识需求进行串联,形成需求链,通过各用户需求链的分析与相似度计算,明确用户的需求变化特征,预测用户的需求发展,提供预测性的知识服务。
3.2.3 服务应用层
服务应用层是具体推荐业务的执行单元,是实现资源利用率最大化的重要载体,该层级面向社区用户,通过资源推荐系统的对外接口,为用户对推荐资源的及时查阅提供便利。在技术层对用户的知识需求进行完整的分析后,将资源推送列表按照主题与三元交互中“情境”的映射关系进行分端口、分时间、分心理状态推送,进而将资源呈现在用户的阅读界面中,推荐的内容包括了当下需求资源、潜在需求资源和前沿性需求资源,保障了推荐资源的全面性。与此同时,应用服务层还通过反馈渠道收集用户对于资源推荐的感知,以提高用户知识需求分析的准确率和推荐服务的质量。
三维推荐服务体系构建核心在于技术层需求分析技术的使用,分析技术决定了推荐服务的质量,是以本研究对数据层所用到的技术进行了相应的调整与改进,以契合本研究的需求分析目标。
3.3.1 属性特征的分析方法
个体特质维度的知识需求分析利用了属性相似聚类技术,对用户进入社区的初始知识进行了分析。属性相似聚类技术的运用能够帮助社区解决推荐服务中的冷启动问题,在没有足够的用户社区使用数据的情况下,寻找相近的用户群体,分析推断目标用户的初始知识需求[18]。本研究拟采用欧几里得属性相似度的计算,筛选出最相近的用户,从而通过相近用户的需求分析预判目标用户的资源需求。用户相似度的计算公式如公式(1)所示,cti表示用户相同属性的个数,CT 表示属性的总个数,ru、rv 分别表示目标用户A 和用户v 的属性特征向量。相较于传统的欧几里得相似度计算,本研究加入了相似权重,通过相似属性数量与总属性的比例计算,对用户的相似性进行精进,进而根据相似度的排名明确相似用户名单,对名单中用户共同的资源需求进行抽取,用户的初始知识需求。
3.3.2 交互行为维度的分析方法
交互行为维度的知识需求分析主要分为两个部分,用户与资源交互作用下的知识需求分析、用户与社区其他用户交互作用下的知识需求分析。对于用户与资源交互作用下的需求分析,本研究拟采用权重计算。依托于文本主题抽取技术,通过用户对于某一主题资源的访问频次与总访问频次的比例表示用户对不同主题资源的偏好,并抽取出排名靠前主题资源推荐给用户。具体的计算公式如公式(2)所示。其中Freq(u,ri)表示用户u 对i 主题资源的访问频次,∑r∈(1,…n)freq(u,r)表示用户u 对所有主题资源的访问频次。
对于用户与社区其他用户交互作用下的知识需求分析的分析,本研究拟采用社会网络分析技术,通过用户在讨论板块、兴趣组板块等板块中的往来关系,以六度分割理论为基础,构建目标用户的有向社交网络图。利用社会网络分析中的结构动理论,发现目标用户的社交网中的影响力用户,通过影响力用户的知识需求分析,挖掘用户的潜在知识需求。结构洞所涉及到的对象至少3 个,在目标用户社交网络,若用户A 与B 有关联,B 与C 有关联,而A 和C 无关系,则视该结构是一种结构洞,或者说在用户A 用户C 之间存在一个结构洞。结构洞的存在使得社交网络中节点的影响力存在着差异,因而结构洞的挖掘能够帮助发现网络中的核心用户。本研究在传统的结构洞算法上融入了邻居节点的点出度和点入度计算,从而更为准确地挖掘网络图中的核心节点,具体的计算公式如公式(3)所示。
公式中C (A) 表示节点A 受到网络图中其他节点的约束程度,当C (A) 值较高时,即表示节点A 信息获取时受到其他节点的干预都较高,对其他节点知识需求的影响力较低;TB+和TB-分别表示节点的邻居节点B 的点出度和点入度。
3.3.3 服务情境维度的分析方法
服务情境维度的分析,主要在于构建用户需求资源与服务情境的关联关系,本研究拟通过朴素贝叶斯分类法进行关系构建。朴素贝叶斯分类法是建立在18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)所提出的概率论理论基础上的分类器,其在处理社区大数据时具有较高的分类准确性和运算性能,能够充分计算各服务情境下用户的资源使用差异,从而准确建立情境与资源的映射关系[19]。
本研究根据前人的研究将服务情境分为了5 种:时间情境、地点情境、用户心理情境、网络情境、设备情境。其中时间分为3 个时间段:上午、中午、下午、夜晚。用户心理情境分为:休闲情境、工作情境、其他情境。网络情境分为:数据网络、无线网络端。设备情境分为:移动端、PC 端。在资源与服务情境分类工作完成时,引入朴素贝叶斯分类法,建立用户、资源、服务情境的映射关系,明确各情境下用户的知识需求。贝叶斯的计算公式如公式(4)所示,开展推荐服务时则根据用户在不同情境下资源主题的选择概率大小进行优先推送。
其中,p(Sk|Ct,Cw,Cp,Cn,Cd)表示资源主题类别Sk在5类综合情境下被选择的概率,p(Ci|Sk)表示用户在每个服务情境下关于社区主题资源Sk的条件概率,p(Sk)表示资源类别Sk在所有主题类别中出现的概率。
3.3.4 三元交互理论视阈下的需求链构建方法
在三元交互决定论视角下,用户的个体特质、交互行为、服务情境选择三要素形成了一个动态演变体系,促进着彼此的变化并共同作用于用户的知识需求认知,推动着用户知识需求迁移的发生。是以知识推荐服务体系构建,不应简单地将三要素分析下的用户知识需求进行分面分析或单纯的整合,应当充分考虑用户在三要素的动态演变体系作用下的需求迁移轨迹。在对用户的知识需求进行分时分维度的分析后,本研究对用户的知识需求进行了需求链构建,需求链的构建能够帮助社区管理者明确用户在三元交互作用下的需求演变轨迹,还可以通过需求链的相似度计算挖掘用户的未来知识需求,提高推荐服务的前瞻性。用户在各需求链节点上的知识需求主题可以通过向量进行表示即N1=(W1,W2,W3,W4…)、N2=(W1,W2,W3,W4…) ……,需求链的相似度计算即以当前时刻为节点,往前推进m 个时间段,抽取f=(m+1)个节点上的用户知识需求,将目标用户与其他用户需求链上的任意连续m 个时间段内知识需求进行相似度计算,当各时间段内相似度值均超过阈值Q 时,即认为需求链相似度成立,则可以摘取相似用户的地m+1 时间段上的知识需求用以表示用户的未来知识需求。需求链各时间段需求相似度的计算公式如公式(5)所示,其中a 表示目标用户,b 表示相似用户。
根据用户知识需求的多维度、多层级分析,结合三维推荐服务体系的模型构建,本提出了在线学术社区动态知识推荐的具体流程,从下至上主要分为4 个流程:信息资源的获取与预处理、信息资源主题分析与用户兴趣建模、平台资源与用户需求相似度匹配、实现资源推送与反馈。
在线学术社区资源与用户三维数据的获取是实现动态知识推送的首要条件。对于社区资源的信息通过网络爬虫即可获取,而三元交互决定论视角下的用户获取来源较为广泛、类型较多。特质维度的数据包含了用户自然属性数据(如研究层次、性别、年龄等)、心理特征(即资源质量预期);交互行为维度数据包括了资源交互数据(即源访问数据)、人人交互数据;服务情景维度的数据包括了(时间、地点、设备等)。对于用户自然属性、服务情境及交互行为相关数据则需要通过网络爬虫技术、日志挖掘技术等进行采集,用户心理层面的数据则需要运用到文本分析法、问卷法进行数据补充。对已采集到的数据需做进一步的预处理(如分词、清洗等),使数据转化为需求分析所适用的数据形式。对于数据采集的更新则根据时间段的跨度定期更新。
由于数据采集与清洗对用户隐私的涉及程度高,存在数据窃取于破坏的风险,是以该部分除了采集与挖掘技术的运用,还应适当采用安全保护技术,比如匿名技术、加密技术、访问权限控制技术。
将社区资源进行分词清洗后,将资源文本导入LDA 模型中,利用Gibbs 抽样估算LDA 模型中未知参数,根据生成的困惑度曲线确定最佳主题数量,从而实现对在线学术社区资源的主题提取,将抽取后的主体进行聚类并存储与主聚类题库。
在进行用户需求建模时,需要引入时间轴,将时间轴分为若干个等份,时间轴起点的用户需求利用属性相似度计算所得的邻近用户知识需求表示,其他若干时间段的用户知识需求则根据用户的交互行为分析和需求链的分析结果进行表示。对于各个时间段抽取出来的用户综合的知识需求通过标签“用户ID-需求标签-服务情境偏好-主题资源质量预期级别”的形式储存于用户需求数据库中,作为资源与用户需求匹配分析数据集。
利用LDA 所抽取的资源主题与以LDA 为基础的用户需求主题均是通过若干词向量进行表示的,其表示成文本向量的形式即topic=(R1,R2,…,Rn),对于平台资源与用户需求相似度匹配即可通过各主题内的词向量相似度进行余弦相似度计,进而根据资源主题与用户知识需求主题相似度的排名,筛选出推荐名单。
根据上文可知,用户对于不同主题资源的质量预期存在差异,是以需要对资源推荐名单进行过滤。将资源质量级别与用户预期级别进行匹配,过滤掉不符合质量要求的资源,确保推荐资源质量不低于用户的最低预期,实现推荐资源的全面与准确。
根据4.3 计算出来的资源推荐名单和4.2 计算出的资源推荐情境,对不同的主题资源进行分情境推送,以提高用户对于推荐资源的采纳率和利用率。虽然对用户知识需求的分析跨越了多维度,充分考量了三元交互决定论作用下的需求感知变化,分析所得的需求既包含了历史需求、当下需求、潜在需求、未来需求,但终是无法确保推荐服务的完全正确,因而需要引入服务反馈更新机制,及时了解与用户需求分析与推荐服务中的不足并进行相应调整。测评的方法主要有3种,分别为:问卷调查法、在线测评法以及离线测评法。问卷调查法作为接触式的测评方法,可确切了解到用户真实的体验感受,但受用户调查参与意愿的影响,测评调查范围有限。在线测评主要是测量用户的点击率,即社区用户对已推荐知识或主题的点击数量与总点击数量的比值;覆盖率,即社区推荐的知识与主题是否能覆盖用户检索的内容。离线评测,主要是通过算法的运用判断实验数据的运行结果,评测指标包括准确度、多样性、新颖性。3 种测评技术各有优缺点,因而在实际需求刻画效果的测评工作中,需要对3种技术进行综合运用,充分发挥测评对于推荐服务的优化作用。
本研究以三元交互决定论为基础,探讨了个体特质、交互行为、服务情境三要素对于用户需求影响作用与彼此间的相互作用,并基于三者的交互关系提出了知识需求链,构建了动态知识服务模型。在理论方面,改变了以往对于各维度需求分析“条块分割”的思路,指出了“三元”之间对用户需求的整体作用效果。然而,在实践方面,本研究还有所欠缺,受限于文章篇幅,尚未进行实证分析。在后续的研究中,会通过对在线学术社区的数据采集,对推荐模型进行实证检验。