杜若鹏 张洁 寇远涛
(中国农业科学院农业信息研究所/国家新闻出版署农业融合出版知识挖掘与知识服务重点实验室/农业农村部农业大数据重点实验室,北京 100081)
随着互联网技术的不断发展,网络信息量海量增长。一方面,人们可十分便利与迅速地获取信息;另一方面,面对“信息过载”的局面,在海量信息当中准确和高效地获取所需要的信息变得越来越困难[1]。在科研领域,如何在大数据环境下高效精准地获取兼具专业性、时效性、权威性的科研信息资源,已经成为科研人员亟待解决的问题之一。针对科研人员的迫切需求,以精准服务与个性化需求服务为代表的智能知识服务应运而生[2]。智能知识服务依赖知识组织、数据关联、自然语言处理等关键技术来实现以用户个性化需求为导向的专业领域知识信息服务。其中,用户画像技术是满足用户个性化需求的有效工具[3]。
用户画像通过信息化挖掘技术对用户数据特征进行识别与凝练,筛选出最具代表性的信息标签,从而为用户构建一系列特征标签集,进而实现个性化精准内容推荐,改变了传统信息服务“人找信息”的模式,实现了“以人为本”的智能知识服务[4]。
与常见的商业性用户画像主要关注人员属性信息、泛化兴趣偏好等不同,面向科研人员的科技信息平台的用户画像更加聚焦用户的研究方向、研究主题等专业信息[5]。基于文献数据的主题抽取标注是构建科研人员用户画像的主要手段。目前常用的文献数据主题抽取方法包括基于词频统计特征的特征词抽取、基于词图模型的特征词抽取和基于主题模型的特征词抽取等。在实际应用过程中,现有的主题抽取方法均存在高维特征表征稀疏、泛化能力差、易用性受限等问题,导致用户画像不够“像”,文献推荐服务不够准。因此,本研究改进基于文献数据的主题抽取标注方法,以期提高科技人员用户画像的准确性,进而实现更加精准高效的文献信息推荐服务。
在对目前常用的主题抽取方法存在问题进行分析的基础上,提出基于文本共现词与TextRank算法的主题特征抽取方法Co-Occurrence Words-TextRank(CoTR),用该方法对农业科技信息平台用户关注和浏览的文献数据进行主题抽取,将获得的核心特征词作为用户画像的标注主题词,并据此构建用户主题推荐表达式进行文献推荐效果验证。结果表明,与其他方法相比,该方法显著提高了推荐内容的精准度,具有较强的实用性。
用户画像这一概念是由交互设计之父Alan Cooper于1998年提出的,他认为用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型[6]。目前学术界一般认为用户画像通过信息挖掘分析手段,提取用户信息的主要及重要特征并予以标注,构成用户显著特征的数字化标签集合。用户画像是大数据环境下挖掘与分析用户需求的有效工具,在商务营销、平台运营、图书馆服务等领域得到了广泛应用[7]。用户画像的构建一般分为3个步骤:数据获取、数据预处理、标签体系及用户模型构建[8]。数据获取包括静态的用户基本信息以及动态的用户行为数据等。数据预处理主要针对数据中存在的信息缺失、重复及噪声等问题进行数据清洗与整理,以便提升数据的可用性。标签体系及用户模型构建是用户画像的核心步骤[9]。标签体系构建包括服务对象标签与服务内容标签构建:服务对象标签构建是指通过数据分析及特征抽取等技术手段,对用户属性及信息等多维度数据进行特征刻画并标签化;服务内容标签构建涉及商品描述与资源等信息数据,主要通过信息特征抽取技术,对内容信息的核心特征进行表征。用户模型构建以标签体系或特征抽取技术为基础,通过算法进一步凝练与勾勒用户的特征。用户模型构建主要有本体构建、规则定义、统计分析、聚类分析以及主题模型等模式[10]。
专业科技信息平台主要汇聚和整合行业及科研领域的专业信息数据,并面向专业人员提供及时、全面、权威的信息服务[11]。专业信息数据一般包含科技论文、行业报告及新闻报道、专利数据与科学数据等。其中,科技论文承载着聚集、展示、传播科技前沿信息与科研成果的功能,代表先进的科学技术水平,是学术领域发展的风向标[12]。同时,专业科技信息平台的受众主体均是从事科研或行业生产活动的专业人员。该类用户主要聚焦自身从事的领域,对于资源服务内容的专业性及准确性有较高的要求。因此,专业科技信息平台是专业性极强的垂直领域信息平台,该类平台的资源推荐服务有别于一般电商或门户平台的泛兴趣推荐模式,更加强调推荐资源的专业性、权威性和时效性[13]。由于用户画像针对用户的个性化需求进行特征表达及标签化标注,具有极强的针对性,基于用户画像的精准推荐算法被广泛应用于专业科技信息平台的推荐服务。
文本主题词抽取方法是专业科技信息平台用户画像中常用的特征表达及标签化标注方法,该方法分为有监督方法与无监督方法两大类[14]。由于有监督方法需要预先针对所抽取主题准备标注好的训练语料,在实际应用过程中受到限制,因此目前无监督方法适用性较强。
无监督方法可以分为三大类:基于词频统计特征的特征词抽取、基于词图模型的特征词抽取和基于主题模型的特征词抽取,其典型代表分别为TF-IDF算法、TextRank算法以及隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型。TF-IDF算法的主要问题是仅用词频来衡量特征词的重要性,不够全面,无法体现特征词在上下文中的重要性[15]。TextRank算法从特征词与共现词的入度与出度等角度衡量特征词的重要程度,倾向于将高频词作为特征词,在过滤泛化特征词方面效果一般[16]。LDA主题模型的突出问题是,在很多情况下难以确定合适的主题数量,这直接影响到主题抽取的实际效果[17]。在面向大体量的用户画像时,LDA主题模型难以实现针对单个用户迭代适配主题数量。此外,科研用户更关注自身研究领域,反映在关注主题方面,呈现出关注主题数量较少的特点。LDA主题模型更适用于数据量较多且主题辨识度更高的群体画像。
高频词法由于简单易行,也被普遍应用于用户画像主题标注,但因为输入检索词串与文献的关键词组都存在一定关联性,仅基于单独的高频词组合选取特征词会导致偏离关键的特征组合,遗漏重要信息。用户输入的序列关联词组及关键的文献共现关联关系被破坏,导致用户画像准确性下降,相关资源推荐的应用效果受到极大影响。利用用户输入的检索词对及文献的共现关键词,共现词分析法可以有效地保留特征词之间的关联关系,在一定程度上能够缩小用户关注主题与特征抽取主题之间的差距,但该方法仅采用词频衡量的方式进行加权计算,分析较为粗略。通过以上分析可以看出,现有的主题词抽取方法都存在问题,需要进一步改进。
研究使用的数据来源于“国家农业科技创新联盟农业科技信息资源共建共享平台”。2016年中国农业科学院农业信息研究所牵头成立了“国家农业大数据与信息服务联盟”,并构建了“国家农业科技创新联盟农业科技信息资源共建共享平台”。该平台依托国家科技图书文献中心(National Science and Technology Library,NSTL)、国家农业图书馆以及各联盟成员单位,汇聚了2 000余万个特色文献资源,其中包括600多个农业科学数据集,涵盖作物科学、畜牧科学、草业科学、农业生物技术等学科领域[18]。目前该平台有近3万名实名注册用户,用户覆盖全国33个省区市,服务辐射中国农业科学院系统的超过30余家科研单位,是我国较为权威的农业专业信息资源平台之一。研究使用数据的时间跨度为2021年12月—2022年12月。为了便于分析,根据用户活跃度选取排名前100的用户作为头部用户并提取2 000条相关历史行为数据。
主要聚焦用户对科技文献的关注主题进行分析,为了提高特征词抽取的准确性,对材料数据屏蔽停用词与干扰词,过滤“一种”“具有”“及其”等与研究主题无关的干扰词[19]。同时,基于《农业科学叙词表》[20]筛选特征词,保证抽取的特征词具有农业专业性。获取指定时间段内单个用户浏览及下载的学术文献资源的元数据信息,包括文献的题名及关键词等,形成文档数据集合D,D=[D1,D2,…,Dm](m为指定时间段内单个用户浏览及下载文献总数),Dk表示第k篇文档(1≤k≤m)。
由于所处理的用户浏览及下载的文献数据基本上都是学术论文,绝大多数文献数据具有关键词信息,因此直接按分隔号切分出文献关键词,将文献关键词直接作为该篇文献的候选特征词。少数文献或部分资源数据不具有关键词信息,通过过滤停用词及分词切分的方式,对数据题名信息进行分词提取。鉴于多数文献的关键词数量为4或5个,对题名的分词数量也为4或5个。为了提升分词准确性,利用现有具备关键词的文献数据,将其汇聚整理形成专业分词词表,以便分词工具调用。
由上文分析可知,高频词法与TextRank算法无法提取组合词,可能遗漏特征词间的关联信息,而共现词分析法可以有效地保留特征词之间的关联关系;在特征加权计算方面,共现词分析法仅用词频来计算,而TextRank算法可以依据特征词与共现词的入度与出度等细粒度数据进行加权计算。因此,结合两种算法,构建了结合共现词分析与TextRank算法的CoTR方法,即先采用共现词分析法对用户关注与下载的文献数据构建共现词集,再通过TextRank算法计算共现词的重要性权重,最终选取权重最高的共现词组合作为用户画像的主题关键词。
2.3.1 构建基于关键词的共现词集
共现词分析法通过统计文献中词汇或名词短语的共现频率来反映词之间的关联强度,进而确定词汇所代表的学科领域的研究主题或热点[21]。在数据中,共现词同时出现的频次越多,则关联关系越紧密。由共现词构成的共现词集在一定程度上可以反映数据的关键特征。由于农业科技信息平台提供的内容服务大多基于学术期刊的论文数据,所涉及数据本身大多具有已标注的关键词信息,因此可以直接加以利用。首先,根据单个用户浏览与下载的文献数据提取单篇文献的关键词,构建单篇文献共现词集。对于缺失关键词的数据,基于题名信息进行分词处理,提取4或5个专业词汇填补空缺。遍历全体用户行为数据,重复上述过程,建立多篇文献共现词集。其次,为了便于合并统计词对,升序或降序排列共现词集中的词对元素。最后,遍历所有共现词集,对共现词词频进行统计,生成共现词词频字典作为候选特征词集。
2.3.2 特征词加权计算
在构建上述候选特征词集后,进一步对该集合中的词汇进行权重分析,以便选取价值较高的特征词作为主题词并应用于用户画像标注。采用TextRank算法对候选特征词进行加权计算。加权计算公式如式(1)所示。
式中:Vi代表给定的第i个特征词,W(Vi)代表Vi的加权值;Vj代表Vi的共现词,W(Vj)代表Vj的加权值;Vk代表Vj的共现词;fIn、fOut分别代表指向Vi、出自Vj的词集合;Wij、Wjk分别代表Vi与Vj、Vj与Vk的词间加权值;d代表阻尼系数,避免加权项过大的情况,一般为0.85。
利用上述加权计算公式与关键词的共现关系,计算出每一个关键词的特征加权值,形成关键词加权词典,以键值对的形式存储:键值为关键词本身,数值为该词的加权值。
2.3.3 生成用户主题词
根据关键词加权词典,遍历整体候选特征词集,为每一个共现词组合计算加权值,该加权值为各共现词加权值之和。加权值越高代表该组词越重要,因此依据加权值进行排序,选取得分排名靠前的3~5组共现词组合作为最终的用户关注主题词,用于标注与构建该名用户的用户画像。
为验证用户画像主题标注方法的有效性,设置基于用户画像标注结果的内容推荐实验。用户画像主题标注方法的准确性直接决定推荐效果,因此内容推荐实验结果可以充分反映出用户画像主题标注方法的精确性和有效性。
首先,根据用户的月访问频次、下载文献数量等情况进行统计,筛选出最为活跃的100名头部用户,根据用户历史行为数据为每名头部用户随机筛选20条所关注过或下载过的文献数据,共得到实验研究数据2 000条。其次,采用构建的主题抽取方法对头部用户进行主题标注,同时为了验证该方法的优越性,分别采用高频词法、共现词分析法以及TextRank算法等3种方法进行主题标注的对照实验。以上每种方法为每名用户标注5个优选主题词或词对,进而依据相同的构建规则建立内容推荐的检索表达式:若词对内部关系紧密用“与”(AND)逻辑,优选词之间用“或”(OR)逻辑。根据检索表达式对“国家农业科技创新联盟农业科技信息资源共建共享平台”的资源库进行查询,并为每名用户返回10条推荐文献,每种方法均为相同的100名用户返回1 000篇推荐文献。最后,农业领域专家对文献的推荐效果进行打分。专家对照用户之前关注的文献的主题内容判断所推荐的文献主题是否与用户关注文献的主题一致,一致则得1分,每种方法的得分率即为该方法推荐文献的准确率。为了进一步验证方法的有效性与适用性,对每次实验均做去重处理,避免推荐数据与对照数据重复。
采用高频词法、共现词分析法、TextRank算法及提出的CoTR法等4种用户关注主题抽取标注方法进行内容推荐实验。基于CoTR方法的推荐效果最佳,结果准确率达到93.3%,相较于其他3种方法存在较大优势。在其他3种方法当中,基于高频词法的推荐效果最差,准确率最低,仅为70.4%;其次是基于共现词分析法的推荐方法,准确率为74.1%。相较于高频词法与共现词分析法,TextRank算法的推荐结果稍好,准确率达到了77.8%。
高频词法虽然在一定程度上能反映出用户所关注的主题内容,但是由于仅从孤立的单词词频角度进行主题抽取标注,没有考虑到词之间的关联关系,导致组合结果与实际主题之间差距较大,即无法通过高频词法逆向重构分析数据的主题。基于共现词分析法的推荐效果略微优于高频词法,这是由于共现词分析法考虑到了高价值特征词的固定搭配,以高频词对的方式筛选特征词,具有较强的可解释性。在实验与实际应用中发现,当文献主题分布不均衡或为多主题时,往往会出现无明显高频词对的情况,此时共现词分析法失效,基于此的推荐结果产生极大偏差。TextRank算法主要从特征词与共现词的入度与出度等角度衡量特征词的重要程度:入度越大说明共现情况越广泛;出度越小说明共现词搭配越固定。因此,TextRank算法筛选出的特征词具有共现关系普遍且共现搭配相对固定的特点。正是由于TextRank算法既考虑到特征词的共现频率与广度特征,又考虑到词间关系及共现特征,基于TextRank算法的推荐效果优于高频词法和共现词分析法。然而,某些用户关注主题呈现明显的共现网络结构特点,即共现固定搭配数量多,此时TextRank算法虽筛选出了核心关键词,但关键词之间缺乏关联关系支撑,所以推荐效果大打折扣。由于提出的CoTR方法在关键词的共现关系基础上进行加权分析,优先获取共现词这类“大特征”,进而使用TextRank算法进行加权分析,避免了单独使用TextRank算法进行特征抽取中存在的问题。同时,当无明显高频词对时,CoTR方法通过更细粒度的加权计算进行特征词筛选,有效地解决了共现词分析法失效的问题。
综上所述,提出的CoTR方法既充分考虑单个特征词的重要性,又将共现搭配与词间关系纳入统计分析,在用户画像的主题抽取标注方面显示出了很好的应用效果。
本研究针对专业科技信息平台内容具有较强专业性的特点,在分析常用主题抽取方法的基础上,提出了结合共现网络与关键词加权分析的主题特征抽取方法,从而进行主题标注。同时,为了验证用户画像主题标注的有效性与准确性,实施了基于用户画像的主题内容推荐实验。实验结果表明所提方法的准确性优于高频词法、共现词分析法与TextRank算法,能够有效地解决专业科技信息平台用户画像主题标注不精确的问题,具有较强的实用性。
共现词分析法与TextRank算法所提取的特征词往往具有高频倾向性,但由于所处理分析的文献数据均具有关键词信息,本研究呈现出很好的验证效果。由于科技期刊文献都具有关键词信息,所提方法在科技用户画像方面具有广泛的适用性,而对于未标注关键词的一般性文献数据,该方法还需进一步研究完善。此外,目前本研究仅限于双词共现分析,未来将尝试针对多词共现的情况进行分析,以便进一步提高用户画像的主题标注精度。