融合需求与评价的科技服务平台机构推荐方法研究*

2022-12-26 03:16徐尚英徐书情陈冬林吴天昊
情报杂志 2022年12期
关键词:需方列表服务平台

徐尚英 徐书情 陈冬林 吴天昊

(1. 武汉理工大学经济学院 武汉 430070;2.湖北省电子商务大数据工程技术研究中心 武汉 430070)

0 引 言

为推进科技革命和产业变革深入发展,推动全国科技服务体系建设,2014年国务院印发《关于加快科技服务业发展的若干意见》。科技服务业双向链接科技与产业,极大促进了知识技术的产业化,以研发创新驱动全社会的经济增长,带动产业转型升级,是提高经济效益的关键环节[1-2]。科技服务业创新进程中,平台化成为主流,促进了信息展示与交互,协调了资源共享与释放,有利于供需双方的有效匹配[3]。

科技服务平台上存在运营环境多变、供需匹配过程不易控制优化、服务非标准化等复杂特性[4]。不同于一般电商平台仅关注商品自身属性以生成商品推荐,而无需关注店铺特征进行店铺推荐。科技服务需方不仅需要科技服务,更需与机构进行深度交互且充分了解机构综合能力水平以实现服务的有效转化。同时,科技服务需求内容的多样化和复杂化催生了大批科技服务机构的涌现[5]。科技服务平台上机构数量的快速增加一方面为平台注入了新鲜优质的科技服务资源,使得平台能更好的满足科技服务需方。但另一方面,也为科技服务需方定位契合的科技服务平台供方即机构增加了难度。故在科技服务平台开展机构推荐极具重要性与必要性。

现有文献在云服务、O2O服务等领域有针对性的开展基于需求相似度和基于评分的机构推荐研究,但针对科技服务平台机构的推荐方法研究还有待补充。鉴于此,本文立足科技服务平台长远发展,提出融合科技服务需求(需求标题和需求描述)、科技服务平台评分和科技服务机构评价标签的机构推荐方法CDAE(Combining Demand and Evaluation),通过引入科技服务机构推荐指数为科技服务需方生成最符合其偏好且能力水平高的机构推荐列表,解决科技服务平台供需双方有效匹配问题。

1 相关研究

为更好实现科技服务资源的充分利用,满足日趋复杂多样的科技服务需求,基于互联网大数据技术展开科技服务平台个性化推荐[7]。其相关研究可总结为以下2个方面:a.从科技服务需求的时间维度看,搜集科技服务数据后,平台将多维度识别出科技服务需方的多样需求以进行精准推荐[3]。对于较迫切的现实需求,平台可通过分析科技服务需方的服务请求,推送已有服务资源[8-9]。对于较隐性的潜在需求,平台可通过分析科技服务需方“痕迹数据”,利用隐语义算法生成需求图谱,主动推送感兴趣信息[8-9]。对于较模糊的未来需求,平台可通过分析科技服务需方“痕迹数据”与国家政策信息,预测需求并进行集成化推荐[8]。b.从推荐列表的排序维度看,丁宅荣等[10]得到待推荐的内容后,还根据新鲜度、多元化、不重复等原则对待推荐内容进行重排以返回个性化推荐列表。Qin等[11]将得到待推荐资源后,还根据资源相关度和资源新鲜度对待推荐资源进行重排以返回个性化推荐列表。杨迪等[12]得到供方待推荐列表后,还通过需方对供方的搜索、选择、删除等操作行为对待推荐列表进行重排以返回优质供方推荐列表。但除文献[12]外,其他研究均未展开具体实验,从技术角度论证所述方法的可行性与有效性。故本文将参考其他领域推荐展开本文推荐方法设计。

传统推荐方法大致分为协同、内容和混合过滤三种,其对象主要是项目或产品。但随着服务业的蓬勃发展和人们服务需求的复杂化,服务机构数量逐年增加。为此,学者们不断研究不同服务领域机构推荐方法以解决供需双方匹配的难题。现有其他领域机构推荐方法主要集中在基于需求相似度和基于评分的推荐。a.基于需求相似度是通过计算供需双方或需方之间的相似度以返回推荐结果的方法。如禹春霞等[13]以三角模糊评价法量化云服务用户需求偏好和云服务提供商服务能力后,利用欧式模糊距离算出两者的综合相似度,生成机构推荐列表。朱文强等[14]以相似度计算得到用户之间对于O2O机构偏好的相似度高低值,再算出机构声誉值,最后结合用户间的机构偏好相似度和机构声誉值返回机构推荐结果。b.基于评分的推荐是通过预测供方的评分高低值以返回推荐结果的方法。如陈贵涛等[15]立足初创企业视角,综合考虑投资机构三个维度生成投资机构得分后,基于ALS算法返回投资机构推荐列表。但在商品推荐研究中,有学者认为仅依据评分进行推荐,极易导致平台出现评分评价不一致(典型的高评分负向评价)现象,影响需方的购买决策[16]。同时考虑到评价作为需方自发生成的文本信息,极大程度上更加真实地反映了他们的消费体验和消费期望[17]。故学者们常常融合评分和评价进行推荐以提高推荐性能[18-19]。

综上,若单纯基于需求相似度返回推荐结果,仅保证了供需双方在服务方向与内容上的一致性,未充分考虑机构自身的能力水平,可能使得优质机构的推荐位置靠后;若单纯基于评分返回推荐结果,可能导致需求挖掘的深度不够以及评分所反映信息的真实度不够,影响供需匹配的效率和性能。故本文参考云服务、O2O服务等领域,针对科技服务平台上的现实需求,引入科技服务机构推荐指数,研究融合科技服务需求、科技服务平台评分和科技服务机构评价标签的机构推荐方法CDAE,为科技服务需方推荐他们感兴趣的评分评价好即能力水平高的科技服务机构列表。

2 科技服务平台机构推荐方法研究

融合科技服务需求、科技服务平台评分和科技服务机构评价标签生成机构推荐列表的方法,主要包括两个步骤,如图1所示。

图1 融合需求与评价的科技服务平台机构推荐

a.科技服务需求模型的构建与需求内容双层相似度的计算。综合考虑科技服务需求标题和科技服务需求描述,通过VSM和TFIDF算法完成科技服务需求模型的构建后,计算需求内容双层相似度。进一步以相似度值高低返回近邻科技服务需方列表后,再借助购买关联生成机构候选集合。

b.科技服务机构推荐指数的构建与度量。综合科技服务平台给出的评分和科技服务需方给出的评价标签,构建科技服务机构推荐指数。再以频次量化评价标签生成标签评分后,结合平台评分度量科技服务机构推荐指数值。最后以科技服务机构推荐指数值对2.1候选集合中的机构进行重排,并取前N个机构组成机构推荐列表。

2.1 科技服务需求模型构建与需求内容双层相似度计算

2.1.1科技服务需求模型的构建

根据VSM模型,首先利用jieba对文本进行分词。接着在使用常用停用词表如哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词表的基础上,引入部分针对科技服务需求内容描述的停用词,如“需求”“需要”“公司”“企业”“机构”等,得到文本的词项集合。再选择词频及TF-IDF(Term Frequency-Inverse Document Frequency)方法计算词项的权重。最后根据词项及其权重将文本表示为空间向量,如下:

u={(t1:w1),(t2:w2),…,(tj:wj)}

(1)

其中tj为词项,wj为对应词项的权重。

对科技服务需求标题和需求描述进行分词去停后得到其词项集合。需求标题的语言一般均十分精炼,而需求描述一般较长较详细,属于长文本。故建立需求标题的VSM模型,利用词频即词项在文本中出现的频次即可表示词项权重。建立需求描述的VSM模型,利用经典权重计算方法TF-IDF表示词项权重,权重计算公式如下:

(2)

整合上述需求标题和需求描述向量,得到科技服务需求模型,如下:

PDi=

(3)

其中PDi表示第i个科技服务需方的需求模型;DTi、DAi分别表示第i个需方的需求标题和需求描述的VSM;t1p表示需求标题模型中第p个词项,w1p表示对应词项权重,p为相应模型空间长度;t2q表示需求描述中第q个词项,w2q表示对应词项权重,q为相应模型空间长度。

2.1.2需求内容双层相似度的计算

需求标题和需求描述文本向量化后生成高维向量,以余弦值计算文本相似度。故科技服务需求内容双层相似度计算公式如下:

sim(PDi,PDj)=α1sim(DTi,DTj)+

β1sim(DAi,DAj)

(4)

其中,sim(DTi,DTj)、sim(DAi,DAj)分别表示科技服务需方PDi与PDj在需求标题和需求描述方面的相似度,α1和β1分别代表这两个相似度的权重,且α1+β1=1。

根据需求相似度值高低排序,返回前K个近邻科技服务需方,组成近邻科技服务需方列表NDL(Near Demander List, |NDL|=K)。再借助平台供需方购买关联生成与这前K个近邻需方发生购买关联的机构组成机构候选集合ICS(Institution Candidate Set, |ICS|=M)。

2.2 科技服务机构推荐指数的构建与度量

2.2.1科技服务机构推荐指数的构建

为缓解优质机构推荐位置靠后的问题,本文在科技服务需求挖掘的基础上,引入科技服务机构推荐指数IRI(Institution Recommendation Index),对机构满足科技服务需求的能力水平进行衡量。其由科技服务平台评分和科技服务机构评价标签两个维度构建所成。

科技服务平台一般从咨询响应、交付质量、用户评价和售后服务等多维度考量科技服务机构并生成综合的科技服务平台评分。这些维度所反映的实际需求都是科技服务平台进行推荐时的优化目标[20]。故本文将采集科技服务平台评分用于科技服务机构推荐指数的构建。

评价是科技服务需方自发生成的文本,极大程度上真实反映了他们的消费体验和消费期望[16]。故通过对科技服务平台机构评价内容进行分析,可了解到科技服务需方对机构的真实态度。但科技服务机构评价的数量随互联网大数据的发展而暴增,且评价内容本身具有不规则性、冗余性的特征[21]。而评价标签将在线评价按产品特征或消费体验分类[22],其信息规范性和有效性都较强[23]。故本文将采集科技服务机构所有评价标签用于科技服务机构推荐指数的构建。

2.2.2科技服务机构推荐指数的度量

对于科技服务机构的平台评分PS(满分为5分即PS≤5),本文直接以此总分取相应权重进行计算。

对于科技服务机构评价标签,本文参考文献[23]通过人工梳理和频次分析进行机构特征属性的提取。不同于一般电商产品评论标签的清晰化描述,如对于手机系统流畅的评论,标签显示为“系统流畅”。科技服务平台上机构评价标签描述均较为模糊,如对于服务效率的评价,标签会显示为“速度快”“高效”“工期延误”等。由此可窥见科技服务区别于一般电商行业的特别之处,以及在科技服务平台上提取机构特征属性的难度。因此本文参考相关文献[24]采用三人小组进行标注,确定标注标准是在最大化保留原始评价标签的情况下充分体现评价标签所反映出的科技服务业独有特性,保证标注结果精炼且符合标准。

对于科技服务机构的标签评分LS,相关文献[23,25]通过重构sigmoid函数进行计算。但此计分方式未充分考虑评价情感倾向的影响。故本文针对特征属性的不同情感倾向提出不同计分公式如下:

PLSji=

(5)

NLSji=

(6)

LSj=∑PLSji+∑NLSji

(7)

其中PLSji代表机构PIj正向特征属性评分且0≤PLSji≤1,NLSji代表机构负向特征属性评分且-1≤NLSji≤0,LSj代表机构标签评分;gji代表在机构中特征属性fi出现的频次,Gj代表机构评价标签总数。

科技服务机构推荐指数计算公式如下:

IRIj=α2PSj+β2LSj

(8)

其中,IRIj表示机构PIj的科技服务机构推荐指数值,PSj表示机构平台评分,LSj表示机构的标签评分;α2和β2分别代表平台评分和标签评分的权重,且α2+β2=1

根据2.1可得科技服务机构候选集合ICS。利用科技服务机构推荐指数值高低对候选集合中的机构进行重排,取排序后前N个不同的机构组成机构推荐列表IRL(Institution Recommendation List, |IRL|=N)。这个机构推荐列表是融合挖掘科技服务需求、科技服务平台评分和科技服务机构评价标签的结果,不仅考虑了需方主动上传的科技服务需求,还考虑了平台机构的能力水平。

3 实验与结果分析

3.1 数据准备

本文利用八爪鱼爬取猪八戒网“软件开发”板块交易数据1 392条。经预处理(如图2)后得1 227条交易数据,包含存在购买关联的供需双方名称、需求标题、需求描述以及机构评价标签。将1227条交易数据随机分成5组,于每组数据中随机取70%用作训练集,其余30%作为测试集。

图2 数据清洗处理主要流程

猪八戒网科技服务机构总体评价板块至多包含12个不同评价标签。为准确提取科技服务机构特征属性,除上述交易数据中已有的504个机构外,再次爬取猪八戒网“软件开发”板块214个机构数据,经人工剔除评价标签无内容及无效的机构后共得484个机构,包含300 908个评价标签。

目前尚无完整的科技服务机构评价语料库,本文以上述300 908个评价标签组建科技服务机构评价标签库。经频次统计后得484个机构共有4 903个评价标签,每个机构平均有10个评价标签。人工梳理4 903个评价标签可发现其中存在“一义多词”和用语不规范现象。故根据标注标准进行剔除整理,再以频次分析法筛选评价标签结果如表1,评价标签分布不均,其中“专业度高、准时交付、严谨认真”等9个评价标签的出现频率和高达83.47%。故本文选取出现频率不小于0.1%的评价标签用于特征属性的提取,最终得25个科技服务机构特征属性,其中有20个正向特征属性和5个负向特征属性(如图3)。

表1 科技服务机构评价标签频率表

图3 科技服务平台机构特征属性

3.2 实验设置

基于上述内容,本文设计的CDAE方法推荐流程为:根据2.1生成NDL后,基于需方与机构间购买关联返回ICS。再利用2.2生成的IRI对集合中机构进行重排以返回IRL。在该方法中,科技服务需方和机构在NDL和IRL中排序的思路是:需求标题与描述加权组合,平台评分与标签评分加权组合,其中各权值设置如下:α1=β1=0.5,α2=0.4,β2=0.6,以及|NDL|=K=367,|ICS|=M=50。

以猪八戒网某机构为例说明IRI计算。在机构首页顶部可查此机构PS=4.5分,标签评分计算如表2。故此机构IRI=0.4*PS+0.6*LS=0.4*4.5+0.6*1.14 18=2.48 51。

表2 猪八戒网某科技服务机构标签评分计算

标签评分LS:26/134+22/134+(19+16)/134+18/134+(15+11+10)/134+8/134+8/134=1.14 18

3.3 评价指标

现有推荐系统重在实现精准推荐。但在机构推荐中,若仅强调推荐列表的精准度而忽视覆盖度,则可能导致推荐集中于“头部”机构,使得“尾部”机构愈加冷门而不利于平台发展。实际推荐过程中,不仅关注推荐列表中机构是否被选择,还关注推荐列表与需求的整体契合度。故基于机构推荐列表的精准度、覆盖度与契合度多重目标,采用以下指标进行效果评价:①精准度:a.分类精准度:准确率P(Precision)、召回率R(Recall)、F值(F-measure);b.排序精准度:平均精度均值MAP(Mean Average Precision)、归一化折损累积增益NDCG(Normalized Discounted Cumulative Gain)。②覆盖度:覆盖率COV(Coverage)。③契合度:参考相关文献[26]邀请5位科技服务业技术专家对推荐列表中机构逐一打分,评分标准是1-100分,分值越高说明机构越能契合需求。评分过程中,技术专家逐一查看机构详情页以确保对机构较为了解。5位技术专家对同一列表中同一机构的综合平均分即为该机构得分IS(Institution Score),同一列表中所有机构综合平均分即为该列表得分ILS(Institution List Score),代表该列表与科技服务需求的契合程度。各指标计算公式如下:

其中,N代表推荐列表中机构数;PD代表测试集中科技服务需方集合,本文中|PD|=368;IRLpd(N)代表Top-N推荐列表;Ipd代表与科技服务需方发生实际购买关联的机构;prei表示机构i在推荐列表中的位置,prej

3.4 结果分析

为验证CDAE方法的有效性与可行性,选择以下两种方法进行对比:传统内容过滤方法(CBF);基于科技服务需方的协同过滤推荐方法(CF-D):即得本文机构候选集合ICS。

以科技服务需方“罗***14”为例,3种方法所得部分推荐结果如表3。

表3 猪八戒网部分机构推荐结果

3.4.1 Top-N条件下分类精准度分析

将CDAE方法与CF-D和CBF方法进行准确率、召回率和F值比较。取N=1/5/10/15/20/25,实验结果如图4。

图4 不同Top-N条件下3种推荐方法的分类精准度对比

由图4可得,CDAE方法的P值和F1值随列表长度N的增大而减小,CF-D和CBF的P值和F1值基本呈现随列表长度N的增大而缓慢增大的趋势,但三种方法的P值和F1值均随N的增大而趋于稳定。同时,三种方法的R值均随N的增大而增大。CDAE方法相对于CF-D和CBF方法的P值、R值和F1值要大,推荐分类精准度更好。

CDAE方法的P值和F1值随列表长度N的增大而减小。这是因为实际推荐列表中机构数N=1(如表3),故推荐结果中N的增大给准确率带来的直接影响大于其间接影响,即准确推荐的需方数随N的增大而增大,但其影响弱于推荐结果中N的增大带来的直接影响。总体来看,三种方法的F1值趋于稳定,但可明显看出N=10为拐点。

3.4.2 Top-N条件下排序精准度分析

将CDAE方法与CF-D和CBF方法进行平均精度均值、归一化折损累积增益比较。取N=1/5/10/15/20/25,实验结果如图5。

图5 不同Top-N条件下3种推荐方法的排序精准度对比

由图 5可得,三种方法MAP值均随N的增大而减小,三种方法的NDCG值均随N的增大而增大,CDAE方法相对于CF-D和CBF方法的MAP值和NDCG值要大,推荐排序精准度更好。其中,MAP值均随N增大而减小的原因是推荐结果中N的增大给MAP值带来的直接影响大于其间接影响。总体来看,三种方法的MAP值趋于稳定而NDCG值的差距越来越大,同时可明显看出N=5为一个拐点。

3.4.3 Top-N条件下覆盖度分析

将CDAE与CF-D和CBF方法进行覆盖率比较。取N=5/10/15/20/25,实验结果如图 6。

图6 不同Top-N条件下3种推荐方法的覆盖度对比

由图6可得,CDAE方法相对于CF-D和CBF方法的COV值要小,但整体随N的增大而趋同(经统计,测试数据集中共有93个不同机构)。这是因为CF-D方法只考虑科技服务需求之间的相似度这一个约束条件,CBF方法只考虑科技服务需求与科技服务机构简介间的相似度这一个约束条件,而CDAE方法考虑了需求内容双层相似度及科技服务机构能力两个约束条件。当N较小时,CDAE方法所得推荐结果的覆盖度小于CF-D和CBF方法,但随N的增大,CDAE方法的推荐覆盖度效果不会受到影响。

3.4.4 N=10条件下精准度分析

经上述分析可得,N=10在分类精准度分析中为拐点,N=5在排序精准度分析中为拐点,且推荐覆盖度随N的增大而增大。故以下取N=10,将CDAE方法与CF-D和CBF方法进行精准度比较,实验结果如图7。

图7 N=10条件下3种推荐方法的精准度分析

由图7可得,N=10时,CDAE方法获得的精准度性能优于CF-D方法优于CBF方法。这说明充分挖掘科技服务需求和购买关联的推荐方法优于挖掘科技服务需求与科技服务机构简介的方法。其原因可能是科技服务机构简介重在介绍企业整体服务业务和企业背景,而需求文本重在描述需求的目标和要求,两者匹配度不高。在此基础上,再引入科技服务机构推荐指数以衡量科技服务机构满足科技服务需求的能力,缓解了优质机构推荐位置靠后的问题,有效提升了推荐性能。

3.4.5机构推荐列表契合度分析

将CDAE方法与CF-D和CBF方法进行契合度比较,取测试集中18个科技服务需方,通过3种推荐方法生成3组推荐列表,每组有18份,共54份推荐列表,每份推荐列表包含10个不同机构。

统计3组推荐列表的评分情况(如表4):a.CDAE、CF-D、CBF这3组推荐列表之中,最高最低得分分别相差14.4分、8.6分、9.6分。专家对三组推荐结果的评分相对稳健,总体评分结果真实有效。b.CDAE方法所得18份推荐列表得分均高于60分,最高分达75.2,推荐列表中所有机构与需求的契合度较好。CF-D和CBF方法18份推荐列表中,除CF-D中第11份推荐达到60.8分外,其他推荐列表得分均低于60分。故CDAE方法所得机构推荐列表更能满足科技服务需求。c.CDAE方法所得三组推荐列表的平均分相较CF-D提升20%,相较CBF方法提升26%。故CDAE方法所获得的性能优于另外两种方法,即本文中融合考虑科技服务需求和科技服务机构能力水平进行推荐的方法有更好的推荐性能。

表4 3种推荐方法契合度对比

4 结 语

为解决科技服务平台供需双方匹配问题,本文提出融合科技服务需求、科技服务平台评分和科技服务机构评价标签的机构推荐方法CDAE。以科技服务需求为基础,将非结构性需求文本向量化进行双层相似度计算并辅以购买关联而生成机构候选集合;同时,从平台评分和评价标签双维度出发,创新性地构建并度量了科技服务机构推荐指数,对集合机构重排以生成机构推荐列表。基于猪八戒网软件开发板块真实数据集开展实验,通过与CF-D和CBF这2组方法进行对比,结果显示Top-N条件下,CDAE方法在精准度和契合度指标上优于对比方法,在覆盖度上同样有较好的性能。面对未来复杂多样的科技服务应用场景,该方法仍需进一步优化。首先,后续研究应采集多元数据,设计面向潜在需求和未来需求科技服务平台机构推荐方法。另外,在科技服务机构的标签评分上,未来可探索更科学的量化方式,充分揭示评价标签中所体现的需方消费态度与机构优劣信息用于科技服务平台机构推荐的研究。

猜你喜欢
需方列表服务平台
需求拉动与供应推动
——满足与创新问题
需求拉动与供应推动
——满足与创新问题
打造一体化汽车服务平台
学习运用列表法
江苏省一体化在线交通运输政务服务平台构建
论基于云的电子政务服务平台构建
扩列吧
基于云计算的民航公共信息服务平台
需方对分级诊疗制度的满意度分析——以青海省为例
列表画树状图各有所长