“破四唯”背景下科研人才画像标签模型的构建

2021-04-29 21:00何胜李萍史航习海旭吴智勤
江苏理工学院学报 2021年6期
关键词:用户画像

何胜 李萍 史航 习海旭 吴智勤

摘要:“破四唯”是党中央和国务院针对“人才评价”问题的重要决策。在“破四唯”精神的指引下,基于高校图书馆大数据和社交网络大数据,科学构建了科研人才画像标签模型,并以论文评价为例讨论了标签模型的应用方案。该研究可为“破四唯”要求下新的科研人才评价体系的建立提供有益参考。

关键词:用户画像;人才评价;高校馆大数据;破四唯

中图分类号:G250.73文献标识码:A文章编号:2095-7394(2021)06-0115-06

2018年7月3日,中共中央办公厅、国务院办公厅印发了《关于深化项目评审、人才评价、机构评估改革的意见》[1]的文件(以下简称《文件》),指出要“科学设立人才评价指标”,即“突出品德、能力、业绩导向,克服唯论文、唯职称、唯学历、唯奖项倾向,推行代表作评价制度,注重标志性成果的质量、贡献、影响”,提出“把学科领域活跃度和影响力、重要学术组织或期刊任职、研发成果原创性、成果转化效益、科技服务满意度等作为重要评价指标”。学界将《文件》中的“克服唯论文、唯职称、唯学历、唯奖项倾向”概述为“破四唯”[2]。以教师、研究生、其他类型的科研人员为主体的高校科研人才是高校图书馆的主要用户,可以基于图书馆所积累的海量用户属性数据和个性化行为数据,析出标签并构建人才画像模型,为“破四唯”要求下高校人才评价提供科学依据和有力支撑。

1用户画像标签模型研究现状

1.1一般用户画像标签模型的研究

面向一般用户画像标签模型构建的研究开展的较多[3-4]。在标签模型构建过程中,融合各类大数据进行标签抽取是通用方法。AL-SHAMRI[5]综述了基于用户画像标签构建个性化推荐系统的方法和过程,包括数据收集、用户画像、相似度计算、社交网络近邻选择及预测等;BULUT[6]将社交网络分析引入用户画像标签模型构建过程,以具体社交网络为对象,调查用户动机并据此划分用户群;JOSEPH[7]对用户社交网络(Twitter)信息加以分析和抽取,预测用户属性以完善用户画像标签,并给出应用案例;牛温佳等人[8]以知识工程理论为指导,提出基于知识抽取和用户社交网络行为分析的用户画像标签构建方案。

高校馆具有丰富的科研文献资源和用户行为数据,包括论文库和图书借阅库等,为标签抽取和数据融合提供了优质的数据源。廖运平等人[9]阐述了智慧图书馆用户画像的内涵、特征、创建方法和创建步骤并给出了案例;于兴尚等人[10]以精准个性化服务为目标,讨论了画像建模过程中的图书馆数据源融合方法和标签模型构建技术等问题。

1.2科研人才画像标签模型的研究

科研人才画像又被称为学者画像或专家画像。高扬等人[11]以智能制造领域为例,基于社交网络平台数據,从科研人才的基本属性、研究兴趣、学术影响力三个维度构建了杰出人才画像模型;郑昂等人[12]基于数字图书馆资源,来分析学者的特征属性,构建用户画像和学者库,以服务人才识别、科研团队和专题资源建设等;彭程程等人[13]提出可显示“学术谱系”和“研究脉络”的智慧校园学者画像系统。

从上述分析可以看出:已有大多数文献将社交网络大数据或图书馆大数据引入到用户画像的标签建模中,但是将两者结合起来共同作为数据源进行标签建模的研究则较少;对一般用户画像研究的较多,对科研人才画像研究的较少,特别是面向人才评价并结合“破四唯”要求的人才画像研究更为鲜见。鉴于此,本文密切结合新形势下《文件》精神,融合图书馆大数据与社交网络大数据,构建科研人才画像标签模型。

2适应“破四唯”要求的科研人才画像标签模型构建思想

2.1需将“论文、职称、学历、奖项”作为参考要素

《文件》的第三条“改进科技人才评价方式”中之第(二)款“科学设立评价指标”指出:“将SCI和核心期刊论文发表数量、论文引用榜单和影响因子排名等仅作为评价参考”[1],这意味着在人才评价中,既要突出不唯论文、职称、学历、奖项,又要“作为评价参考”,体现了《文件》的辩证性思维和实事求是的精神。其中:“论文”一定程度上反映了科研人员对阶段性工作的总结和提炼,是高度浓缩后的研究成果;“职称”是所在单位对科研人员多年工作成绩的一种认定,高级别职称意味着在相关领域深厚的学术积累;“学历”一定程度上反映科研人员的学术历程,更高学历需要相对更多的时间和研究积累,能部分反映科研人员的知识结构和能力形成的轨迹以及学术潜力;“奖项”是颁奖机构对科研成果的认可程度,权威部门颁发的奖项一般能较好地体现科研人才的社会需求度和认可度,这四个方面对于科学评价人才,都具有一定参考意义。近年来,由于社会导向异化以及部分科研人员追逐功利,导致论文数量、职称和学历高低、获奖数量并不能精确反映科研人员的学术潜力以及对社会的贡献度,但是如果全盘否定这四个方面则会走向另一个极端,同样有悖于《文件》的精神实质。因此,本文在科研人才画像标签模型构建过程中,仍然将“论文、职称、学历、奖项”作为人才评价的参考属性。

2.2需要融合高校图书馆与社交网络大数据

正如《文件》指出,人才评价要“克服唯论文、唯职称、唯学历、唯奖项倾向”,应对措施是“注重标志性成果的质量、贡献、影响”。那么,人才画像应如何表征标志性成果的质量、贡献和影响?高校图书馆拥有图书借阅系统、论文数据库等资源,一方面保有科研人员的基本特征数据和大量的借阅日志数据,方便抽取用户的个性特征和行为特征;另一方面以论文为代表的成果数据库存储了海量的下载、被引和评价记录,对这些记录进行分析和提取,结合已经构建的人才画像标签模型,可有效发现标志性成果,并能恰当评价其质量、贡献、影响。由此可见,融合高校馆大数据进行画像能够为科研人才评价提供有力支撑。

《文件》还指出,人才评价要“把学科领域活跃度和影响力、重要学术组织或期刊任职、研发成果原创性、成果转化效益、科技服务满意度等作为重要评价指标”,对这些指标进行评价一般要依赖科学界、工业界等领域的参与和认同。科研人员聚集的社交平台和评论网站(如微博、知乎网站、科研团队微信公众号)等社交网络大数据是人才画像的主要数据来源,运用语义计算领域的机器学习算法对其分析,可以实现科学而精准的画像标签抽取。

基于上述分析,本文在将“论文、职称、学历、奖项”作为人才评价指标的基础上,引入高校馆大数据和社交网络大数据,构建新的人才画像模型。

3“破四唯”背景下人才画像标签模型的构建

科研人才画像标签模型一般可从用户人口标签和科研属性标签两个方面加以研究。高校馆科研用户指利用图书馆各种资源从事科学研究的个体(如高校教师、研究生)或群体(如科研团队)[14],对比以教学、休闲为目标的图书馆用户,是一类以科学探索和创新为己任的特殊图书馆用户。一方面,科研创新工作建立在个体付出艰辛努力以及群体通力协作的基础上,人才画像需要深度描述个体和群体的人口信息特征,从而形成科研用户人口标签模型;另一方面,用户的科研成果可较好地反映其科研素质,用户的学科服务能反映其服务社会的能力,二者共同构成人才的科研属性标签。因此,可尝试构建高校科研人才画像标签模型,如图1所示。

3.1用户人口属性标签建模

为提高科研用户服务的精细化和精准度,可将用户人口属性标签细分为群体人口信息和个体人口信息两部分。群体人口信息标签包括“群体名称”“群体管理机构”和“群体成员社交圈”,即“群体微信、QQ群”等属性。这部分标签数据源于高校馆信息系统的用户行为日志、网页数据和社交网络数据,并需要综合运用社交网络分析的相关挖掘算法进行提取。个体人口信息标签直接源于高校馆信息系统中科研用户注册时的格式化数据,包括“用户姓名”“所属机构”“用户职称”“用户学历”等,其中“职称”和“学历”既标示了个人的重要特征,又兼顾了《文件》中的人才属性。用户人口属性标签属于人才画像的基础标签,可用于对科研个体和群体行为的分析和预测,为人才评价提供基础数据支撑。

3.2用户科研属性标签建模

依据科研创新活动分类方法,可以将用户的科研属性分为“用户科研成果”和“用户学科服务”两部分。结合“破四唯”要求,“用户科研成果标签”主要包括“科研论文”“科研获奖”“代表作”“专利成果”和“项目成果”等;“用户学科服务标签”主要包括“学术组织任职”“学术期刊任职”和“科技服务”,增加了“学科领域名称”属性,目的在于对不同学科领域加以区分。

用户科研属性标签是人才评价的核心标签,采用语义挖掘计算,经过分析“代表作”“专利成果”和“项目成果”标签对应的大数据,可以有效分析成果的质量、贡献和影响力,以及成果原创性;分析“学术组织任职”“学术期刊任职”和“科技服务”标签的大数据,能评估科研人员在学科领域内的影响力、活跃度,及其科技服务满意度。

值得指出的是,“论文、职称、学历、奖项”不再根据其论文数量、职称高低、学历高低以及奖项多寡来评价人才,而是通过语义挖掘计算方法评估论文的影响力,以及职称、学历和成果的相关度,高相关度意味着人才更高的成果凝练度和学科聚焦度。

4“破四唯”背景下高校图书馆科研人才画像应用案例

“破四唯”要求中,論文是被重点关注的对象。2020年2月18日,教育部、科技部联合印发《关于规范高等学校SCI论文相关指标使用,树立正确评价导向的若干意见》[15],就“唯论文”问题提出需要健全分类评价体系:对于基础研究,“评价重点是论文的创新水平和科学价值,不把SCI论文相关指标作为直接判断依据”;对于应用研究和技术创新,“评价重点是对解决生产实践中关键技术问题的实际贡献,以及带来的新技术、新产品、新工艺,实现产业化应用的实际效果,不以论文作为单一评价依据”。

根据上述文件精神,评价论文的关键在于评估论文发表后对科学领域或生产实践领域产生的影响,即“论文影响力”,其计算方式是核心问题。结合图1人才评价标签模型,以“论文影响力计算”为例,探讨论文评价过程中人才标签的应用方法,具体过程如图2所示。

4.1论文评价的数据来源

以论文评价为目的,数据来源包括高校图书馆大数据和社交网络大数据。高校图书馆大数据包括中国知网、万方数据库,Science Direct、Springer Link等知名数据库,收集了所有历史及最新科研论文,其格式规范、内容严谨,方便抽取标签。社交网络大数据包括对科研人员较高黏度的各类社交平台,如科研人员在Research Gate、face- book、Twitter、新浪微博、微信公众号和知乎网站等社交平台上产生的网络大数据。这些社交平台的“分享”“关注”及“好友”功能可以非常精准地反映用户的科研偏好或领域团体的共同科研话题。Research Gate是服务科研人才的著名社交网络平台,提供包括论文分享、转载和话题讨论等功能,拥有1 000多万用户;新浪微博、facebook、Twitter 的博主、微信公众号或朋友圈、知乎网站上的“知乎专栏”中,常以某个专题推送专业领域的论文,并开放收藏、点赞与转载功能,为论文评价提供了丰富和高价值的数据资源。

将上述两类数据进行元数据统一建模,借助大数据计算平台(如Hadoop+Spark+GraphX),经过数据清洗、融合等语义计算和分析过程,形成格式一致、结构清晰的数据并存储,作为科研人才画像的基础大数据。

4.2论文评价的标签抽取

结合“破四唯”的要求,抽取高校图书馆馆藏数据库中的论文信息,包括论文ID、作者、题名、关键词、期刊名等论文题录数据,以及期刊类别、下载次数和被引次数等部分重要衍生数据;抽取社交网络中论文ID、作者、题名、社交平台类别等信息,以及收藏次数、点赞次数、转载次数等部分重要的衍生数据。然后,建立各自对应的元数据模型,提取实体、关系和属性,以便在分布式数据库系统(如MonogoDB数据库系统)中进行存储。

4.3论文影响力的计算方法

为了方便计算,需要引入论文ID,以唯一匹配高校馆藏论文和社交网络论文。其中,馆藏论文相关数据包括:期刊类别,如SCI、EI、核心期刊、CSSCI、CSCD;下载次数,用户从专业数据库中下载论文次数;被引次数,论文被引用次数。社交网络数据包括:收藏次数,被其他用户收藏次数;点赞次数,被其他用户点赞次数;转载次数,被其他用户转载次数。论文影响力计算公式为:论文影响力=∑参数i*权重j,其中参数i1可以根据期刊的质量和社会影响自行赋值,i2到i6直接来源于数据库,权重j由研究者根据人才评价的具体目标或要求进行赋值。容易看出,参数i由期刊的档次和用户评价(下载、引用、转载、收藏、点赞)的数据组成,再乘以权重j,最终结果体现了论文发表以后在高校馆专业数据库和社交网络平台上所产生的综合影响力。

5結语

高校图书馆拥有海量的用户属性数据和个性化行为数据等资源,本文将其与社交网络大数据资源深度融合,借助大数据平台和语义分析工具,构建的用户人口属性标签和用户科研属性标签个性化模型,可全面完整地刻画科研人才的特征,以助力人才评价;表明高校图书馆大数据资源具有重要应用价值,在新时代科研人才评价领域将发挥不可替代的作用。

参考文献:

[1]中共中央办公厅、国务院办公厅.关于深化项目评审、人才评价、机构评估改革的意见[EB/OL].(2018-07-03)[2021-01-05].http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm.

[2]刘云.“破四唯”能解决中国科技评价的问题症结吗?[J].科学学与科学技术管理,2020,41(08):3-6.

[3]吴智勤,李萍.大数据情境下高校图书馆科研用户画像构建策略研究[J].江苏理工学院学报,2019,25(6):117- 121.

[4]高广尚.用户画像构建方法研究综述[J].数据分析与知识发现,2019,3(3):25-35.

[5] AL-SHAMRI M Y H. User profiling approaches for demographic recommender systems[J]. Knowledge- Based Systems,2016,100:175-187.

[6] BULUT Z A,DOG AN O. The ABCD typology:profile and motivations of Turkish social network sites users[J]. Computers in Human Behavior,2017,67:73-83.

[7] JOSEPH K,WEI W,CARLEY K M. Exploring patterns of identity usage in tweets:a new problem,solution and case study[C]//WWW '16:Proceedings of the 25th International Conference on World Wide Web. 2016:401-412.

[8]牛温佳.用户网络行为画像[M].北京:电子工业出版社,2016:9-15.

[9]廖运平,卢明芳,杨思洛.大数据视域下智慧图书馆用户画像研究[J].国家图书馆学刊,2020,29(3):73-82.

[10]于兴尚,王迎胜.面向精准化服务的图书馆用户画像模型构建[J].图书情报工作,2019,63(22):41-48.

[11]高扬,池雪花,章成志,等.杰出人才精准画像构建研究:以智能制造领域为例[J].图书馆论坛,2019,39(6):90-97.

[12]郑昂,曾建勋.数字图书馆学者库构建方式研究[J].图书情报工作,2020,64(5):133-140.

[13]彭程程,吴斌.“智慧校园”学者画像系统研究[J].数字图书馆论坛,2019(2):2-11.

[14]宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(4):171-177.

[15]教育部、科技部.《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》的通知[EB/OL].(2020-02-18)[2021-01-05].http://www.gov.cn/zhengce/zhengceku/2020-03/03/content_5486229.htm.

Construction of Research Talent Portrait Label Model Under the Background of “Breaking Four-only”

HE Sheng1,LI Ping2,SHI Hang1,XI Haixu1,WU Zhiqin3

(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;2.Institute of Foreign Languages,Jiangsu University of Technology,Changzhou 213001,China;3.Jiangsu University of Technology Library,Changzhou 213001,China)

Abstract:“Breaking the Four-only”is an important decision made by the Party Central Committee and the State Council on the issue of “talent evaluation ”.Under the guidance of the spirit of “breaking the four-only ”,based on the big data of university libraries and social networks,the label model of scientific research talent portraits is scientifically constructed,and taking paper evaluation as an example,the application scheme of the label model is discussed. This study can provide useful reference on the establishment of new evaluation system for scientific research talents under the requirement of “breaking the four-only”.

Key words:user portrait;talent evaluation;university libraries big data;breaking the four-only

猜你喜欢
用户画像
基于数据分析高校学生自画像的初探
分析用户画像在企业精准营销中的应用方式
基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析
基于大数据技术的广电用户收视行为建模
基于大数据的电商活动页面设计策略研究
用户画像在内容推送中的研究与应用
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销