多源数据融合驱动的机构画像构建与应用研究

2023-05-30 03:28高红莲
河北科技图苑 2023年1期
关键词:应用场景数据融合信息服务

摘要:基于多源数据融合构建的机构画像在图书馆信息服务场景中的应用能够创造出新的服务模式,拓展图书馆信息服务内容的广度和深度。

文章在数据获取与预处理、建立标签体系及实现数据可视化等机构画像构建流程的基础上,设计多源数据融合驱动的机构画像模型,并对机构画像在图书馆信息服务场景中的具体应用进行分析。

关键词:数据融合;机构画像;信息服务;应用场景

中图分类号:G203.5   文献标识码:A

DOI:10.13897/j.cnki.hbkjty.2023.0008

0 引言

随着大数据时代的到来,大量极具价值的显性及隐性的多源数据被充分提供,使能够对海量数据进行挖掘分析的用户画像得到不断的发展,用户画像的应用更加广泛。但用户画像存在的问题也很突出,例如画像的特征仅局限于个体、研究生或博士等少量群体,信息服务大多仅是围绕精准推荐而展开。然而,像科研成果统计和机构竞争力分析这类能够辅助提出科研决策与管理需求的机构画像却较少。那么,如何利用多源数据融合驱动进行机构画像的构建并将其应用于图书馆具体的信息服务场景中已经成为图书情报界现阶段关注的重点问题。本文在多源数据融合驱动下,按照机构画像的构建流程,构建图书馆机构画像模型并对其信息服务场景进行分析。

1 相关概念概述

1.1 数据融合

数据融合是用来处理复杂的和异构的原始数据以获得可靠的和有价值信息的一种方法[1]。目前,各类数据融合的方法均在不同领域进行着广泛的应用,例如军事中的目标识别和医疗中的诊断等。数据融合技术有中间件、数据仓库及机器学习等。而多源数据融合则指使用不同的技术手段和算法工具,对数据进行全面的搜集、调查和分析,进而将信息融合在一起,对其进行分析与评价以得到极具价值的信息[2]。该技术的应用能够将不同来源、类型及结构的数据综合处理,汲取其优势特征,从而提取出对比单一数据更具价值、科学和有效的信息。

1.2 机构画像

用户特征分析是一种标签化的模型,它分析并建立在基本用户特征和行为模式等数据之上,以代表特定的用户群。机构画像是由孟琳首次提出,机构画像强调从核心成员发现、关系抽取及兴趣发现等方面分析动态属性[3]。机构画像能够把机构及其内部成员均视为统一的整体而非单一的个体,用以研究固有属性和动态改变,并对差异性进行归纳总结,从而构建出标签化模型。机构也可以被看作是不同个体的组合体,所以,机构画像中信息也是不同用户画像信息的组合体,其信息主要包括长时期内相对稳定的静态特征和处于动态变化的动态特征[4]。

2 多源数据融合驱动的机构画像构建流程

多源数据融合驱动的机构画像构建大致可以分为三个核心环节:数据获取与预处理、建立标签体系和机构画像可视化。

2.1 数据获取与预处理

机构画像能够在建立不同类型的标签和关联的基础上,准确捕捉所有机构信息,使机构数据能够被结构化、标准化和组织化,以方便数据提取等分析工作的开展

[5]。多源数据融合驱动下机构画像的数据来源渠道多样,包括机构基本信息、机构科研特征、第三方评价等。在对机构画像进行构建时,系统应利用自动监测和自动数据收集方法,酌情整合和更新数据。对于机构画像的数据大致可以分为基本信息、机构研究特征和第三方评价三类,如表1所示。其数据源主要包括:(1)商业数据库,如文献数据库等;(2)自建数据库,如项目数据库和人才数据库等;(3)公开信息,涉及机构年鉴和第三方评价报告等;(4)机构管理部门,包括管理部门和人事部门等。

多源数据的获取决定了不同数据源所反映的信息不同,有的侧重于机构基本信息,有的表达了机构科研特征和第三方评价。为了融合这些异构数据,图书馆要确保数据的完整性和安全性,同时要解决字段统一映射的问题,考虑到冲突、结构冲突等情况。同时,图书馆在进行数据预处理时,要对不同来源的数据采用不同的权重,将数据在特定应用场景下的重要程度考虑在内[6]。总之,多源数据的融合涉及到数据的字段映射与补充、同名消歧、数据权重等多个方面,做好数据获取与预处理,是面向多源数据融合的机构画像构建的基础。

数据预处理作为机构画像构建的必要环节,其可以对获取到的源数据进行相应处理。例如,面对数据不一致的问题,图书馆可以通过数据集成等方式,将具有多个来源的数据用以整合;面对数据缺失的问题,图书馆可以通过编写相应的程序进行特殊值或空值的填充得以解决;面对数据重复的问题,图书馆可以通过SQL语句中的distinct函数等进行过滤[7]。在解决以上诸多数据问题后,图书馆还需要通过人工筛查等方式,对研究价值较低的相关数据进行删除,方能获得最终所需的测试数据。

2.2 建立机构画像标签体系

分类、聚类和回归分析等算法可以用来分析相应的机构画像数据关联,形成机构画像标签体系,如图1所示。

由图1可知,机构画像的标签体系由基础属性、特征属性和学术属性三部分构成。由于机构画像的数据来源是多渠道、多格式的,为了适应多源数据的实际情况,机构画像的标签提取涵盖了机构的整体情况和个体构成情况,勾勒出机构的基本信息与特征。同时,多源数据应用于信息服务场景,那么机构画像也从学术属性维度构建了标签体系,包括期刊论文、会议论文、学术专著等等。机构画像标签体系实际上就是将机构信息抽象化得描述出来,是对机构情况的整体感知,标签能够使我们更加简单和直观地掌握机构的特征,也能充分应用处理后的多源数据来进行解释说明。

2.3 机构画像可视化

机构画像可视化是机构画像所呈现的最终环节,能够帮助机构理解机构画像的标签含义、分析发展状态并全面了解基本情况。如今,随着技术的广泛发展,画像可视化的方式也更加丰富,例如,词云图、折线图和脸谱图等是其常用的可视化方式[8]。机构画像可视化的实现难易程度和复杂程度等都不是评价结果的关键所在,图书馆需要根据机构画像内容去选择最为合适的可视化方式。本文分别从机构画像的三个属性介绍可视化的方式:(1)机构基本属性标签可视化。机构名称、成立时间、科研平台、学科领域、地理位置和组织架构等使用树图可视化;机构构成可以单独使用树图展示;科技人才构成可以使用饼状图可视化。(2)机构科研属性标签可视化。机构科研成果使用表可视化;机构科研项目的研究特点可以使用文本标签可视化。(3)机构评价属性标签可视化。通过使用折线图可视化展示机构自然指数排名;学科排名和机构排名等可以使用條形图可视化。

3 多源数据融合驱动的机构画像模型构建

基于多源数据融合的机构画像模型的构建可以分为五个层面,它由数据源层、数据层、数据处理层、人像显示层和信息服务层组成,如图2所示。其中,数据源层作为组织画像所获得的原始数据的来源,其所选择出的数据源在相应的专业内需具有相对较高的可靠性以及认可度,由图可知,多源数据的来源十分广泛且差别较大,数据的类型不同、格式不一致,可能存在数据缺失与重复等问题。在数据处理层,主要对多源数据进行筛选和校对,剔除数据中不符合需要的数据。同时,针对多个来源数据的部分,系统根据上下文修补完善不规范或不完整的数据以保证多源数据的价值和完整性。

不仅如此,数据处理层还利用自动挖掘、文本挖掘等技术收集静态和动态数据,对数据进行审核、清洗和标签分类处理。同时,数据处理层进一步提取统计以上数据,将其结构重组,对差异化的数据进行分类,使用自然语言处理,建立起数据之间的关联性,将关联结果变换为可被展示的画像展示层。展示层包含了数据可视化、机构画像和数据展示,能够直接解释数据之间的关联,用于直观展示静态和动态数据的特征,建立起机构的画像,记录并描绘机构主要特征与发展情况。多源数据融合驱动的机构画像模型顶层是信息服务层,这一层级被认为是机构情况的延伸,服务层能够提供信息服务、参考咨询服务、资源推荐服务以及嵌入式学科服务,既能够为图书馆的决策、管理和研究过程提供必要的信息,也能够对机构的信息统计与人力资源趋势分析提供精准的建议。同时,信息服务层能够适应不断变化的信息服务需求,及时更新、优化和改进现有的资料数据库。

4 多源数据融合驱动的图书馆机构画像的应用

对图书馆而言,基于多源数据融合构建机构画像,利用相应的机构画像可以为部门机构提供多元的信息服务。图书馆对来源不同、结构不同、完整程度不同的多源数据进行挖掘清洗与处理,从中综合集成为具有统一结构的数据,形成覆盖全面、链接广泛的多源异构数据库,丰富了信息服务的场景。图书馆以多源数据汇聚与计算的结果为依托,借助标签化、信息化与可视化的手段,构建完整的机构画像。通过关联规则计算与数据挖掘匹配技术,能够精准实时地获取符合机构用户兴趣和需求的信息,进一步提升信息服务的能力。具体的服务应用场景包括参考咨询服务、资源推荐服务、嵌入式学科服务等。

4.1 参考咨询服务

多源数据融合的应用在信息分析方面积累了大量丰富的经验,通过多源数据融合,图书馆信息获取能力与交流沟通能力均有提高。图书馆机构画像能够及时捕捉到静态数据与动态数据,了解多源数据载体的多样性与复杂性,能够熟练运用各种信息源,进而从庞杂的信息来源中提取潜在有效信息。同时,由于图书馆机构画像形成分类标签与数据关联,具备较强的理解能力和表达能力,能够引导用户和机构充分表达其需求[9]。基于此,图书馆的参考咨询服务有了进一步突破:第一,多源数据融合打破了不同数据库的壁垒,形成更为宽阔的数据池,便于用户和机构对书刊信息的查询,扩大了文献参考咨询的范围;第二,通过多源数据,图书馆能够减少检索信息的模糊性和不确定性,降低语义偏差,较强的理解能力能够敏锐捕捉到用户和机构需要参考咨询的问题,及时对用户和机构访问各类数据库以及互联网上各种信息资源时所遇到的问题给予解答;第三,多源数据融合使数据来源更加广泛,信息应用更加全面,图书馆在参考咨询服务过程中,有能力为机构提供科研查新、专题咨询、代查代检、定题跟踪等服务。

4.2 资源推荐服务

通过机构画像提取机构的行为特征和动态需求变化,可以预测现有机构未来短期内的兴趣和行为偏好的转变,图书馆及时通过特征对比等方式与类似的画像模型资源进行匹配,可以改善传统资源推荐服务的局限性。多源数据融合,一方面扩大了数据收集范围和渠道来源,从数量看更加全面,另一方面对数据进行有规则的筛选和重组,应用不同方法进行交叉验证,保证了数据的科学性和质量,这就使图书馆资源推荐服务更加精准。通过机构画像,图书馆可以根据机构用户的数据库检索、下载日志,以及发表论文的引文分析、关键词分析,精准识别、呈现机构用户重点关注的数据库、期刊和关键词云,实现向机构用户精准推送最新科技文献资源。此外,图书馆构建的机构画像是在实时监测机构的基础上不断补充与完善的,多源数据融合处于动态更新调整状态,因此,图书馆能够实时地为机构推荐符合需求的资源,为机构的研究提供有效的参考依据。

4.3 嵌入式学科服务

嵌入式学科服务是利用机构画像改善图书馆服务的重要方向之一。图书馆根据机构的实际行为偏好,对服务内容进行层次分析,开展不同的工作,包括数据资源服务(本馆的数据资源和外部的数据资源)、学科概貌分析、专业信息分析以及學科热点分析。在此过程中,涉及到来源广泛、结构不统一的多源数据,这就需要图书馆做好多源数据融合工作,处理多种来源异构的数字资源,包括引文分析、文本挖掘分析等等。图书馆要对多源数据进行筛选,避免数据冗余的问题,要通过数据构建起不同机构的真实描述,从学科样貌到专业信息再到学科热点分析,每一个阶段都做好嵌入工作,将数据动态性的特征要求在数据层面有所体现,做好学科服务的多源数据处理问题,进一步提供与最新热点和优质知识资源相匹配的嵌入式学科服务,如研究趋势分析报告等,有效提高知识应用和知识创新的价值。

5 结语

综上所述,机构画像能够对机构基本信息和科研行为特征进行全面的展示。本文在多源数据融合的视角下,提出了一个三阶段的机构画像构建过程,并对机构画像模型及其信息服务场景进行分析。在大数据迅速发展的时代,基于机构画像模型对信息服务的场景应用进行分析为语义挖掘和人工智能等进一步实现多源数据的融合与关联提供了新的思路。同时,丰富机构的标签内容,扩大机构模式的服务范围,将成为未来图书馆知识服务的重要发展方向。

参考文献

[1]

Meng T, Jing X Y, Yan Z, et al. A survey on machine learning for data fusion

[J].Information Fusion, 2020,57(5): 115-129.

[2]韦冬.基于多源数据融合的高校图书馆知识服务模式[J].图书馆学刊,2019,41(2):83-86.

[3]孟琳. 多源信息融合的机构画像的方法研究[D].北京:北京邮电大学,2018.

[4]赵晏强,马廷灿,周伯柱.基于机构画像的学科服务模式研究[J].图书馆学研究,2021(11):86-90.

[5]熊回香,李昕然,代沁泉.基于用户画像的数字档案馆个性化服务研究[J].浙江档案,2021(7):41-44.

[6]閔甜,孙涛,赖富饶,等.用户画像在科技期刊微信公众号精准推送中的应用[J].中国科技期刊研究,2021,32(12):1549-1555.

[7]俞琰,陈磊,姜金德,等.网络招聘文本技能信息自动抽取研究[J].图书情报工作,2019,63(13):105-113.

[8]任福兵,王朋.基于多源数据的高校画像构建与应用场景研究[J].高校图书馆工作,2022,42(2):34-40.

[9]岳怡然. 面向知识服务的用户画像构建与应用研究[D].北京:中国农业科学院,2021.

作者简介:

高红莲(1968-),女,巨野县工人文化宫馆员。研究方向:图书馆管理与服务。

(收稿日期:2022-12-03 责任编辑:刘 渝)

Research on Construction and Application of Institutional

Portrait Driven by Multi-Source Data Fusion

Gao Hong-lian

Abstract:

TheInstitutional portrait based on multi-source data fusionin library information service scenes can create new modes and expand the breadth and depth of library information service content. On the basis of data acquisition and preprocessing, establishment of label system and realization of data visualization and other institutional portrait construction processes, this paper designs a multi-source data fusion driven institutional portrait mode, and analyzes the specific application of institutional portrait in library information service scenarios.

Keywords:Data Fusion; Organization Portrait; Information Service; Application Scenario

猜你喜欢
应用场景数据融合信息服务
室内外布线用新型光缆技术规范应用研究
基于数据融合的家庭远程监护系统研究
公共图书馆科技创新服务探析
农业高校图书馆专利信息服务研究
基于价值共创共享的信息服务生态系统协同机制研究
微信公众平台在高校图书馆信息服务中的应用研究
船舶动力定位中的数据融合技术文献综述
基于信源编码的数据融合隐私保护技术
物联网关键技术与应用