摘 要:人工智能技术发展,驱动着图书馆的知识服务向着个性化、精准化方向发展。文章在概述知识发现和用户画像的基础上,构建了图书馆读者用户画像,以此构建了基于用户画像的图书馆知识发现服务模型。分析发现,基于用户画像的图书馆知识服务,能在服务的个性化、精准化方面有着一定的优势,能够提升图书馆知识服务体验。
关键词:人工智能;用户画像;图书馆;知识发现;知识工程;机器学习
中图分类号:G252 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017114
Abstract The development of artificial intelligence technology drives the library's knowledge service towards individuation and precision. Basic on the summarization of knowledge discovery and User portrait, this article constructs the user portrait, so as to construct a service model of librarys knowledge discovery. It is found that the library knowledge service based on user portrait has some advantages in personalized and precision service, and also can improve the experiences of library knowledge service.
Key words artificial intelligence; user portrait; library; knowledge discovery; knowledge engineering; machine learning
智能化与自动化是人工智能时代的两大主题,而移动智能终端的普及应用,也为智能化与自动化的实现提供了海量的大数据基础,通过数据挖掘和算法计算,从海量数据中发现需要的知识发现,也在机器学习、神经网络模型和知识表示等人工智能技术的推动下,呈现出了新的发展态势。同时,随着大数据的发展,数据量的爆发式增长和大数据分析技术的成熟使用户可捕捉的行为数据越来越多,可形成用户关键信息画像的用户画像被广泛的应用到了以标签、画像为基础的精准服务领域[1]。将用户画像与知识发现相结合,可以为用户的需求精准提供基于知识发现的决策知识、咨询知识等服务。
图书馆是人类知识的传承和传播中心,实现对馆藏知识的传播与增值服务也一直是信息时代到大数据时代图书馆的主要服务内容。近年来,基于知识发现系统如Primo、Worldcat Local、Encore等的图书馆知识发现服务也成为了知识服务的主要组成部分。随着人工智能时代的到来驱动着图书馆向智能化服务、自动化服务转型的过程中,基于用户画像的图书馆知识发现服务无疑将提高读者的服务体验与满意度。
1 知识发现与用户画像
1.1 从人工智能到知识发现
从学科体系来看,人工智能是計算机科学的一个分支,它试图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。知识工程作为人工智能的五大研究领域(即脑认知、机器感知与模式识别、自然语言处理与理解、知识工程、机器人与智能系统)之一,一直备受科学界关注。中国人工智能学会理事长李德毅就认为知识工程才是人工智能时代最有意义的课题之一。
知识发现(Knowledge Discovery,KD)则是一门来源于人工智能、知识工程和机器学习等众多学科新兴交叉的学科。具体来看,知识发现就是一次完整的从大量的异构、复杂数据或数据集、数据平台中提取出隐含的、未知的、潜在有用的并能被人们理解的规则与模式,并检查趋势、发掘出事实的高级处理过程[2]。
1.2 知识发现的实现与发展
1989年,在“知识工程(Knowledge Engineering)”被提出12年之后,“知识发现”这一概念在第11届国际联合人工智能学术会议上出现。但由于当时的数据主要以数据库的形式存储管理,因而当初提出的知识发现主要是指基于数据库的知识发现(Knowledge Discovery in Database, KDD),随着数据挖掘技术的发展和数据来源、数据类型的丰富,知识发现也逐渐从基于数据库的知识发现向面向大数据的知识发现方向发展。
1.3 用户画像的概念与应用
用户画像(User portrait)即用户信息标签化,就是通过收集与分析用户的社会属性、生活习惯、消费行为等主要信息之后,完美的抽象出一个用户的信息全貌[3]。目前,由于用户画像能够为服务提供方进一步精准、快速地分析用户行为习惯、商业意愿、消费需求提供了重要的数据基础,进而能够帮助商业机构快速定位用户/群体等更为广泛的商业信息,基于用户画像的个性化推荐服务系统已经处处可见,典型如今日头条,普通如电子商务、社交网络、影视推送、阅读推送等。
2 面向大数据的图书馆知识发现服务
2.1 图书馆知识发现服务的发展现状
(1)图书馆文献资源发现服务。现代图书馆一直注重用户的文献检索服务,并通过数据库检索技术而实现的图书馆书目数据检索系统、主题资源检索系统、综合资源登记管理系统等文献资源的检索系统,向用户提供馆藏数量、文献排序等服务。如经国务院批准的我国高等教育“211工程”“九五”“十五”总体规划中三个公共服务体系之一的中国高等教育文献保障系统(China Academic Library & Information System,CALIS)可为读者提供文献发现、文献传递、馆际互借等服务。endprint
(2)图书馆知识发现系统服务。当云计算的概念提出以后,基于云计算的图书馆知识发现系统也应运而生,目前已有Summon、Primo、Worldcat Local与Encore等越来越多的图书馆知识发现系统被开发,并广泛的应用到了图书馆的资源检索、信息组织与知识服务中。此外,还有中国学术搜索、超星发现系统、智立方发现系统、学知搜索、百度学术等在线知识发现系统也都在图书馆得到广泛应用。从服务内容来看,图书馆基于这些知识发现系统的服务主要有文献检索、资源聚合、粒度分析、知识关联、规律总结等服务。
2.2 图书馆读者的用户画像构建
根据用户画像的相关理论[4],基于大数据的图书馆读者用户画像的构建主要分为基础数据收集、行为建模、构建画像三个阶段(见图1)。其中,数据收集大致分为网络行为数据(如活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等)、服务行为数据(如浏览路径、页面停留时间、访问深度、唯一页面浏览次数等)、用户内容偏好数据(如浏览/收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等)[5]等三类;行为建模是对基础数据收集阶段收集到的大数据,通过机器学习进行用户行为建模,以抽象出图书馆用户的标签,并运用数学算法模型对用户的行为、偏好等进行预测;在行为建模阶段的标签抽象和特征计算后,根据用户的基本属性(如身份证号、年龄、性别、地域等)、行为特征(如Cookie)、兴趣爱好(如URL信息)、心理特征(如社交表情)、社交网络(如微信、QQ社交网络等)等基础数据不断修正,则会根据已知数据来抽象出新的标签,从而使用户画像越来越立体和清晰。
2.3 基于用户画像的图书馆知识发现服务模型构建
本研究基于知识发现的三大阶段(数据准备、数据挖掘、解释与评估)和基于异构、海量、多粒度的大数据资源,采用人工智能技术中的自然语言处理、机器学习和神经网络模型技术的内容信息挖掘、结构信息挖掘、自然语言信息挖掘的知识发现技术,在上述基于大数据的图书馆读者用户画像的基础上,构建了基于用户画像的图书馆知识发现服务模型(见图2)。
相较于已有的图书馆知识发现模型,基于用户画像的图书馆知识发现服务模型区别有:(1)在数据准备阶段,面向大数据资源集,突破了原有的由数据库资源,丰富了数据的来源和类型,这就对包括启用机器学习的语义自动发现、智能联接、智能分析、层次生成、数据沿袭和对各种数据源(包括多结构化数据)的数据混合技术处理提供了新的挑战;(2)在数据挖掘阶段,增加了面向自然语言信息的知识发现,这也增加了面向大数据自然语言信息资源的自动化处理,如相关性、异常、集群、关联和预测等;(3)解析与评估阶段,增加了图书馆读者的用户画像与知识发现原型系统的匹配,这就使得在图书馆用户的知识服务需求并不一定需要用户自己来表达,提高了图书馆用户知识发现服务的精准度。
2.4 图书馆知识发现服务的创新技术实现
信息化时代的知识发现主要是针对结构化数据的数据库知识发现,以及针对非结构化数据的基于文献的(非)相关文献知识发现、全文献知识发现两大分支。从应用的技术来看主要有统计方法(如回归分析、判别分析、聚类分析、探索性分析、模糊集方法、支持向量机方法、粗糙集等)、机器学习方法(如规则归纳、决策树、范例推理、遗传算法等)、神经计算方法(如自组织映射网络、反传网络等)、语义网技术(如关联数据等)。本文所构建的服务模型,则在上述技术和用户画像技术的应用基础上借鉴引入了自然语言处理和隐语义模型,以实现对大数据资源中自然语言如语音、视频的智联处理,和对用户画像与知识发现的个性化推荐匹配。
(1)面向自然语言信息的知识发现。自然语言处理技术短文本相似度度量在信息检索、新闻推荐和智能客服,文章标签在个性化推荐、话题聚合,文章分类在个性化推荐、主题划分等领域的成功应用,为本文所设计的面向自然语言信息的知识技术拓展提供了借鉴。每一种自然语言处理技术的丰富模型也为面向不同的视频、语音、图片等处理提供了选择空间,可以根据语言信息的属性特征和用户画像的需求特征选择适合的度量模式。如短文本相似度常用的计算方法就有TF-IDF、LSI、LDA等模型算法。其中TF-IDF主要用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,返回过滤掉常见的词语的重要词语;LSI主要运用潜在语义索引和SVD降维方法来解决一词多义和一义多词问题;LDA是一种文档主题生成模型(包含词、主题和文档三层结构),可以用来识别大规模文档集或语料库中潜藏的主题信息[6]。
(2)基于隐语义模型的推荐服务匹配实现。本文所构建的是一种基于内容(图书馆知识发现应用)和用户画像的个性化推荐服务模型(见图3),模型有两个实体(内容和用户)和一个关联关系(标签),内容转换为标签即为内容特征化、用户则成为用户特征化。
在这一模型基础上,采用隐语义模型进行推荐,即通过用户画像实时计算用户对于某一知识发现内容的兴趣度(CTR),进而通过人机交互、场景应用进行推荐精准知识服务。
CTR的计算公式[7]为:r=q*m*n
其中i=1…N是知识发现结果c具有的标签,m(ci)指知识发现结果c和标签i的关联度(可以简单认为是1),n(ui)指的是用户u的标签i的权重值,当用户不具有此标签时n(ui)=0,q(c)指的是知识发现结果c的质量,可以使用点击率(click/pv)表示。
2.5 图书馆知识发现服务的内容
图书馆大数据资源的类型大致可以分为文本、视频、音频、图片、动画、软件、中间件、数据集、网页等,大数据时代与人工智能时代则主要是在数据集(如Cookie数据集、用户行为数据集、科学数据集、政府开放数据集等)和自然语言信息(如人机交互语音、图片、音频等)方面丰富了图书馆的资源结构、内容及数量。针对这些数字化的资源类型,运用本文所提出的基于用户画像的图书馆知识发现模型方法进行知识挖掘与服务呈现,可在个性化知识资源聚合、个性化爱好推荐图谱绘制等方面丰富传统的数字图书馆服务范围。如采用基于关联规则的知识发现方法,可以构建不同资源、不同概念间的资源聚合体,从而达到发现连接内容和模式匹配用户画像即需求的概念实体,以及这些概念实体间的隐性关联关系;采用基于推导传递的知识发现方法,发现不同资源内容信息中包括引证等关系在内的隐性关联,从而达到复杂数据集的隐性知识发现,并通过用户画像匹配实现个性化知识推荐;通过分析多粒度大数据资源和用户(群体)的属性特征,借助引证、合作等关系来揭示用户个体间的网络社交、科学研究、爱好兴趣关联,以及用户群体之间的研究贡献、活跃可见度等指数,从而形成不同类型、不同范围的动态关系网络图谱。同时,基于图书馆用户多种属性分析和应用的用户画像构建,不但能为知识发现原型系统的用户社交网络分析提供资源,而且也能为实体分析对象提供帮助。如综合基于模式 匹配、基于机器推理等多种揭示手段,可以构建如资源关系流动网络图谱、科研用户知识流动网络图谱、机构关系知识流动网络图谱等,进而形成面向不同服务对象和群体、具有个性化差异化特征的推理图谱,让用户可以从时间、空间、知识单元追踪等角度推导和观察到具有多维度关系的网络演化、知识流动轨迹。
3 结语
基于内容、行为认知和群体协同建模构建的图书馆用户画像,不但能够准确的描绘出基于大数据标签的图书馆用户属性特征,以此为基础表达和传递图书馆知识服务需求,而且能让图书馆基于大数据的知识发现系统更深层次地挖掘数据资源价值,最终为图书馆用户提 供个性化知识发现服务。
参考文献:
[1] 一步步教你看懂大数据时代下的“用户画像”[EB/OL].[2017-11-26].https://www.sohu.com/a/69687539_353595.
[2] 苗蔚,李后卿.知识发现及其实现技术的研究概述[J].现代情报,2005(1):12-15.
[3] 杨双亮.用户画像在内容推送的研究与应用[D].北京:北方工业大学,2017.
[4] 牛温佳,刘吉强,石川,等.用户网络行为画像——大数据中的用戶网络行为画像分析与内容推荐应用[M].北京:电子工业出版社,2016.
[5] 基于大数据的用户画像构建(理论篇)[EB/OL].[2017-11-26].https://www.jianshu.com/p/0d77238771ef.
[6] 自然语言处理入门(1)——文本相似度计算[EB/OL].[2017-11-26].http://blog.csdn.net/flysky1991/article/details/72786820.
[7] 王尔昕.基于隐语义模型和聚类算法的电子商务个性化推荐系统的研究与实现[D].北京:北京邮电大学,2017.
作者简介:张钧,男,邓小平图书馆副研究馆员。endprint