●周 欣 (南京晓庄学院 南京 211171)
在大数据背景下,应用数据挖掘技术,可以提高知识服务的智能化、个性化和自动化,实现“数据→信息→知识→价值”的转变。如何从用户的行为数据中找到用户的真实需求,挖掘出与用户学科相匹配的知识资源,并通过合适的方法和渠道展现给用户,是当前图书馆研究的主要问题。大数据环境下图书馆学科用户的行为数据正在呈指数增长,这极大地增加了数据挖掘的难度和精确度,这种情况下“小数据”概念应运而生,被人们广泛认知和运用,用户“小数据”的挖掘分析具有可操作性、适用性和人文关怀等特点,更适合于给用户提供个性化的、差异性需求[1]。
美国康奈尔大学教授德波哈尔·艾斯汀2014年首次提出“小数据”的概念[2]。这位计算机学教授在父亲去世的前几个月,发现年迈的老人的日常行为与往常有很大不同,例如发送邮件及购物的次数减少、散步的距离缩短等,然而这种身体的异常在医院的体检中却无法体现出来。因此艾斯汀教授把这种利用日常小数据来分析、评估个体特征生命信息的方式运用到医疗中,为病人的治疗提供科学依据。“小数据”的概念提出之后,得到了很多学者的关注。马晓亭指出“小数据”是以人这个个体为中心,围绕不同个体采集的人的思想、行为、个性、爱好等数字化特征的数据[3]。
“小数据”的研究对于图书馆领域来说,在用户个性化服务方面具有更强的优势和应用价值。陈臣分析了小数据对个性化服务的影响,提出了一种基于小数据决策支持的图书馆个性化服务模式[2]。马晓亭为解决个性化智慧服务中的相关问题,提出了一种基于可信小数据的图书馆个性化服务模式[3]。杨晓刚等系统地分析了小数据的基本概念和来源,小数据和大数据的异同,从小数据的采集、存储和使用三个方面研究了小数据的管理方法[4]。刁羽探讨了小数据在学科微知识集成服务研究中的优势,构建了基于小数据的学科微知识集成服务系统框架[5]。王欣和张冬梅通过对高校读者小数据的采集、预处理、个性化阅读需求发现与预测利用,建立决策推荐机制为高校读者推送个性化智能服务[6]。李志芳研究了“互联网+”驱动下的图书馆用户的小数据行为,设计了图书馆个性化推荐服务模式[7]。小数据作为大数据的补充和完善,更具有针对性和个性化,小数据的研究更能反映出单个用户的学科需求。
图书馆界对小数据的研究很多,为图书馆开展个性化服务提供了新的思路,但是现有的研究鲜有将小数据作为研究对象,并用大数据的思维来实现学科知识服务的整体过程。本文在大数据背景下,从学科用户小数据视角对图书馆的学科知识服务进行探讨,以学科用户使用图书馆学科资源的过程中产生的“小数据”为研究对象,通过对学科用户的“小数据”进行数据挖掘和建模分析,开展个性化的学科知识服务,并指导学科服务的开展。
大数据关注大量用户的同一类型的行为和特征规律,而小数据关注单个独立的用户,以个体用户为中心进行数据的采集研究。小数据的目的是为用户个体提供个性化服务,对数据的精确描述要求较高,它的本质并不是数据总量小,而是通过研究单一用户多种类型的特征、数据和行为来挖掘关于用户个体的规律和知识。小数据可以来源于大数据,从大数据中把针对同一个用户的信息抽取出来,组成小数据记录,但记录比大数据更加全面、详细。小数据能体现个体的个性化行为和需求,数据具有非结构化的特点,单个用户个体的数据总量小,因此实时计算相比大数据来说,算法简单,计算量小,反馈更快。
学科用户小数据是指学科用户在科研和教学过程中产生的所有数据的总和。根据数据的来源,本文将学科用户的小数据构成分为6个部分,分别是学科用户的基本特征数据、用户行为信息数据、各种管理系统的数据、移动互联网数据、社交网络数据、传感器数据等。学科用户的基本特征数据,例如用户的姓名、院系部门、教育程度、学科、研究方向、已经发表的学术成果、学术著作等。用户行为信息数据可以从Web 日志记录的用户行为数据中获取,包括到访次数、Web停留时间、下载次数等。各种管理系统数据如科研管理系统、教务系统、OPAC系统、数字资源管理系统等。移动互联网数据是指读者通过手机等移动设备借助移动互联网技术进行的图书馆信息査询、浏览、下载、阅读等行为的记录,主要涉及手机图书馆网站、手机短信提醒、微信、APP等方式。社交网络数据是读者通过微博、微信、QQ群、论坛、邮件等产生的数据。传感器数据是指通过有线或无线传感器网络技术对图书馆不同位置的环境和资源进行智能化感知的数据。这些数据能够记录读者与图书馆的沟通互动记录,能够直观了解用户群体使用图书馆的状况和读者的关注点。
数据挖掘技术作为一种信息分析的辅助技术应用到高校图书馆的学科服务中,利用聚类分析、关联分析等手段,对不同类型的海量数据进行有效整合,并在此基础上开展实时分析和数据挖掘,可以帮助高校图书馆对学科用户进行分类,发现各类用户的需求特征,为用户提供学科知识服务和个性化知识服务,协助学科馆员开展学科服务工作。
数据挖掘在图书馆中的应用主要集中在个性化知识服务和智慧图书馆知识服务两个方面,两者紧密相连密不可分。个性化服务一般依据用户的行为习惯、兴趣爱好等个性特点和不同需求,通过个性化检索、系统推荐等方式为用户提供知识服务[8]。柳益君提出了基于大数据挖掘的图书馆智慧服务模型,通过用户群挖掘、用户兴趣挖掘、学科和领域知识挖掘、业务关联挖掘等实现大数据应用和智慧服务的需求[9]。王颖纯等基于知识挖掘的智慧推荐服务,包括了以知识库为核心的智慧推荐、以用户需求为核心的智慧推荐和以“用户画像”为核心的个性化推荐体验[10]。
图书馆可以利用用户大数据分析和知识挖掘,基于海量服务数据、业务数据的关联和挖掘,更好地把握用户需求和行为偏好,针对不同的用户群开展个性化知识定制服务、智能知识推送服务、自动知识导航服务、个性化知识导航等服务[11]。针对不同的人群,数据挖掘有其特定的价值。从学科馆员的角度来说,可以分析学科用户的资源需求倾向,找出有相近资源需求的读者后,相互推荐资源的下载信息等,并进行资源推送服务,对学科资源建设、资源评价也具有指导作用。从学科用户的角度来说,分析学科用户对数字资源的使用行为,挖掘用户在数字资源访问系统中的行为信息,发现不同类别用户的阅读爱好、学科方向,找出学科用户的学科资源需求规律,以便运用智能推荐系统,向用户提供个性化的资源推荐提供依据[12],如图1所示。
图1 数据挖掘在学科服务中的作用
运用大数据的思维可以对图书馆学科用户小数据进行有效的存储和处理,也可以依托大数据分析处理平台和大数据处理算法,对用户小数据进行数据挖掘和分析,向学科用户提供学科知识服务。
基于小数据的服务挖掘能够掌握学科用户的真实需求,提高学科服务质量,实现学科资源个性化服务,同时对于图书馆方面来说能指导图书馆的学科资源建设,有利于馆藏资源的充分利用。图书馆领域的“小数据”挖掘是以读者为中心,动态分析读者在不同时刻的各种需求,进行数据采集、处理、计算、分析与应用的过程。借鉴服务挖掘和数据挖掘的一般过程,本文提出学科用户小数据挖掘的系统构架,共分为4个层次,分别是用户数据采集、数据处理和存储、数据挖掘分析和个性化知识服务,基本研究框架如图2所示。
图2 学科用户小数据挖掘的框架
数据的采集阶段通过各种途径搜集来自学科用户的各方面的数据(见图2),内部的专用各种系统可以直接通过日志提取的方式,外部的社交网络数据、互联网数据等可以通过网络爬虫系统获取。
数据处理和存储阶段,即将采集到的各种数据进行选择、预处理和数据转换,建立学科用户基本信息库、用户本体数据库、用户行为特征数据库以及学科知识数据库等。由于大数据主要关注数据的海量多样化,对细节的精确度要求不高,在提取用户个体的小数据时,需要对数据进行清洗和完善,如检查数据一致性,处理无效值和缺失值,补充关键信息等。
数据挖掘和分析阶段是整个数据挖掘过程的核心阶段,在这个过程中最主要的是数据挖掘算法的选择。数据挖掘分析阶段通过数据挖掘算法分析用户的行为特征,包括客户行为指标体系构建、客户行为分析和算法实现等,实现方法见图2。数据挖掘的作用是利用利用机器学习、统计分析等特定的数据挖掘算法,从数据库中发现有用的知识或相关的模式。
个性化知识服务是将数据挖掘分析的结果,通过个性化知识搜索、自动知识导航、个性化知识定制、个性化知识咨询、智能知识推荐等方式向学科用户展示出来。
知识服务的前提是用户需求,因此知识服务的核心问题也就是如何确立用户需求,然后根据用户的真实需求搜寻匹配用户所需的知识资源。要想有针对性地向读者推荐学科信息或知识信息,首先要对读者在数字资源访问系统上的海量搜索行为进行采集,为每位读者建立独有的读者信息挖掘库,然后根据这个信息库对每位读者的搜索记录进行读者行为分析,使用数据挖掘聚类算法,找到其合适的读者类型,最终为读者推荐合适的学科知识资源。
小数据的挖掘是基于用户行为数据库,利用各种统计分析工具,获取用户对图书馆资源的使用偏好特征,挖掘出用户对学科知识所产生的影响因子,并预测用户未来对学科资源的需求。图3展示了基于小数据挖掘的学科知识服务模型。模型以学科用户为中心,通过学科用户数据采集、数据的标准化存储、数据挖掘分析、个性化知识服务等过程,向用户提供个性化的学科知识服务。
图3 基于小数据挖掘的学科知识服务模型
首先对学科用户的基础数据进行采集,建立学科用户信息库,同时对本机构的数据资源进行重构,建立学科知识数据库;然后采用聚类分析和LSA潜在语义分析方法对学科用户进行建模分析,形成学科用户的兴趣集合和用户行为集合;最后采用内容推荐算法和协同过滤算法,在学科知识信息库中寻找与学科用户想匹配的知识资源,实现个性化服务和知识推荐等。
一站式学术搜索引擎作为高校图书馆智能学科服务个性化推荐的基础支撑[13],详细记录了学科用户的学术搜索行为信息,这部分数据是小数据挖掘最重要的数据来源。学科用户信息库是实现数据挖掘个性化服务的前提条件,通过对用户信息的挖掘才能发现用户的真实需求。学科知识信息库的建立需要在用户需求的前提下,按照学科分类对本单位的知识资源进行整理和重构,是实现学科知识服务的基础,将图书馆的资源与用户的需求相结合之后才能实现精准的学科知识服务。面向学科用户,采用用户特征提取方法和用户行为分片对学科用户进行聚类分析,建立聚类分析模型,分别产生兴趣集和相似分片集。结合用户行为信息库和学科知识库,采用用户检索词特征向量和数据资源特征向量分析方法,建立语义分析模型。在聚类分析和语义分析的基础上形成学科用户的兴趣集合和用户行为集合。采用内容推荐算法和协同过滤算法,根据用户的兴趣偏好和用户行为特征建立兴趣模型,在学科知识信息库中寻找与学科用户想匹配的知识资源,实现知识的关联和知识的挖掘。发现隐藏在读者行为数据中的知识和价值,并采取合适的方式展示给用户,实现以用户需求为目标的个性化推荐和知识服务。在个性化精准服务的基础上,实现服务内容和服务方式的创新,为教学和科研提供服务。
收集用户需求和反馈。针对每个学科用户建立用户信息库,并对用户进行需求分析、展示其现行需求,挖掘其隐性需求。小数据分析决策、个性化服务反馈,可以促进系统自适应优化和完善,提升用户服务满意度。同时收集用户的反馈信息,做到有的放矢、按需定制服务。
用户行为可视化呈现。利用可视化技术将学科用户的数据行为展示出来,为学科用户本人提供数据服务,呈现其科研过程脉络,同时将其隐性需求展示出来。同时,利用以上对学科用户小数据的分析,将其数据行为轨迹,以图表或的形式展示给用户。为用户展示其用户画像或数据画像,记录其科研过程,追踪用户的学科发展动态,提供数据分析和数据展示服务。
开展个性化知识服务。在对读者行为小数据挖掘分析的基础上开展个性化服务,避免盲目性和低效性,从读者的需求出发,实现精准服务,提高个性化服务的时效性和准确性。并以读者为中心、关注个性化的需求、明确读者未来的需求发展趋势,构建全方位的个性化服务体系。
优化数字资源建设。根据小数据分析的结果和用户反馈,对图书馆的知识资源进行有效的整合和重构,有针对性地进行资源建设,满足大多数人群的资源需求和少数重点用户的需求。基于用户小数据的挖掘分析,也可以对学科用户开展用户生命周期、用户忠诚度分析等研究。
小数据是个体用户的“全数据”,可以用来统计分析用户个体信息、推荐个性化的信息服务、指标预警、制作用户画像、提升用户服务感受等。在后续的研究过程中可重视以下几个方面的研究:统筹规划大数据的基础设施建设;推进智能化建设,推进核心技术攻关;推进图书馆与学校各个业务系统的数据融合和数据共享;小数据挖掘和使用过程对用户的隐私的保障等。