基于大数据的高校图书馆知识创新服务研究

2019-06-11 11:24姚远徐世东郝群卢建秋
中国电化教育 2019年2期
关键词:知识图谱人工智能大数据

姚远 徐世东 郝群 卢建秋

摘要:大数据时代,数据成为一种重要的生产因素。高校图书馆运用大数据技术,深入挖掘学术科研数据和读者学术行为数据,帮助读者获得学术资源中的隐性知识、掌握前瞻性的研究视野、建立完善的知识结构、提升读者的知识创新能力,从而将图书馆演变为知识创新服务中心。该文将这种大数据驱动下的知识服务定义为高校图书馆的知识创新服务,梳理了目前知识服务的现状,提出高校图书馆知识创新服务平台的功能模型,利用大数据技术提供对海量数据的实时分析和挖掘能力、语义网技术提供计算机理解和处理事务的能力和判断与推理能力、人工智能技术持续提高自我性能以帮助人类完成那些一开始无法明确定义的任务的能力,来实现八大创新功能:利用可视化知识图谱,呈现知识网络全貌;智能摘要,帮助读者粗加工大量的文本信息;智能构建个人知识专题;关键词联想,激发思维联想;个性化、精准化智能推荐;个人学术轨迹管理与“我的关注领域”呈现;统一检索与全文检索;开放学科语义维护功能。由此,高校图书馆的知识服务将站在全数据和智能化的起点上,可望打造為一个创新的服务体系,提供一种全新的服务生态。

关键词:大数据;知识创新服务;语义网:人工智能;知识图谱;知识关联网络

中图分类号:G434 文献标识码:A

大数据时代的到来,颠覆了工业界、学术界对传统数据的认知。2007年,图灵奖的获得者吉姆·格雷发表了专著《第四范式:数据密集型科学发现》,将科学范式从三种扩展为四种,即:实验科学、理论科学、计算科学和数据密集型科学,这标志着数据思维时代的到来。高校图书馆因提供文献信息服务和知识服务而拥有和保存的学术科研大数据,为图书馆的发展提供了新机遇。高校图书馆应树立数据观,运用大数据技术、语义网技术,自动化完成数据的获取、整理、统计和呈现,建立文献信息资源自动化元数据采集与挖掘的大数据仓储;重新组织图书馆各种类型的文献资源和信息资源,建立知识关联网络,建立语义网络(学科知识图谱),可视化呈现知识网络;追踪研究热点、梳理发展脉络;建立个人学术空间,构建读者学术画像,提供知识管理工具,感知和挖掘读者的隐性学术需求,智能学术推荐。图书馆通过搭建知识创新服务平台,帮助读者挖掘学术资源中隐含的知识、掌握更具前瞻性的研究视野、建立完善的知识结构,从而提升读者的知识创新能力。高校图书馆也从文献信息服务中心、学术交流中心、文化传承中心,而真正演变为知识创新服务中心。

一、基于大数据的知识服务现状

(一)知识服务的概念

以传播知识为主要任务的图书馆,从最初的文献服务到信息服务再到如今的知识服务,为满足用户的需求而不断发展用户服务的实践。通过对各种知识服务概念的梳理,我们可以提取这样3个属性:面向创新、知识挖掘、知识管理。透过这3个关键词总结大数据背景下知识服务的概念,即:图书馆提供通过知识挖掘和知识管理的方式,提供给读者促进其知识创新的服务。

(二)基于大数据的知识服务的概念

传统的知识服务概念是指从各种显性或隐形资源中提炼知识和信息内容,并进行挖掘、重组、浓缩、变形,从而提供知识内容或解决方案的服务过程。知识服务的内涵随着大数据的驱动而发生变化,它将对众多分散、异构资源的知识进行加工,通过知识融合、匹配、挖掘等方式,获取隐含的知识需求与创新,提供新型的知识服务。

(三)高校图书馆基于大数据的知识服务现状

高校图书馆主要通过知识导航服务、知识培训服务、问答咨询服务、情报服务、学科服务平台及学科服务平台等方式进行自己的知识服务。以武汉大学图书馆的学科服务平台为例,图书馆向读者提供各个学科的整合专业文献资源,提供馆藏文献和数字资源导航,提供学科服务咨询、科研分析与评价,以及学术热点追踪与评估等服务内容。

在基于大数据的知识服务研究中,高校图书馆界的研究更多地集中在对知识服务创新模式的探讨、对大数据知识服务平台体系架构和关键技术的讨论上。胡莲香和张新娜认为大数据知识服务不仅是面向海量数据处理的知识服务,更是基于大数据的智慧图书馆的系统建设,并提出要构建基于大数据的下一代图书馆知识服务平台;李晨晖等论述了建构大数据知识服务平台的关键技术,并对实施大数据知识服务模式的思路和发展提出了建议;张娟等以养生领域内的领域本体、文献信息等知识资源为基础,构建养生单元信息知识服务系统,提供语义检索、知识浏览、知识推理和知识发现等服务,实现大数据环境下“单元信息知识组织体系”的有效利用;刘庆麟梳理了重点学科知识智慧服务的创新策略,提出Web3.0下图书馆重点学科知识服务门户建设的原则和架构;范兴丰以云计算和大数据为基础,讨论了知识服务平台内容架构和深层资源定制服务;陈川讨论了学科元数据中心架构,学科元数据中心的应用特点,提出了基于学科元数据中心的知识服务平台建设思路,并做了应用实践分析;余传明等从解决规模跨度问题、领域跨度问题、语言跨度问题等方面进行了研究,从而提出了观点检索的方法。

除此之外,一些高校图书馆还进行了具有特色的知识服务平台建设研究。以清华大学图书馆为例,他们尝试从元数据仓储中提取关键词并进行数据挖掘,分析作者与合作者的关系,建立知识关联网络;重庆大学图书馆建设了“智慧门户”,可实现用户、资源、服务以数据为中介的交互,能准确预测用户行为和需求。这些理论研究和实践探索,都为大数据知识服务平台的进一步发展提供了有益的尝试和参考。

(四)数据库服务商基于大数据的知识服务现状

国内文献数据库服务商除了提供大量优质、及时的原始文献,还借助公司积累的大量资源和元数据,开始提供数据关联和计量可视化等知识服务。例如同方知网提供知识网络节点链接技术,实现对节点文献的各种知识链接。同时,同方知网还提供计量可视化分析服务,对选定的200篇以内的文献提供在线分析其发文总体趋势、文献互引网络、关键词共现网络、作者合作网络、资源类型分布、学科分布、来源分布、基金分布、作者分布、机构分布做计量可视化服务。万方数据知识服务平台的万方智搜,可以根据输入的检索词而提供研究趋势和相关热词的可视化呈现,对每一篇文献都提供相关主题、相关机构、相关学者以及相关文献和媒体资源的推荐阅读,并支持读者对该篇文献标注标签。维普推出了情报分析视角的知识服务平台:维普智立方,可以利用360°网络图,获得多种文献特征的网络关系图,建立关联网络。超星统一检索系统对每一篇文献提供相关文献、相同作者的文献、相同单位的文献等推荐,并对检索后的一组文献进行数据分析和可视化呈现,包括学术发展趋势、地区统计、基金统计、刊种统计、作者统计、中文学科分类统计等。此外,超星移动图书馆和超星学习通平台还提供读者空间服务和建立讨论小组等功能。

SpringerLink数据库运用主题词表进行规范化标引。对于任何一篇文献,都标引出研究包含的主题、产业领域及其相关文献。此外,汤森路透集团提供三大学科服务的统计分析工具InCites、ESI和TDA。Elsevier研发了基于Scopus数据库的SciVal分析工具,以学术机构为对象,展示机构的科研产出、科研合作情况以及跨学科科研优势。

(五)高校图书馆迫切需要构建知识创新服务

高校图书馆在提供知识服务的广度和深度上,越来越落后于专业的文献数据库服务商,所以高校图书馆充当着读者与数据库服务商之间的衔接和中介作用,而无法给读者提供基于大数据技术的创新知识服务;对读者的服务方式还是比较被动,不能根据读者的已有学术行为分析其需求,并向其准确推荐拓展的学术资源;没有给读者提供知识管理工具,用以保存个人的学术轨迹,分析挖掘所关注的文献中的隐性知识,读者也并未獲得激发其创造性思维的联想工具;在针对学科提供学术热点追踪、学科评价、科研指导时,也不能基于大数据技术的学科分析工具,需要手动完成大量数据的获取和整理、统计工作,工作效率较低。正是在这样的需求之下,本文提出高校图书馆应树立数据观,构建基于大数据的“知识创新服务”。

二、知识创新服务的技术基础

(一)大数据及其特点

大数据,不仅是数据量大,更是一种采集和处理总体数据而非样本数据的数据集合形式。大数据技术处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等。大数据海量的数据规模,使得人们可以获得庞大的数据信息。大数据还具有时效性强、数据类型多样性和价值密度低等特点,使得人们通过挖掘和加工数据实现数据的价值发现。

(二)语义网络及其特点

语义网是一种智能网络,它能根据语义进行判断和理解概念间的逻辑关系。语义网的建立极大地涉及了人工智能领域的部分,与Web3.0智能网络的理念不谋而合。而语义网络是一种面向语义的结构,它用图来表示知识间的结构关系。语义网用结点表示信息,结点之间的关系通过有向直线来表示。语义网络有以下特点:可以深层次地表示知识,包括实体结构、层次及实体间的因果关系;语义解释依赖于该结构的推理过程而没有结构的约定;知识表达自然、直观、易于理解。语义网络的价值在于计算机可以通过语义网络来理解判断和推理。

(三)人工智能及其特点

人工智能即AI,它是模拟、延伸和超越人类智能的理论和实践。人工智能的第三次浪潮缘起于Hinton等人提出的深度学习技术。从全球范围来看,AI应用主要集中在各个垂直领域、智能机器人领域、大数据和数据服务、视觉。其中以商业、医疗和金融领域中的应用最为深入。人工智能技术可以对人的思维进行模拟,也可以成为人类智能的扩展和延伸。

人工智能在演进的过程中,呈现出以下新特点:深度学习、跨界融合、人机协同、群智开放和自主智能。人工智能,尤其是机器学习具有一个核心价值:就是机器能够持续提高自己的性能,而无须人类明确解释所有这些任务要怎样完成,成为了自己学习如何完成任务的系统了。这使得对那些我们无法精确表达出的知识,人工智能也可以自动化地实现了。

(四)高校图书馆大数据构成

高校图书馆的大数据由学术资源数据、业务流程数据、情境感知数据、读者行为数据这四个方面构成。针对这4类数据,图书馆可以开展资源管理与利用数据分析来支持资源采购决策,开展用户行为分析来指导图书馆业务优化并提供针对性服务,开展情境数据分析提供精准导航和自适应调节,开展学术资源分析与用户学术行为分析来提供知识创新服务。本文着重讨论的是第四种数据分析与服务工作,即深入挖掘图书馆的学术资源用户学术行为数据,为读者提供知识创新服务。

(五)大数据加工环节

微软在《e-Science科学研究的第四种范式》中,把科学研究划分为4个阶段:第一阶段是数据收集,第二阶段是数据处理,第三阶段是数据挖掘,第四阶段是可视化。高校图书馆的大数据加工同样包括这些方面的工作,它主要由这5个环节构成:大数据收集(数据收割)、大数据存储、大数据处理(数据清洗和预处理)、大数据分析(数据挖掘)、大数据应用服务。

(六)大数据技术概况

目前,大数据的处理主要有以下4种形式:对静态数据的批量处理、对流式数据的实时处理、实时交互计算、对图数据的综合处理。大数据分析的关键技术主要包括深度学习、机器学习、知识计算、可视化、社会计算等。

批量数据处理系统以Google文件系统GFS和MapReduce编程模型为典型,Hadoop在此基础上实现的两个开源产品:HDFS和MapReduce,继Hadoop之后由UC Berkeley的Matei Zaharia主导开发了新一代大数据分布式处理框架Spark,提供高层次的Java、Scala、Python以及R语言的API接入。Hadoop的MapReduce和Spark Core使用映射和规约的思想可以进行海量数据的分析和操作。典型流式数据处理系统包括Twitter的Storm系统、Linkedin的流式数据处理框架Samza、Facebook的Scribe、Linkedin的Samza、Cloudera的Flume、Apache的Nutch;交互式数据处理系统的典型代表系统是基于内存计算的Spark和Google研发的Dremel。图数据处理系统主要有Ne04j、FlockDB、GraphDB等。实际上,Spark提供了一系列工具集,Spark SQL融合多数据源的不同格式结构化数据,能够实现SQL等结构化数据处理,MLlib支持机器学习,还有针对流数据的Spark Streaming,而Graph X支持图处理等。如今,Spark与Hadoop在同一个团队里协同运行,已经被越来越多地运用。

深度学习包括Dato、vlcarlcus、MetaMind、AlchemyAPI、Clarifai、SKYMIND等。机器学习平台包括kaggle、AzureML、Google等。关于知识计算,代表性的知识库或应用系统有KnowltAll、TextRunner、NELL、Probase、Satori、PROSPERA、SOFIE以及基于维基百科等构建的知识库,如DBpedia、YAGO、Omega和WikiTaxonomy。文本可视化包括表现词频的标签云、表现文本结构的DAViewer和DocuBurst、表现形成与变化过程的ThemeRiver和EventRiver;网络(图)可视化除了树状、球状、放射图外,还有基于矩形填充、Voronoi图填充、嵌套圆填充的树可视化技术,更有基于边捆绑(Edge Bundling)的方法和基于层次聚类与多尺度交互的ASK-Graphview等图简化方法的可视化技术。社会计算目前还集中在方法层面,例如兴趣计算和信任计算。

目前流行的两个开源搜索引擎Solr和ElasticSearch,都建立在Apache Lucene开源平台之上。Solr的主要特点有全文索引、高亮、分面搜索、实时索引、动态聚类、数据库集成、NoSQL特性和丰富的文档处理(例如Word和PDF文件),Elasticsearch主要特点有分布式搜索、多租户、查询统计分析、分组和聚合。

三、知识创新服务平台功能模型

根据大数据收集、大数据存储、大数据加工、大数据应用封装等加工环节,本文建构了知识创新服务平台,该平台包括六大核心模块:资源层、大数据仓储、运营管理平台、学科知识服务平台、读者学术管理、学科分析平台。知识创新服务平台功能结构如下图所示。

(一)大数据仓储

本体库管理:支持对本体库条目的填加、修订;

分類聚类:支持对知识库的分类层级、类目、类目归类做元设计;

元数据管理:对内容资源的元数据定义、提取、修改和存储管理;

数据映射:支持不同类型、结构资源按照统一数据规范处理,注入大数据仓储;

自动标引:支持对资源内容的自动标引,实现对内容资源的语义标注(支持段落级别的语义标注);

知识体系管理:支持多种知识模型的导入、修改、导出;支持对领域知识库中知识单元、关联关系管理,包括对知识单元和关联关系的聚类、分类、导入、导出。

(二)运营管理平台

日志管理:记录系统状态、模块点击、登录行为等日志信息,支持可视化方式呈现;

统一认证管理:通过接口同步OPAC认证信息,对系统的各个功能模块统一认证;

用户角色权限管理:设置系统管理员、平台管理员、领域专家、学科馆员、读者等多种角色,分配不同权限;支持系统管理员开通各个角色权限认证信息,或授权OPAC注销读者继续使用平台;

资源来源管理:增加大数据仓储的来源信息,给出资源链接;

读者使用管理:记录和统计用户的登陆和使用平台时间;统计检索词并挖掘检索热点;填加、修改、读者信息,为读者画像提供信息;

资源使用管理:记录和统计读者对资源的搜索、浏览、下载、标注等使用情况,作为评价数据库来源使用情况的数字基础,支持可视化方式呈现;

读者画像管理:对读者画像做元策略设计;

资源引用管理:对大数据仓储中的资源做虚拟打包、封装、管理和发布,供学科知识平台建立专题使用;同时提供人工建构专题内容的人口。

(三)知识创新服务平台

1.学科知识服务平台

研究热点专题:对大数据仓储中自动聚类的资源进行批量选择、修改、挖掘、编写说明、提交、审核、发布等操作,在学科知识服务平台上形成本学科的热点专题;提供手动编写专题内容的功能;

知名专家学者专题:对大数据仓储中自动聚类的资源进行批量选择、修改、挖掘、编写说明、提交、审核、发布等操作,在学科知识服务平台上形成热点专题;提供手动编写专家学者相关内容的功能;

统一检索:实现对大数据仓储中的内容资源进行跨库统一检索,支持通过题名、关键词、主题词、作者、机构、期刊名等检索项的元数据检索,支持专业检索式检索;支持检索结果从学科分类、细分领域、年份、语种、文献类别、来源等多个分面进行筛选;系统根据读者输入的关键词,自动呈现相关的(从语义和关联两种角度的)主题词、属性值、作者、电子资源提示,点击这些关键词,则实现此关键词的统一检索;检索结果支持相关度、检索热度、更新时间、专业度等多个角度的排序方式;检索结果支持手动筛选,支持生成和保存检索报表,支持对检索报表的计量可视化;

学科知识导航:挖掘大数据仓储,对每个学科提供按照细分领域、主题、文献类型、研究层次等维度分类的自动知识导航;

学科知识图谱:建立学科和领域知识语义网络,点击该节点,则实现此节点的统一检索;

关联网络:建立以人、机构、知识点为中心的知识关联网络,点击该节点,则实现此节点的统一检索;关联网络的展示范围可调节;

全文检索:支持读者输入关键词,系统以关键词匹配的搜索方法,迅速查询所有数据,反馈所有目标资源;

智能摘要:系统根据每一篇语料中的主题,自动对每篇语料生成摘要;

智能问答:挖掘学科知识图谱,支持基于问答语料的生成式知识问答。

2.读者学术管理

个人学术轨迹:记录读者的学科、专业、导师,记录所有检索词、浏览和下载过的资源、借阅的图书、发表的论文和著作信息;

我的关注领域:根据读者的个人学术轨迹,挖掘读者的关注领域(细分领域),点击这些领域,则呈现此领域的知识图谱,而读者关注过的主题,则在知识谱图中用高亮等方式呈现;点击知识图谱中的节点,则展示相关主题的最新资源推荐(一个月内新到馆的资源);

智能推荐:根据读者的个人学术轨迹、学科专业方向、导师研究方向、本专业研究前沿等信息,构建读者画像,根据读者画像智能推送新到馆资源(每个星期更新,历史推送在“更多推荐”中保存);

知识管理工具:支持读者对本体、知识库、知识图谱进行个性化标注、修正和补充;读者的标注、修正和补充反馈给管理后台,作为学科语义完善的一个依据;保存对英文作者、机构、主题词、期刊名的中文标注。

3.学科分析平台

学科分析元设计:保存个性化的检索式;定义和保存个性化检索主题、查询范围、检索结果字段;保存对英文作者、机构、主题词、期刊名的中文标注(读者贡献标注的入口开放给所有读者,审核权仅对学科馆员开放),当以这些中文标注为关键词检索时,同时对被标注主题词进行检索,中英文检索结果融合;

多元检索:提供一般检索、高级检索、专业检索式、统一检索等多种检索方式;检索结果支持手动管理(筛选),支持生成和保存检索报表;支持报表导出为特定的数据格式,以便在第三方系统中加工处理;支持对检索报表范围内的计量可视化;支持对报表中的热点词汇、关联内容、发展趋势等进行多维度的统计分析和可视化呈现;支持统计结果和可视化内容导出;

数据分析模型:集成常用情报数据分析算法和工具(主题、作者等,暂不涉及引证);

学科语义维护:支持对本体、知识库、知识图谱进行个性化标注、修正和补充;学科馆员的标注、修正和补充反馈给管理后台,作为学科语义完善的一个依据。

四、基于大数据的高校图书馆知识创新服务

大数据技术提供对海量数据的实时分析和挖掘能力;语义网技术提供计算机理解和处理事务的能力,并具备一定判断、推理能力;人工智能技术提供持续提高自我性能的能力,帮助人类完成那些一开始无法明确定义的任务。这些技术的结合,使得高校图书馆的知识服务,得以站在全数据和智能化的起点上,可望打造为一个创新的服務体系,提供一种全新的服务生态。本文提出的知识创新服务,就是要综合运用大数据技术、语义网技术,重新组织图书馆各种类型的文献资源和信息资源,建立知识关联网络,建立语义网络(学科知识图谱),并可视化呈现知识网络。在这个具备语义基础的海量知识关联网络的基础上,运用自然语言处理和深度学习等智能化技术,可以为读者打造提供多样思维联想工具、知识管理工具、智能辅助工具的全新知识创新空间。

(一)利用可视化知识图谱,呈现知识网络全貌

将充分构建的知识图谱以可视化的方式直接呈现给读者,而不仅仅是作为智能检索与智能化知识服务的底层数据,这将帮助读者建立完善的知识结构、获得学术资源中的隐性知识、掌握前瞻性的研究视野、建立广泛的联想触点。当读者对某个知识点进行检索时,可以向读者呈现以此知识点为中心的可视化的知识图谱,知识图谱中包含了与这个知识点具有语义、聚类、类别、关键词、属性、引文等关联的知识节点呈现。知识图谱与关联网络主要基于构建知识图谱模块知识挖掘、知识属性抽取、知识关系抽取、知识聚类、知识融合、知识反馈、知识推理等算法进行学科领域知识图谱构建,并挖掘其学科和领域知识语义网络,最终利用知识图谱可视化技术实现学科知识图谱与关联网络的可视化展现。

(二)智能摘要,帮助读者粗加工大量的文本信息

大数据时代的知识创新服务平台具备的自然语言技术,配合充分构建的基于语义的知识图谱网络,运用大数据技术实时处理海量数据的能力,可以实现对读者选定文献的智能摘要功能。利用人工智能辅助人类阅读(粗读),使用智能摘要技术来解决大量的文本信息与个人有限的阅读能力之间的矛盾。当读者阅读了智能摘要后,会快速掌握自己关注问题的概况,然后再进一步聚焦于细节进行深入阅读和研究。智能摘要,还可以与知识图谱一起,共同提供给读者。当读者筛选出若干文献,并希望获得智能摘要时,知识创新服务平台就将这些文献的智能摘要和知识图谱,实时计算并提供给读者使用。点击智能摘要中的知识点或者知识图谱中的节点,则可呈现相关的来源文献。

(三)智能构建个人知识专题

利用基于语义的知识图谱网络,利用自然语言处理文本聚类算法,知识创新服务平台可以提供给每一位读者个性化建构个人知识专题的功能。读者只需要输入检索词,并对检索反馈的结果做订阅操作,读者就自动建立了一个以检索词为主题的知识专题,这个专题自动更新专题内容,并可实现推动功能,这样读者就可以持续掌握所关注主题的发展现状。对专题中的精华内容进行收藏操作,读者还可以手动构建新的知识专题。同时,平台还可实现对热门专题的自动挖掘与推荐,并支持进行批量选择、修改、挖掘、撰写说明、提交、审核、发布等操作。

(四)关键词联想,激发思维联想

关键词联想是知识创新服务平台为读者提供的一个思维联想工具,帮助读者做检索词的有效扩展或修正。当读者在关键词联想小工具中输入一个关键词,系统会反馈出若干个与这个关键词高度相似的词语,以启发读者发散思维、拓展思路。关键词联想是基于知识图谱的词向量来实现的。通过关键词联想,读者可以很快定位到自己关注领域的核心词汇,从而进一步锁定个人的知识需求。

(五)个性化、精准化智能推荐

个性化、精准化智能推荐,是在知识创新平台充分感知读者的学术轨迹的基础上,构建读者个体学术画像和群体学术画像、充分挖掘读者的隐性学术需求,为读者提供的实时计算后的推荐结果集。基于用户画像的图书馆知识服务,能够提升读者的知识服务体验,促进图书馆实现个性化、精准化的知识服务。本文提出基于本体构建图书馆读者学术行为的用户画像,以知识图谱的视角考察用户画像的构建方法。对读者的借阅图书、检索数据库、关注论文、发表学术成果等学术行为建模,结合用户画像层次模型的合成权重、融合时间上下文因素、参考用户所属学科和专业的群体用户画像,综合构建图书馆读者学术行为的用户画像向量空间模型。将用户画像的向量空间模型中的向量词,对应于读者领域知识图谱中的概念,将知识图谱中的概念关系映射到用户画像中,获得用户画像本体。所推荐的学术资料包含从语义关联、聚类关联、类别关联、关键词关联、属性关联、引文关联等多角度相关的内容。

(六)个人学术轨迹管理与“我的关注领域”呈现

个人学术轨迹与“我的关注领域”的呈现功能,主要通过大数据管理系统,实现对读者学科、专业、导师、检索词、浏览与下载痕迹、借阅记录、发表学术成果信息等综合全面管理;基于对读者学术轨迹的记录和分析,实现对读者学术兴趣、关注领域的自动挖掘与发现,并进行相关领域知识的推荐。在这里,“我的关注领域”实际就是对个体用户画像实时的可视化呈现。将基于本体构建的用户画像汇聚成“我的关注领域”,用以可视化地呈现在读者个人空间中,能够展现出这些领域的知识概貌。当读者在个人空间中点击各个概念的时候,这些概念可以展开成为以这个概念为中心的知识图谱,或者针对各个概念进行智能检索。“我的关注领域”可以帮助读者发现自己的隐性知识需求,修正自己关注的领域概念,同时系统能实时更新用户画像和读者学术轨迹,更加智能化地为读者提供创新知识服务。

(七)统一检索与全文检索

统一检索提供包括基础检索、智能下拉提示、搜索纠错、混合智能排序、搜索联想、意图识别、语义理解、语义搜索、自然语言BI、图谱视频检索等在内的综合智能搜索技术,为用户提供一站化智能搜索。首先,根据用户画像获得符合隐性用户需求的检索结果,并将检索结果按照各种分面规则和排序策略进行个性化推荐服务。知识创新服务平台还支持用户通过题名、关键词、主题词、作者、机构、期刊名等检索项进行元数据检索,支持专业检索式检索;支持检索结果从学科分类、细分领域、年份、语种、文献类别、来源等多个分面进行筛选。对统一检索的反馈结果,还可以进行基于语义、聚类、类别、关键词、属性、引文等关联方式的分析和可视化呈现。提供全文检索功能,即平台具有对全文数据进行词、字、段落等更深层次的编辑、加工的功能。例如,知识创新服务平台对全文数据中的每一个词建立一个索引,指明该词在全文数据中出现的次数和位置,便于读者查询使用。

(八)开放学科语义维护功能

知识创新服务平台主要利用信息反馈技术,向读者提供学科语义维护功能,支持读者对本体、知识库、知识图谱进行个性化标注、修正和补充,帮助本体、知识库、知识图谱变得更加系统与精确;读者的标注、修正和补充反馈给管理后台,作为学科语义完善的一个依据。知识创新服务平台通过单元信息的关联关系实现了新知识的衍生,读者基于关系网络可以发现更多密切相关的单元信息知识。读者针对这些衍生出的新知识、建立起来的新关联,都可以在平台上提出自己对新知识和新关联的定义,并提供给管理后台作为完善知识图谱的一个建议。

五、结语

在大数据时代,高校图书馆应树立数据观,利用文献信息服务和知识服务而拥有和保存的学术科研大数据,运用大数据技术、语义网技术,建立文献信息资源自动化元数据收割与挖掘的大数据仓储;建立知识关联网络,建立语义网络(学科知识图谱),可视化呈现知识网络;建立个人学术空间,构建读者学术画像,提供知识管理工具,感知和挖掘读者的隐性学术需求,智能学术推荐。图书馆通过搭建知识创新服务平台,帮助读者挖掘学术资源中隐含的知识、掌握更具前瞻性的研究视野、建立完善的知识结构,从而提升读者的知识创新能力。高校图书馆也从文献信息服务中心、学术交流中心、文化传承中心,而真正演变为知识创新服务中心。

作者简介:

姚远:助理研究员,博士,研究方向为数字图书馆(yaoyuanlaura@126.com).

徐世东:硕士,硕士生导师,研究方向为在线教育、现代教育技术(13693334909@126.com)。

郝群:副研究馆员,硕士,硕士生导师,研究方向为现代图书馆管理、信息服务。(haoqunn@163.com)。

盧建秋:教授,博士,博士生导师,馆长,研究方向为中药质量控制研究、图书馆学研究(lujq@vip.sina.com)。

猜你喜欢
知识图谱人工智能大数据
2019:人工智能
人工智能与就业
数读人工智能
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于大数据背景下的智慧城市建设研究
下一幕,人工智能!