高校知识图谱的构建与数字资源分配新融合

2018-09-08 11:15房栋

中国信息技术教育 2018年16期

房栋

摘要：本文提出，知识图谱系统通过大数据和可视化技术，建立以关键词为中心的知识体系，能让资源以结构化、可视化的方式呈现，让知识的获取更加快速、准确。同时，在移动互联时代为学校的数字资源建设、管理、服务提供了一个获取、存储、组织、管理、更新和展示的有效手段。

关键词：知识图谱；大数据；数字资源；可视化

中图分类号：G434 文献标识码：A 论文编号：1674-2117（2018）15/16-0164-04

引言

当今的信息化社会，从商业经济运行到科研医疗创新，从政府管理到互联网服务支持，各个领域都爆炸式产生巨量的数据，谷歌公司每天要处理超过24拍字节的数据，谷歌子公司YOUTUBE每月接待多达8亿的访客，平均每一秒钟就有一段长度在一小时以上的视频上传，FACEBOO每天更新的照片量超过1000万张，每天人们在网站上点赞或评论次数大约有三十亿次，TEITTER上的信息量几乎每年翻一倍，每天都会发布超过4亿条微博，这些数据支撑了社会各方面的运行，也成为人类发展进步历程的宝贵财富积累。2015年，一个名为AlphaGo的计算机程序横空出世，在短短25个月的时间里斩落了中日韩的围棋顶尖高手，不断地挑战人类对围棋的认知。从这些事例可以看出，知识图谱、大数据和深度学习成为推动人工智能发展的核心驱动力。高校作为人类社会知识创造、记录和传承的智力机构，聚集了大量的科研和教学数据资源，因此，高校可利用人工智能技術整合校内外数字数据资源，构建基于校本特色的知识图谱，为学校的智力支持构建一个智能、高效的知识组织方式，形成信息技术与资源的新融合，帮助师生更加快速而准确地查找自己需要的信息。

数字资源分配中知识图谱的构建价值

谷歌公司于2012年首先提出知识图谱的概念，表示将在其搜索结果中加入知识图谱的功能，同年5月推出谷歌知识图谱，强化其搜索引擎的搜索结果，标志着大规模知识在互联网语义搜索中的成功应用。知识图谱力求通过将知识进行更加有序、有机的组织，对用户提供更加智能的访问接口，使用户可以更加快速、准确地访问自己需要的知识信息，并进行一定的知识挖掘和智能决策。近年来在机构知识库和互联网搜索引擎等方面，学者和机构纷纷在知识图谱上深入研究，希望以更加清晰、动态的方式展现各种概念之间的联系，实现知识的智能获取和管理。有调查数据显示，Google在2015年时完成KG知识图谱系统的构建，实体超过5亿个，实体关系信息达到35亿条；微软公司在2016年构建的知识图谱系统Probase已经拥有总量超过千万级的概念，核心概念数达到了270万个；上海交通大学是国内最早构建知识库的单位，建设的shizhi.me系统通过提供关联开放数据进行知识库服务；中国科学院后来建设了国内规模最大的知识库CAS-IR，累计采集和保存超过44万个科研成果供搜索下载；国内知名的搜索引擎百度公司推出的“知心”、数字资源知识服务供应商维普资讯公司推出的“智立方”和超星公司推出的“发现系统”都是利用知识图谱技术搭建的知识服务平台。与以往的搜索引擎相比，知识图谱系统通过大数据和可视化，让知识更加快速、准确和智能地获取，使数据以结构化、可视化的方式呈现，同时建立以关键词为中心的知识体系，直观地展示数据间的相互关系。

数字资源知识图谱的数据基础

知识图谱的构建基础是庞大的数据，高校拥有大量的数字资源供科研和学习用，数字资源作为当今资源重要的存在形式，存储于光盘、硬盘、闪存等非纸质介质载体中，并通过网络通信、计算机或移动终端再现出来，数字资源有动态的也有静态的，具体呈现为文字、视频、音频、动画等多种形式。为数字资源构建知识图谱系统，需要突破不同数据库的限制，通过提升搜索能力来实现更快速更精准的知识查找，为此就必须对繁杂的结构化数字资源数据进行包括数据标记格式标准和数字资源描述标准建设。

1.格式规范

通过规范不同类型数字资源的标准文件格式，实现数字资源在不同计算机系统间无障碍交换，格式规范有文本格式标准（如TXT、WORD、PDF）、图形格式标准（如JPEG、TIFF、GIF）、音频格式标准（如WAV、APE、MP3）、结构信息标准（如SGML）等。其中SGML通用标记语言、HTML超文本标记语言与XML可扩展标记语言作为元数据编码语言，是用于数字资源组织标准化的典型语言，所有数据库都需要参照标准进行各自的规范。数据标记格式标准的制定是数字资源组织标准化的必要保证。

2.描述规范

数字资源的数据库以字段为单位，需对每个数字资源的属性进行标准化描述，如标题、作者、单位、关键词等。描述方法主要有元数据规范和著录规范两种，元数据规范提供框架体系和行为方法来描述数字资源的基本特征，使用通用编码将来源各异的数字资源归纳到一个标准元数据体系中；著录规范提供了对数字资源描述的著录规则，按规则对数字资源著录项目、著录顺序、著录用的符号、各个著录项目的著录方法以及参考文献在正文中的标注等内容进行描述，从而实现数字资源的共享。

数字资源知识图谱的构建模式（如下图）

数字资源知识图谱以Nodejs为开发平台，异步、时间驱动模型和非阻塞式的IO处理使得系统在相对低资源消耗下仍具备出众的负载能力。系统采用B/S架构，用户可随时查询和浏览信息。系统结构分为客户层、服务层、数据处理层和数据存储层，采用分层设计，可降低耦合性提高维护性。客户层需考虑用户的使用体验，实现系统的交互和可视化呈现，满足知识点的伸缩、移动和保存功能。服务层需解析用户请求，获取Post参数，访问不同数据集合以JSON格式回传验证。数据处理层包含数据爬取和数据解析两个模块，数据爬取因数据源中URL数据量巨大，应采用多线程的广度优先的爬虫策略，数据解析则是为了得到结构清晰统一的数据，因HTML网页语言规范化程度低，需要对数据进行容错、过滤和提取等操作，将其转化为DOM树进行封装和抽象化。数据存储层需要建立校本知识数据库以提高图谱绘制的实效性，选用NoSQL类型的MongoDB能够随时存储自定义的数据格式，具有较高的易扩展性和读写性能。

系统构建所需数据资源主要来自两个方面：一类是校本已有的结构化和半结构化异构语义资源，一类是互联网空间中，开放的、共享的海量非结构化异构资源。

对于校本资源知识图谱的构建需要重视知识的表达和组织工作，需要服从于数字资源知识系统整体的需求定位和框架，目前采用面向师生用户对象的思想來搭建知识表示框架，将教学课件、教学案例、研究报告、制度流程等数据库知识拆解成实体、实体属性和实体之间的关系三个要素，基于现有存储的校内知识数据，将其格式和描述进行规范，经过分类和序化，结合系统的分析等深度学习功能，对知识系统中的实体和关系进行表示学习，将知识中蕴含的语义信息表示为稠密低维实值向量，从而实现在低维空间中高效计算实体和关系的语义联系，实现结构化校本资源数据的处理，从而帮助师生实现知识获取、融合和推理的目的。

购买的数据库的数据结构整齐、顺序存储，便于重新组织，所以可联系供应商按照知识图谱构建中实体、实体属性和实体之间的关系三个要素制定开放获取资源统一接口协议来获取结构化数据和扩充其他数据。可借鉴与OA相关的重要标准，如解决开放获取系统之间数据互通问题的OAI协议、支持全文检索的OAI-PMH协议、解决开放获取版权问题的创作共同署名许可等标准。

通过知识交换和互联网平台爬取的共享数据往往呈现出结构不一致、规范化程度低等问题。互联网平台网页共享数据作为知识图谱最大的数量来源，通过爬取来获得。针对百科类的网页包含了许多结构化的信息，标题、分类标签、分类系统、信息模块、摘要等都作为固定条目出现，可以将其结构化处理，还有大量的其他普通类网页也是知识图谱构建的重要数据来源，因大量的冗余信息和不可信信息，所以需要建立构造一个面向网站的包装器，利用网站的相似性对代表性网页进行标注，利用模式学习算法实现对网站中知识的自动化抽取，这种方法也需通过手动调整和添加适当的模式来弥补数据挖掘质量。

基于知识图谱的数字资源分配新模式

1.知识服务的中心化

基于数字资源知识图谱系统的建设从底层实现了“资源聚合、信息共享”，面向师生提供知识服务对学校的学习管理和资源建设都提出了更高的要求，以用户为中心的服务理念和系统设计都要求我们在客户应用层建设集中统一的知识服务中心，这里有四个“中心”的概念：一是“资源中心”，将教学资源集中、教学工具集中、研究材料集中，将传统档案等多种资源进行汇聚共享，将数字资源进行分类，形成资源、学习和专题三大板块；二是“工具中心”，整合期刊、论文、图书、报纸、视频、专刊等资源元数据，利用知识图谱系统进一步提升一站式检索的高效性和精准性；三是“推荐中心”，通过收集用户在使用知识服务平台过程中产生的数据基础上，在个人中心里进行关注热点和研究领域的知识协同推荐；四是“服务中心”，收集热门实用问题建设知识库，搭建以问题形式呈现的智能问答系统，对师生在使用过程中遇到的问题进行智能机器人服务，利用知识图谱系统的语义学习功能对新产生的问题和描述进行分析，形成新的知识条目。在整个知识服务中心化的建设过程中要注意知识服务实体与虚拟的融合，将物理环境的建设与虚拟空间的建设打通，将服务从线下延伸到线上。

2.知识服务的跨平台呈现

基于数字资源知识图谱系统的建设，其经梳理整合的数字资源不仅可以提高检索质量和效益，还可以将相关知识实体和关系描述以节点关系图的方式直观化呈现，这不仅打破了原有以单个数据库为单位的信息壁垒，形成并凝聚起某领域学术共同体，而且适应了用户阅读习惯向移动端转型的问题。数字资源知识图谱系统的构建，实现了具有时代特征的流媒体格式多终端同时上线，无并发、使用次数和时空的限制，方便解决个性化阅读需求的采集、专业化阅读线索和阅读方案的提供、社区化阅读的交流与传播、线上阅读和线下阅读的互动以及知识的全媒体解读与可视化呈现。

结束语

在信息大爆炸的时代，大数据、深度学习和人工智能已经成为决胜未来的重要技术，知识图谱作为人工智能的重要应用，为学校的数字资源建设、管理、服务等提供了有效手段。在教育部启动教育信息化2.0建设的重要历史节点上，利用好知识图谱系统，为师生用户提供更友好和便捷的知识服务方式是助力学校优质校建设的重要任务。

参考文献：

[1]刘静.“互联网+”时代数字资源组织标准研究[J].河南图书馆学刊，2016（9）：129-131.

[2]李涛，王次臣，李华康.知识图谱的发展与构建[J].南京理工大学学报，2017，41（1）：22-34.

[3]李涓子，侯磊.知识图谱研究综述[J]山西大学学报：自然科学版，2017，40（3）：454-459.

基金项目：本文系浙江省教育技术研究规划重点课题“高校数字资源在移动互联下的再分配策略研究”（项目编号：JA056）研究成果。