马金鹏
摘 要 知识服务是一种新兴的目标驱动型服务方式,是将用户的精准需求与清晰的使用场景相结合,研究提出人性化的智慧服务解决方案。本文以新闻出版行业为例,利用工具书结构化特性进行知识点的梳理抽取,应用信息检索与数据挖掘加权(TF-IDF)算法,测算出知识与资源之间的关系强度,构建出涵盖图书、图片、视频、知识点等多形态的知识库,通过对知识服务平台的建设,探索和挖掘知识与资源之间的互联关系,提供知识内容检索、关联资源推荐及深入学习的支持服务。通过深入挖掘行业纵深领域的真实需求,形成知识服务的实践工作流程,总结知识服务的共性技术、工具和系统,在其他行业内起到示范和推广的作用,为知识服务之路开创新里程。
关键词 数据处理;知识服务;示范推广
本文主要是利用现有知识服务技术,尝试设计一套基于新闻出版行业的知识服务平台,内容主要涵盖三个部分:①知识加工,以现有资源为依据,以人工编辑为主,采用可视化构建工具完成知识体系框架建设,形成知识图谱文件;②知识储备,以知识体系为依托,对原始资料中的结构化数据、半结构化数据、非结构化数据进行科学抽取,然后进行数据清洗、关联,形成知识点,并进行知识关系强度计算,计算出知识点与知识点、图片与图书等元素的关系;③知识利用,平台搭建遵循质量管理规范体系,采用多种编程语言、数据库等开发工具,搭建面向专业领域的知识服务平台,实现知识检索、知识呈现和关联知识、关联资源推荐服务。
1 总体设计
系统实现的总体过程:知识加工过程采用手工加算法辅助的方式,输出知识内容和关系强度给知识存储过程,知识存储后,提供多个应用程序编程接口为知识利用服务作为支撑;知识应用环节,以知识库为内容支撑,以部分外部服务辅助,将用户与知识通过简单的检索,有效的连接起来[1]。
2 知识加工
知识加工过程中,专家参与确定知识体系形成结果输出,使用可视化手工构建工具形成知识体系图谱;将从工具书中抽取的知识点结构文本、图示和停用词等共同输入,经过核心算法的计算,完成关键词的抽取,通过分词、相似度的计算以及排序,形成关系强度的计算结果值[2]。主要步骤设计如下:
(1)根据已确认的知识体系表格,建设专业领域知识体系,形成知识体系文件。知识体系即为知识点的分类。
(2)选定专业领域内的权威辞典、辞书为知识点抽取的来源,先抽取知识点,以根据知识体系中的属性抽取三元组的类型,每个知识点由多个知识三元组组成,抽取的每个知识点,系统自动生成唯一标识。
(3)知识点抽取完成后,人工进行数据的清洗和校验,从知识点的重要程度、知识点抽取的正确与否两个角度筛选,最终保留少量的知识点关键词,以备计算关系强度使用。
(4)整理现有版权的可用资源,图书、图片、视频资源分别进行批量加工、标引,提供完整的、符合规范的数据内容,图书包括封面、元数据和内容文件。图片包括元数据、浏览级图片和高精度大图,视频包括元数据和音视频文件。
(5)通过信息检索与数据挖掘的加权计算出知识点与知识点、知识点与图书、知识点与图片、知识点与视频间的关系强度,形成规范的带有唯一标识的结果文本,以备建立知识库使用。加工流程如下图:
3 知识存储
知识存储即为知识库的建立过程,是知识数据、知识关联结果、各类型资源的入库过程。知识存储过程中,将知识加工形成的结果文件以及图书、图片、视频资源,全部入库到关系型数据库中,同时将知识相关的数据入到搜索应用服务器库中,知识存储的过程就是所有资源入库的过程。该过程提供多个应用程序编程接口,为知识利用提供数据支撑[3]。
系统采用关系型数据库和搜索应用两个数据库作为数据支撑,使用搜索应用服务器提供索引服务。知识数据、图书、图片、视频,所有的资源汇总到关系型数据库管理系统进行结构化存储,知识三元组、知识点和知识体系同步入库到搜索应用服务器中,建立索引库,提升检索的性能。知识存储的架构图如下图:
知识储备需要支持将已经加工标引完成的图书、图片、视频、知识点以及知识关系统一组织,建立便捷知识库。所有的资源入库后,需要按资源类型分别存储,提供各种检索查询服务,使得各类别资源具备可独立建库服务的能力,知识建库完成后,还需要同时完成索引库的创建,用以提升用户检索的性能[4]。
4 知识利用
在知识利用过程中,用户登录认证后便可实现通过检索服务,进行知识的获取和利用,绘制的知识图谱可呈现知识点与知识点间的关系强度,通过在线浏览器的接口调用,进行关联图书中段落内容的阅读,包括下载和播放与之相关联的图片和视频。
由专业领域知识服务平台来提供终端用户的注册、登录,知识检索,知识图谱的呈现,知识关联资源的推荐,以及知识的学习等服务。利用依托于知识点和知识点之间的关系强度,进行知识图谱相关的展示;利用知识点和资源的关系强度,为用户推荐与该知识点相关联的图书、图片、视频资源。在关系强度的计算过程中,可点击推荐图书直接跳转到内容进行学习使用[5]。
5 结束语
研究认为,在专业知识服务平台建设上,还有很多亟须完善和持续深入的地方:首先,在资源内容方面,知识点的范围局限限制了持续建设扩充的可能性,知识点的录入还应充分考虑对时下热点的关注;其次,在知识加工方法上,现有知识体系还可以依据某一个细分应用场景进一步细化,使得维度更多,体系更加精准;再次,还应持续深入得研究文本抽取技術,对于结构化不好的数据,依然可以依据知识体系的属性抽取出三元组信息,同时增加对于三元组数据的置信度计算,以确保数据的可用性。希望通过此次对专业知识体系、知识库的构建以及应用场景的设计中积累的经验,可以有效促进专业知识服务在具体行业中应用于发展进程,更好的体现专业知识服务的应用价值与现实意义。
参考文献
[1] 冯宏声.新闻出版业“十三五”时期的科技工作思考[J].科技与出版,2016,(06):28-35.
[2] 吴赟,孙梦如.中国出版业发展知识服务的路径思考——从爱思唯尔ClinicalKey超级医学平台谈起[J].出版广角,2017,(13):13-16.
[3] 刘涵宇.如何有效的向用户传递信息[EB/OL]. https://wenku.baidu.com/view/bd30a447844769eae109ed2a.html,2014-05-09.
[4] 王海艳.基于领域本体的可信服务组合[J].计算机应用研究,2012, 29(11):4193-4198.
[5] 梁莹.大数据分析在出版中的应用与展望[J].出版广角,2015,(2): 15-17.