浅析新闻出版行业领域知识服务的实现路径

2019-10-21 10:26马金鹏

科学与信息化 2019年2期

马金鹏

摘要知识服务是一种新兴的目标驱动型服务方式，是将用户的精准需求与清晰的使用场景相结合，研究提出人性化的智慧服务解决方案。本文以新闻出版行业为例，利用工具书结构化特性进行知识点的梳理抽取，应用信息检索与数据挖掘加权（TF-IDF）算法，测算出知识与资源之间的关系强度，构建出涵盖图书、图片、视频、知识点等多形态的知识库，通过对知识服务平台的建设，探索和挖掘知识与资源之间的互联关系，提供知识内容检索、关联资源推荐及深入学习的支持服务。通过深入挖掘行业纵深领域的真实需求，形成知识服务的实践工作流程，总结知识服务的共性技术、工具和系统，在其他行业内起到示范和推广的作用，为知识服务之路开创新里程。

关键词数据处理；知识服务；示范推广

本文主要是利用现有知识服务技术，尝试设计一套基于新闻出版行业的知识服务平台，内容主要涵盖三个部分：①知识加工，以现有资源为依据，以人工编辑为主，采用可视化构建工具完成知识体系框架建设，形成知识图谱文件；②知识储备，以知识体系为依托，对原始资料中的结构化数据、半结构化数据、非结构化数据进行科学抽取，然后进行数据清洗、关联，形成知识点，并进行知识关系强度计算，计算出知识点与知识点、图片与图书等元素的关系；③知识利用，平台搭建遵循质量管理规范体系，采用多种编程语言、数据库等开发工具，搭建面向专业领域的知识服务平台，实现知识检索、知识呈现和关联知识、关联资源推荐服务。

1 总体设计

系统实现的总体过程：知识加工过程采用手工加算法辅助的方式，输出知识内容和关系强度给知识存储过程，知识存储后，提供多个应用程序编程接口为知识利用服务作为支撑；知识应用环节，以知识库为内容支撑，以部分外部服务辅助，将用户与知识通过简单的检索，有效的连接起来[1]。

2 知识加工

知识加工过程中，专家参与确定知识体系形成结果输出，使用可视化手工构建工具形成知识体系图谱；将从工具书中抽取的知识点结构文本、图示和停用词等共同输入，经过核心算法的计算，完成关键词的抽取，通过分词、相似度的计算以及排序，形成关系强度的计算结果值[2]。主要步骤设计如下：

（1）根据已确认的知识体系表格，建设专业领域知识体系，形成知识体系文件。知识体系即为知识点的分类。

（2）选定专业领域内的权威辞典、辞书为知识点抽取的来源，先抽取知识点，以根据知识体系中的属性抽取三元组的类型，每个知识点由多个知识三元组组成，抽取的每个知识点，系统自动生成唯一标识。

（3）知识点抽取完成后，人工进行数据的清洗和校验，从知识点的重要程度、知识点抽取的正确与否两个角度筛选，最终保留少量的知识点关键词，以备计算关系强度使用。

（4）整理现有版权的可用资源，图书、图片、视频资源分别进行批量加工、标引，提供完整的、符合规范的数据内容，图书包括封面、元数据和内容文件。图片包括元数据、浏览级图片和高精度大图，视频包括元数据和音视频文件。

（5）通过信息检索与数据挖掘的加权计算出知识点与知识点、知识点与图书、知识点与图片、知识点与视频间的关系强度，形成规范的带有唯一标识的结果文本，以备建立知识库使用。加工流程如下图：

3 知识存储

知识存储即为知识库的建立过程，是知识数据、知识关联结果、各类型资源的入库过程。知识存储过程中，将知识加工形成的结果文件以及图书、图片、视频资源，全部入库到关系型数据库中，同时将知识相关的数据入到搜索应用服务器库中，知识存储的过程就是所有资源入库的过程。该过程提供多个应用程序编程接口，为知识利用提供数据支撑[3]。

系统采用关系型数据库和搜索应用两个数据库作为数据支撑，使用搜索应用服务器提供索引服务。知识数据、图书、图片、视频，所有的资源汇总到关系型数据库管理系统进行结构化存储，知识三元组、知识点和知识体系同步入库到搜索应用服务器中，建立索引库，提升检索的性能。知识存储的架构图如下图：

知识储备需要支持将已经加工标引完成的图书、图片、视频、知识点以及知识关系统一组织，建立便捷知识库。所有的资源入库后，需要按资源类型分别存储，提供各种检索查询服务，使得各类别资源具备可独立建库服务的能力，知识建库完成后，还需要同时完成索引库的创建，用以提升用户检索的性能[4]。

4 知识利用

在知识利用过程中，用户登录认证后便可实现通过检索服务，进行知识的获取和利用，绘制的知识图谱可呈现知识点与知识点间的关系强度，通过在线浏览器的接口调用，进行关联图书中段落内容的阅读，包括下载和播放与之相关联的图片和视频。

由专业领域知识服务平台来提供终端用户的注册、登录，知识检索，知识图谱的呈现，知识关联资源的推荐，以及知识的学习等服务。利用依托于知识点和知识点之间的关系强度，进行知识图谱相关的展示；利用知识点和资源的关系强度，为用户推荐与该知识点相关联的图书、图片、视频资源。在关系强度的计算过程中，可点击推荐图书直接跳转到内容进行学习使用[5]。

5 结束语

研究认为，在专业知识服务平台建设上，还有很多亟须完善和持续深入的地方：首先，在资源内容方面，知识点的范围局限限制了持续建设扩充的可能性，知识点的录入还应充分考虑对时下热点的关注；其次，在知识加工方法上，现有知识体系还可以依据某一个细分应用场景进一步细化，使得维度更多，体系更加精准；再次，还应持续深入得研究文本抽取技術，对于结构化不好的数据，依然可以依据知识体系的属性抽取出三元组信息，同时增加对于三元组数据的置信度计算，以确保数据的可用性。希望通过此次对专业知识体系、知识库的构建以及应用场景的设计中积累的经验，可以有效促进专业知识服务在具体行业中应用于发展进程，更好的体现专业知识服务的应用价值与现实意义。

参考文献

[1] 冯宏声.新闻出版业“十三五”时期的科技工作思考[J].科技与出版，2016，（06）：28-35.

[2] 吴赟，孙梦如.中国出版业发展知识服务的路径思考——从爱思唯尔ClinicalKey超级医学平台谈起[J].出版广角，2017，（13）：13-16.

[3] 刘涵宇.如何有效的向用户传递信息[EB/OL]. https：//wenku.baidu.com/view/bd30a447844769eae109ed2a.html，2014-05-09.

[4] 王海艳.基于领域本体的可信服务组合[J].计算机应用研究，2012， 29（11）：4193-4198.

[5] 梁莹.大数据分析在出版中的应用与展望[J].出版广角，2015，（2）： 15-17.