吴蔚
[摘要] 随着社会的进步,信息技术的发展,医院在不断向前发展的过程中累积了大量的多模态档案管理数据,在这些海量的大数据中查找目标资源变得越来越困难。在此背景下,利用先进的技术和数据管理工具,形成一套面向多模态医院档案管理数字资源统一检索方案,籍此高效地生成透明、多维的检索结果,形成的检索结果的动态呈现和多维展示可为用户提供检索信息的最佳途径。
[关键词] 医院档案管理数字资源;多模态;统一检索方案
[中图分类号] R197.3;G270.7;TP309.3 [文献标识码] A [文章编号] 1672-5654(2019)06(c)-0060-02
随着社会的进步,信息技术的发展,我国医院在不断向前发展的过程中累积了相当多的数据,而且随着时间的推移,这些数据累积的速度越来越快。这些飞速增加的数据一方面为医院积累了一个非常庞大的知识库,成为医院的宝贵财富,而另一方面却产生了一些问题,就是从这些信息库里查找一些资源越来越困难[1]。由于这些信息库之间的信息是孤立的,它们之间没有任何联系,随着数据越来越多,查找这些信息耗费的人力物力成本却在不断增加,人们需要在不同的系统之间搜索整理数据,而且搜索的效率越来越低。而且诸如图像、视频、文本等不同模态的电子资源被存放在各个不同的系统中,形成信息孤岛[2]。因此,在不同系统中,且要面对多模态的电子资源进行目标资源查询的效率非常低,这盈然不能适应当代医院业务的开展,长期下去,会极大阻碍医院的发展。开展多模态电子资源的集成检索,显得尤为重要。
近些年来,在国内外,已有一些关于电子资源的集成检索技术或方法的研究,此类问题的研究焦点主要集中于结构化、非结构化和半结构数据的融合,数据之间的关联性以及数据检索统一化[3-4]。问题难点是在于文本、图像、音视频等源数据是属于异构异质,且来自于不同的系统中,它们存在着不同的形态,数据之间的关联性较低,数据主体间的“数据壁垒”“信息孤岛”较为突出,诸如此类的不利因素致使对这些多源异构且多模态数据的实施集成检索困难重重[5]。
针对医院档案管理数字资源,利用先进的技术和相关工具,实现高效的数字资源集成检索,可以更好地满足医院对于数字资源的查询需求,提升工作效率。
1 统一检索方案
1.1 总体目标
针对医院中存在的这些信息孤岛,利用先进的技术,把它们整合到一起,高效地生成透明、多维的检索结果,智能地帮助用户清楚记忆并完善用户的检索表达,使用最新的互联网体验模式展示给用户。检索结果的动态呈现、多维呈现为用户提供发现信息的最佳途径。同时,配合主题词表,即使用户输入错误,系统也能自动推荐正确的表达供用户选择。总之,集成检索机制将帮助普遍用户、管理人员或者其他类型的使用者准确获取信息,成为易于部署、管理方便、使用便捷的信息桥梁。
1.2 检索方案逻辑设计
从逻辑上来分,面向医疗多模态大数据的统一检索方案可以划分为6个部分,这6个部分分别为文件、数据库、核心引擎、分析管理系统、检索条、结果显示界面。这里的文件是指医院行政管理中积存的视频、图片、声音等非结构化文件或者半结构化文件;数据库为管理记录、会议电子记录等结构化数据;核心引擎则包括自然语言处理系统、医疗行业知识库、多模态统一数据库,自然语言处理系统具有用户输入检索以及数据预算时的文字的分句、语义等分析功能,医疗行业知识库则为数据预处理时的行业知识指导规则,多模态统一数据库是通过数据预处理后,存放和统一管理多模态的数据库系统;分析管理系统则是对数据进行分析和管理的系统;检索条与检索结果展示是面向用户的操作功能模块,接受用户的输入和向用户展现检索结果。检索方案的总体设计如图1所示。
1.3 检索方案物理设计
围绕多模态医院档案管理数字资源统一检索系统的设计目标,在逻辑设计基础上,统一检索系统的物理设计的核心任务有信息采集系统的设计、信息分析系统的设计以及数据库系统的设计,信息采集系统和信息分析系统为数据库系统提供服务,数据库系统又为应用服务系统提供高质量的数据来源,而应用服务系统是与终端用户交互的系统,为用户提供个性化服务。在上述各系统的物理设计过程中,均采用服务组件的设计模式,具体为:在信息采集系统中,封装有关系数据库和文件等多模态的服务组件;在数据库系统中设计有数据库读取服务组件;在信息分析系统中,设计有自然语言处理服务组件;在应用服务系统中,设计有用户检索分析、检索结果分析与可视化等多个应用型服务组件。统一检索系统的物理设计的直观表述如图2所示。
①数据采集系统。在该系统中可以通过数据库网关系统(VSP Gateway)来完成。VSP Gateway是面向Oracle、DB2、SQL Server、Sybase、MySQL 等主流关系数据库和 Lotus Notes系统的数据交换桥梁,可以整合多种异构数据源,将不同系统的数据实时同步、无缝集成到VSP全文数据库管理系统,协同工作,充分利用VSP全文数据库管理系统的强大检索性能来提供便捷高效的在线检索服务,实现企业级信息资源的统一搜索。
②信息分析系统。信息分析系统中可以使用VKM Server,它的全称是VSP Knowledge Management Server,它囊括自然语言处理模块的多个Linux下运行,以可配置的方式动态加载功能模块。目前支持Windows,自然语言处理工具是为了梳理加工采集后的结构化、半结构化和非结构化信息,比如从非结构化文本中抽取结构化数据。系统将自动采集并处理信息,利用知识库的内容自动标引信息,实现概念检索。
③数据库系统。全文数据库(VDB Server)提供海量信息的分布存储和即时索引,并提供全文检索和高级检索功能,是实现高效精准检索的坚实基础。数据库系统具有非常高的稳定性和灵活性。一方面稳定性帮助系统快速地查找到需要的信息,另一方面的灵活性能确保随着需求的不断改进实时调整产品,使之能快速适应新的需求,满足用户的需要。
④应用服务系统。应用服务系统包含的内容较多,本文仅以用户检索服务为例进行阐述,在设计检索服務组件时,可以检索内容的不同属性为维度,生成动态导航目录。用户只要点击不同属性,就能缩小信息检索的范围,从而快速、准确找到满意的信息。
2 结论
该文针对医院档案管理过程产生的海量多模态数字资源,从多模态数据采集、信息分析、数据库存取以及应用服务等方面,提出了一套数字资源统一检索系统的设计方案,旨在为医院行政管理人员实现快速、准确的资源检索,解决了用户在海量多模态数据查询中存在的多点查找、查询不方便等诸多难题。通过作者所在单位的方案实际应用,结果表明本文提出的统一检索系统设计方案,对于医院单位的数据统一查询策略的制定具有参考意义。
[参考文献]
[1] 孙亭,丁杰.异构政务信息资源集成检索技术研究[J].计算机工程与应用,2016,16(5):142-143.
[2] 钱宇华,成红红,梁新彥,等.大数据关联关系度量研究综述[J].数据采集与处理,2015,35(4):57-61.
[3] 王雅琼.基于WCF的图书馆数据集成检索研究[J].河南图书馆学刊,2018,24(4):32-40.
[4] 赵鑫龙.基于OPAC的资源集成检索实现[J].科技情报开发与经济,2013,24(17):38-39.
[5] 李梁,谭薇,陈彥萍.适用于电子医疗环境下的数据检索方案究[J].计算机工程与设计,2017,20(7):210-211.
(收稿日期:2019-03-23)