基于云技术的医学图像检索系统设计与实现

2022-04-29 05:03:08
粘接 2022年4期
关键词:检索系统检索语义

吴 坚

(联勤保障部队第九〇四医院,江苏 无锡 214000)

随着信息技术的飞速发展,医学领域的数字化影像技术也得到了很大的提升,医学图像的使用和管理对于医学方面的研究十分重要。现有的图像检索技术,主要通过关键字进行检索,存在一定的检索缺陷,无法准确的反映图像的信息。随着信息技术的发展,图像检索技术在医学领域也得到了有效应用,如医学教学、辅助医学断诊以及医学资料管理等领域应用到检索技术。基于B/S的医学图像检索,在实际的应用中无法更好的满足图像实时要求。因此,为了提高医学图像的检索效率,提出一种基于云技术的医学图像检索系统,采用不同的算法提取医学示例,使用函数提取医学图像特征,并在图像特征库中进行匹配,得到最优的检索结果。基于云技术的医学图像检索系统具有较强的并行处理能力,可以将复杂的任务进行分解,通过分配子任务完成工作节点,为医学图像检索提供新的发展方向。

1 传统图像检索类型

很早之前,医学图像检索的研究就有,当时的科技并不发达,研究出根据文本信息图像检索技术,利用文本信息描述图像的特征。20世纪90年代,出现了新的检索技术,新的检索技术是根据对图像的内容语义,比如颜色,纹理,布局等信息进行检索和分析的图像检索技术。因此我们也可以知道关于图像信息的检索技术经历了从图像特征文本描述到图像视觉特征再到图像语义特征3个阶段。

1.1 根据文本的图像检索技术

根据文本的检索方式是最早期图像检索的方式,就是通过在百度或其他的搜索引擎中把图像的特征描述的关键字来输入进去,检索出相关的图像,这就是根据文本的图像检索。这个最简单的方式现在还在使用,但是随着图像数据的数量越来越多,缺点也暴露出来了,因以前的计算机技术和人工智能技术都不发达,没办法自动对图像进行标注,需要人工标注,这样一来,工作量就太大,需要的人手也超多,而且这种人工标注这种方式带有人的主观性,有偏差,每个人的眼光和理解都不同,看到相同的图像会有不一样的见解,因此用标注的关键字来检索就容易产生错误匹配,还有很多颜色和特征是人无法用文本客观描述出来的,所以人们就开始进一步研究更方便的图像检索技术。

1.2 根据内容的图像检索技术

20世纪90年代时,学者就想到了既然可以用根据文本来进行图像检索技术,那为什么不能直接用图像内容来进行图像的检索工作,经过深入研究探讨,最终研究出根据内容进行图像检索的技术。

根据内容的图像检索技术和根据文本的图像检索技术不同,文本的检索是一种准确的检索方式,而根据内容的检索是近似匹配的检索,这种方式比文本好,有效的避免了人工标注的主观因素,也避免了大量人工的工作,检索特征都是在线上自动进行的。

根据图像的内容直接提取出图像内容的眼睛能看到特征,根据这些提取出来的特征进行检索,在图像数据库中搜索到和之相对应的图像。提出的特征也有不同,分为根据颜色特征的检索,根据纹理特征的检索、根据形状的检索和根据空间关系的检索等。根据这些视觉特征获得所依据的图像内容又可以分为局部特征图像检索和全部特征图像检索。这种检索技术也在广泛的应用在电脑技术上,很多搜索引擎软件上都使用了该技术。但是根据内容的图像检索技术也存在着一些问题,这种图像检索技术也是提取到的特征是底层特征,无法和人们的高层语义所对应,不能准确反映图像的具体,后因为这些问题,研究人员在搜索方案中增加了人工检查,进一步的调整检索过程,以求的最好的检索效果。但是这种方式也很是繁琐,难以取得更大的进步,所以医学学者们也一直根据这些问题进行深入研究。

1.3 根据语义的图像检索技术

医学学者们为了克服根据简单视觉特征的图像检索方式的不足,研究出来了一种优于之前的检索技术的新技术,此为根据语义图像检索技术,这种检索方式内含了传统的图像检索技术和自然语言处理技术。在之前的检索系统中添加了底层特征转化为高层语义的技术,高层语义就是在底层语义的基础上更深奥,涉及知识领域更多的语义,这样就能在不改变匹配方式和现有的图像特征库的情况下,实现根据语义的图像检索新技术。这种新技术就达到了最大限度减少高层丰富语义和图像简单的视觉特征之间的语义鸿沟的目的。

2 云技术概念

云技术是一种新型的技术,是由于之前的图像检索技术总是有各种各样的问题,而现在的社会一直在进步,科技也在进步,人的要求也随着越来越高,图像库信息也越来越多,现有的技术很难简单完美的解决问题,所以研究出来了基于云技术的图像检索技术。云技术作为一种计算形式,是将共享的软硬件资源按照特定的形式提供给计算机中相关的设备,其运作方式独特,云技术作为一种新型的IT服务模式,通过互联网虚拟化资源,采用Hadoop框架,进行大规模的数据分布式计算,使用JAVA进行程序开发。分布式并行程序的运行,需要依靠大量节点完成海量数据的计算,不会出现容错处理以及平衡负载的问题。Hadoop的组成框架图如图1所示。

图1 Hadoop组成结构图Fig.1 Composition structure diagram of Hadoop

2.1 HDFS

HDFS即分布式系统,HDFS分布式系统是数据集中群存储的关键,可以满足硬件的使用需求,保证硬件的良好运行。分布式系统通过分割文件,将其存储在不同的DataNode上,还可以复制很多份存储于不同的DataNode上,都是设计用来安署在廉价的硬件上,有着很高容错性的特点,它提供高存量来访问应用程序的数据,适合有着特大数据集的应用程序。

2.2 MapReduce

MapReduce并行模型是谷歌公司在2004年公布的一种大规模数据处理模型。这种模型提供了一个有着强大功能但是使用简单的接口,大量数据的计算任务都可以通过这个接口自动进行分布执行和并发。随着研发深入,开发出了许多数据计算模式,这些计算模式都可以满足快速处理大量数据的要求,主要含盖倒排索引,web文本,web请求日志,文档抓取,的图结构的各种表达形式等,但是这种模式只能在单机环境下处理,不能在理想的时间处理完成,所以才有了这个MapReduce模型的出现,带来了新的契机。编写MapReduce这个程序主要是通过两个函数,Map和Reduce函数,Map函数要面临的是没有相关关系的数据,分别对每个数据进行分析处理,提取到键值,分配给每个节点,实行并行模式的处理,经过Shuffle阶段后,在Reduce阶段可以得出整理好的数据。最后通过Reduce程序把处理的结果汇总,在这些基础上可以在进一步数据处理得到想要的结果。

2.3 HBase

HBase系统作为一个分布式数据库系统,HBase与平常接触到的数据库都有明显的差异,不同在于HBase可以应用在非结构化数据库存储中,这和基于行的模式有明显不同,是基于列的模式之上,HBase与谷歌设计非分布式数据库Bigtable有很多相似的数据模型。这个数据模型中用户的数据行存储在一个具有稀疏性的表里,每个数据行都有很多不一样的功能键,可以根据自定义相应所需要的列,HBase就可以满足用户的随机访问,并实现实时读写大数据的功能。

(1)Hbaseclient。HBaseclient是通过HBase RPC远程操作的,调用协议机制分别进行管理类;

(2)Zookeeper。zookeeper中的Quorum存 储 着root表和hmaster的地址,同时,为了方便让hmaster实时了解到HRegion Server的状态是否良好,HRegion Server将注册到zookeeper中,使用Ephemeral的方式注册;

(3)Hmaster。hmaster主要的任务是管理region和table。为了保证至少有一个master任务在运作,多个hmaster可以同时启动,需要调用zookeeper的master机制;

(4)HRegion Server。HRegion Server是 最 核 心的部分,主要负责响应用户请求,向HDFS文件系统中读写数据,是最核心模块,每个HStore对应了table中的一个Column Family的存储。

3 基于云技术的图像检索系统设计

根据云技术与的图像检索系统设计主要是为了对Hadoop平台上的大量医学图像数据进行准确且快速的检索,但是经过调查和分析国内外医学文献,发现现今社会的研究依然还是存在许多问题,一是,由于硬件条件的约束,传统数据库存储大量数据还是有很大的成本问题,并且随着大量的数据图像存入,还有可能造成崩溃;二是,单机的检索环境速度都不能达到用户的实时使用需求;三是用户的各种各样的需求在当前的系统中每次单个特征检索的算法中很难满足;四是,传统根据内容的医学图像检索系统都是按顺对图像库的图像进行遍历,分别运算每个图像之间的相似度,没有适合的索引,就使得系统检索性能很低。针对以上等问题,大多数医学者的需求,我们来做这个新技术的研发与实现。

当分布式存储系统的数据集特别大时,扫描检索就非常的耗时,消耗时间长。因此,为了减少检索时间,提高检索效率,可以使用MapReduce计算模型对医学图像检索进行计算,构架图如图2所示。

图2 医学图像检索购价图Fig.2 Purchasing price chart of medical image retrieval

检索步骤分为6个步骤,分别如下:

(1)收集医学图像,提取图像特征;

(2)上交检索记录,提取检索图像中的LBP特征与Brushlet特征;

(3)匹配医学图像,并输出键值;

(4)根据相似度,将键值输入到map中进行排序;

(5)将收集的键值进行整理,并写入HDFS中;

(6)输出结果,得到最终医学检索结果。

基于云技术的医学图像检索工作流程图如图3所示。

图3 云技术的医学图像检索工作流程图Fig.3 Workflow diagram of medical image retrieval based on cloud technology

4 基于云技术的图像检索系统实现

4.1 实验环境

使用的是Linux操作系统,Hadoop官方软件,windo server2013镜像作为DNS服务器和FTP服务器,安装iava程序运行环境。

4.2 系统测试

本测试中设计了30个测试案例,每个测试者都必须要完成这30个测试,测试案例包括了系统的各种基本功能,其中10个案例为两图关系的检索,7个案例为3图关系的检索,剩下的案例都是单图检索,图与图之间都是可以选择并、交、差或位置关系。通常为了简单方便,都是使用系统默认算法,聚类使用FCM算法。实验所要检索的目标大概有3个类别的图片,卡通人物,加菲猫、史努比、美猴王,真实物体,气球、花瓶、建筑;标志性建筑,金字塔、故宫、长城,场景:草原、大海、沙漠。这些案例都是选取的不同年龄段,不同专业的10名学生来测试的。

MRR功能是关注搜索引擎检索到的有关图片是不是排在最终结果的列表前面,简称就是平均排序倒数。这个方法是计算每一个查询的第一个有关图片位置的倒数,后将求出所有倒数值得平均值。

MAP则是求每个有关图片检索出的准确率的平均值,这是对准确率求了两次平均,是MAP把系统在全部相关结果上单值指标。系统检索出来的有关图片靠前,MAP就越高,没有返回则准确率为0%。

本系统在搜索结果中,把用户所要的图片都是能排在前列,准确率也很高,都是高效准确的索引分不开的,从图4就可以看出这MAP、MRR指数的比较:

图4 MAP、MRR指数的比较Fig.4 Comparison of MAP and Mrr Index

通过对单机环境和云平台的对比,证明了实验的有效性,用户可以根据不同的测试方法满足自身不同的需求,从而达到自由查询的目的。

5 结语

本研究虽然取得了一定的研究结果,但是此系统依然还有很多地方需要完善,需要大量的测试,另外在设计MapReduce对图像进行处理时,缺乏了对于架构性能的分析。MapReduce如果是对于一般的小图像文件会增加运行作业必要的寻址次数,会对整个系统性能造成影响,所以它处理数据的速度要和云平台的传输速度达到同步。根据以上的问题和研究现状,还需进一步研究,学习医学图像检索算法,但是本文没有对医学图像的提取图像特征方法进行深入研究,可以在提取特征方法上多加研究以求提高检索准确度和效率,深入研究医学图像的各种索引机制,优化索引机制,准确开展云技术图像检索系统索引机制的研究,改进系统设计,使得基于云技术的医学图像检索系统性能更加突出。

猜你喜欢
检索系统检索语义
语言与语义
2019年第4-6期便捷检索目录
收录《信号处理》的检索系统及数据库
信号处理(2018年1期)2018-09-03 07:53:04
收录《信号处理》的检索系统及数据库
信号处理(2018年5期)2018-06-28 02:16:02
本刊被以下检索系统及数据库收录
信号处理(2018年4期)2018-06-27 03:34:16
本刊被以下检索系统及数据库收录
信号处理(2018年3期)2018-06-27 03:30:18
“上”与“下”语义的不对称性及其认知阐释
现代语文(2016年21期)2016-05-25 13:13:44
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
认知范畴模糊与语义模糊
语义分析与汉俄副名组合
外语学刊(2011年1期)2011-01-22 03:38:33