一种生物医学流程图搜索引擎的设计与实现

2021-03-12 02:26:18盛建强陈骁郑洪英
电子元器件与信息技术 2021年1期
关键词:检索系统生物医学流程图

盛建强,陈骁,郑洪英

(深圳信息职业技术学院,广东 深圳 518172)

0 引言

伴随着互联网的高度发展和普及,出现在网络环境下的图片数量呈几何级增长,如何有效的在海量的图片数据中搜索、浏览和查找到用户关心的数据,成为很多研究者关心的一个热点问题。面对上述问题,本文设计和实现了一个生物医学流程图的检索系统。该系统运用生物医学的特征提取,及图像分类算法,流程图的相似性估计算法等构建了一个基于内容的图像搜索引擎。

1 整体设计

生物医学信息系统设计的主要目标是在合适的时间、合适的地点对合适的人群提供所需要的信息。所以,本系统的研究对象和目标人群也非常的明确,研究对象为生物医图像中非常重要的一类图片——流程图,并且研究该类图像的人员非常少,在学界还没引起足够的重视;该系统的使用对象主要是生物图像研究着或对医学图像感兴趣的科研人员和临床医生[1-2]。就整体设计架构而言,本系统的设计与传统的基于内容的生物医学图像搜索引擎的设计基本类似,本系统设计的另外一个目的,就是为本文对生物医学图像的研究成果提供一个验证和测试的环境,尽可能遵循系统设计的一般原则:高内聚、低耦合、模块可重用。下面分别从系统的设计目标、技术架构、数据流模型等方面对基于生物医学领域流程图检索系统进行详细描述。

1.1 流程图搜索引擎设计目标

基于现有的CBIR生物医学图像检索系统的设计框架,结和我们系统的应用需求和特点,提出了如下几个方面的设计目标:

1.1.1 良好的界面设计

系统设计的最终目的是提供使用者一个高效的、便捷的系统,良好的界面风格设计(GUI)就显得至关重要。

1.1.2 专门性

由于本系统是专门用于生物医学图像领域、而且是针对生物医学流程图进行检索。所以,在具体的设计和实现中,需要考虑到这一实际情况。

1.1.3 实时性众所周知,许多图像处理的算法的复杂度是比较高的,尤其是图像特征提取算法[3-4]。

1.2 流程图搜索引擎技术架构

从系统角度分析,本搜索引擎主要由GUI接口、图像的特征的提取以及流程图相似性度量三个模块组成。GUI接口模块是用户与系统之间进行信息交互的途径,是用户提交查询请求的窗口。图像特征提取模块主要包括图像的预处理过程,以及图像特征提取过程,在以图搜图的环节中,本文用基于概率图模型的相似性度量方法来计算相似性,而对于手绘方式搜索环节,其方法是基于ccLDA模型的流程图相似度量方法。

2 流程图搜索引擎数据流模型

整个系统的信息处理流程就像一个标准的工作流程序,从特征提取开始,到图像的分类,到数据索引、图像检索,最后经相似性计算得到最终的检索结果。在本系统设计过程中,每个关键算法(如特征提取、图像分类、相似度计算等)分别被抽象成一个处理器(Processor),该处理器都有一个输入和一个输出,且输入与输出均采用数据对象(Data)来表示。

搜索引擎的关键技术的实现需要借助Lucene工具。Lucene提供了一个全文检索引擎的架构,并且为用户提供了完整的查询引擎和索引引擎,部分文本分析引擎。其目的是为开发者提供一个易用、简单的工具包、方便软件开发者在系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎[5]。具体流程为:

2.1 构建数据库的索引文件

构建了3张数据库表:DIR INFORM, FIGURE INFORM, FC INFORM。对于表DIR INFORM,它存储的信息主要是流程图所在的源文档信息,包括:文档的题目、文档的作者信息、摘要、关键词、以及文档的链接地址;对于表FIGURE INFORM,它存储的信息主要的流程图本身的信息,如流程图的主题等;对于FC INFORM,主要有关于流程图的所检测出来的元素和嵌入在流程图中的文本信息。接着,我们开始创建索引:①指定索引文件的存储路径;②生成一个IndexWriter对象,用于创建索引文件;③生成一个Document对象,它包含多个属性,这些属性可供查询和索引;④把Document对象加入到IndexWriter对象中;⑤优化IndexWriter对象。Lucene索引文件构建成功。

索引文件构建成功后,我们可以利用Lucece对每一次查询进行检索,但仅仅是根据流程图里面本身的本文信息来进行,所以这个查询结果相对而言,精度和相关度不一定很稳定,关于这一点,我们在第3,4章做对比试验的时候,就对用Lucene工具检索的结果做过比对试验。所以还有进一步求精的必要。

2.2 流程图相似性度量算法

在第(1)步骤的检索结果基础上,进一步引入本文第4章的流程图相似性度量算法,重新对索引结果进行相似性度量排序,得到最终的查询结果。

3 流程图搜索引擎的检索过程

生物医学流程图检索系统的主界面如图1所示。本系统的检索方式有两种:一种是采用以图搜图的方式,也就是给定一副流程图,点击”Search”按钮直接检索;另外一种就是基于sketch的方式,即用户手绘一副流程图,不需要多么完整和复杂,但这个sketch需要体现用户本人最想要表达的关键信息,或者关键结构信息,如关键节点及内容,与节点相连的边的信息等等。后面的过程就以第二种情况为例进行说明和展示。生物医学流程图检索系统的检索流程如下:

图1 搜索引擎的主界面,并且简单地手绘了以“pharmacist care”为主题的查询示例

用户通过网页内嵌的绘图板的菜单栏,选择相应的形状,并连接和添加文本,绘制用于检索的流程图。

绘制流程图完毕后,用户点击”Search”按键,系统将返回检索结果,且相似的图像以缩略图形式展示。

用户选取感兴趣的图像,通过点击系统提供的超链接,可以访问该图像的详细信息,如流程图所对应的论文的题目、摘要、作者,论文的出处,以及上下信息等。

4 搜索引擎实验结果分析

好的评价标准对于任何一项技术地推动具有非常重要而积极的意义,比如信噪比(signal noise ratio, SNR)是数据压缩领域的评价标准;而在信息检索领域,查准率(precision)和查全率(recall)是两个重要的评价指标。一个检索系统的性能评估准则包括:效率(efficiency)、有效性(effectiveness)以及灵活性(flexibility)。它们分别代表检索的速度、检索与查询图像相似的图像的成功率、及对不同应用的适应性。目前对检索系统的性能的评价则更多地放在检索的有效性上,即检索系统结果的正确与否上。下面,主要从效率及有效性两方面来对这个搜索引擎进行评价。本文选择了共计8组查询主题,分别是:乳腺癌、胃癌、非霍奇金淋巴瘤、多发性骨髓瘤、HIV、慢性肾脏炎、心脏病、疟疾。每一组查询主题我们分别进行6次随机的查询,具体作法是:在系统中用手绘的方式,在手绘的第一个文本框里输入主题,其他的文本框的内容随机,重复进行6次。系统能自动统计每次查询所需的时间。本文系统的检索过程所需的时间均在毫秒级。

5 结语

本文实现了一个生物医学流程图的检索系统。该系统运用了一些成熟的关键算法和技术,如生物医学的特征提取,及图像的分类算法,流程图的相似性估计算法等,基于这些方法和模型,本文构建了一个基于内容的图像搜索引擎,本系统提供用户两种查询方法:用户输入一张流程图,查询与之相似的图像;另外一种方式就是由用户根据自己的查询意图,手绘草图进行搜索。实验表明,本文提出的系统在实时性、结果相关度等方面有不错的性能。

猜你喜欢
检索系统生物医学流程图
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
科学与社会(2022年4期)2023-01-17 01:20:04
灵长类生物医学前沿探索中的伦理思考
科学与社会(2021年4期)2022-01-19 03:29:50
收录《信号处理》的检索系统及数据库
信号处理(2018年1期)2018-09-03 07:53:04
国外生物医学文献获取的技术工具:述评与启示
图书馆建设(2018年5期)2018-07-10 09:46:44
收录《信号处理》的检索系统及数据库
信号处理(2018年5期)2018-06-28 02:16:02
本刊被以下检索系统及数据库收录
信号处理(2018年4期)2018-06-27 03:34:16
本刊被以下检索系统及数据库收录
信号处理(2018年3期)2018-06-27 03:30:18
专利申请审批流程图
河南科技(2016年8期)2016-09-03 08:08:22
专利申请审批流程图
河南科技(2016年6期)2016-08-13 08:18:29
LED光源在生物医学中的应用分析