基于大数据的医院电子档案归档管理系统研究

2022-02-22 02:52:12陈忠煜
自动化技术与应用 2022年1期
关键词:字符像素档案管理

陈忠煜

(郑州市第七人民医院郑州市心血管病医院,河南郑州 450016)

1 引言

传统医院档案大部分是纸质档案,在进行管理和保存时容易出现损坏,同时存储所需实体空间大,储存成本高[1]。对医院档案进行信息化管理,将档案存储至医院数据平台,无需担心档案被自然环境破坏,也可保证档案的完整性,减少资源浪费[2]。电子档案就是数字档案,利用计算机磁盘等装置进行保存,和纸质档案相对应,但电子档案来源不仅局限于纸质档案,还包含原生性电子文件。为了保证电子档案的完整性,设计一种大数据背景下医院电子档案归档管理系统。在档案管理的信息化研究中,我国档案学术界从档案管理系统的各个方面进行了深入研究,包括有学者对电子档案的使用规范进行研究,也有学者研究电子档案的建设标准,也有学者进行电子档案安全性技术研究,但传统的档案管理系统设计忽略了日常制度建立和使用管理工作。在国外,有研究学者利用“来源原则”按照各种维度类型对档案资料进行分类操作,继而实现档案管理工作,也有学者指出档案管理系统是知识的存储载体、咨询处理和转换的节点,同时作为档案管理工作人员要从客观角度了解真相不受主观意识影响。

现如今,在互联网的背景下,大数据呈现出多元化、结构复杂化、数据海量化,可以为医院信息化高效使用提供有效支持,从而提高运维质量[3]。医院利用大数据平台,对电子档案进行优化管理与统计,可防止出现传统模式下档案归档的无序性与准确性低等问题,有效提高电子档案的便捷性和可靠性,保证电子档案管理的综合质量。

2 系统架构设计

2.1 B/S架构

B/S架构是三层架构,第一层是客户端,客户端是标准浏览器,选用JSP动态网络技术,把HTML代码转换为网页,允许用户输入信息,同时把处理请求发送至服务器[4]。第二层是Web服务器,利用进程响应请求,通过Spring-MVC框架完成交互,反馈给客户端浏览器。第三层是数据库服务器,主要用于协调服务器发出的数据库请求。使用B/S 架构不仅维护费用低,而且客户端仅需安装浏览器即可实现访问,方便查询信息。

2.2 服务器端

SpringMVC 框架是在客户端的基础上完成交互的,利用XML 配置把处理器、适配器、解析器等注入Spring容器中[5]。为了简化开发,SpringMVC 框架提供注解方式,仅需在Java 类上输入对应注解名,即可通过扫描自动注入。

SpringMVC工作流程用图1进行描述。

图1 SpringMVC工作流程图

2.3 客户端开发

JSP(Java Server Page)是一种运行于服务器端的Java技术,主要用于对动态网页进行开发,也就是说JSP为脚本语言[6]。

在JSP 页面中不仅能够编写前端代码,还能够编写Java代码,每次对页面进行求解时,均可在服务端编译后显示。JSP 能够提供特有的标签、指令、EL 表达式等,以达到动态网页的开发要求。JSP还存在四个作用域,包括应用于整个程序、应用于一次会话、应用于当前页面以及应用于请求域。利用上述作用域和对应内置对象即可完成应用程序数据的共享与传输。

3 系统关键部分设计

3.1 医院纸质档案数据提取

医院电子档案中包含了大量的纸质档案,在系统设计中首先需要对档案中的数据信息进行提取,包括文字信息提取与字符信息提取,详细分析如下所述。

3.1.1 文字信息提取

在系统中导入纸质文档后,首先对档案信息进行预处理,在进行预处理的过程中,常采用的预处理方式为线性归一化方式,最重要的步骤是删除信息中的白噪声,预处理的目的是对医院纸质档案关键信息进行提取[7]。其次对档案信息关联程度进行筛选,利用变量处理工具令经处理后的信息和图像更加容易被识别,提高系统识别性能。针对医院档案中的图像信息,利用字符图像完成线性归一化操作,不同问题下的归一化处理是存在差异的,在对医院档案信息进行处理时,把汉字信息字符组成的点阵图移动至指定位置,从而减少汉字在点阵图上的位置误差,从而实现位置归一化操作。

通常情况下位置归一化处理方式包括两种,分别为将文字外边框当成参照物完成位置归一化操作,以及将质心当成参照物完成位置归一化操作。将文字外边框当成参照物完成位置归一化操作的方式首先需要对文字外边框进行求解,再借助文字外边框获取文字中心,最后把依据外边框的文字中心移动至既定位置与区域。将质心当成参照物的位置归一化操作方式首先需要对汉字质心进行求解,再把汉字质心移动至指定位置。本研究主要选择基于外边框的文字位置归一化与线性大小归一化相结合的方式来完成归一化操作,通过上述分析,在对信息进行提取与管理之前,要完成待识别文字字符与图像的归一化操作,才可进行特征值提取。除此之外,需完成待识别文字位置的归一化操作,获取待识别文字边框,而后对边框中心点阵图进行保存。

最后针对保存的边框中间点阵图完成线性归一化操作,获取标准点阵图,公式描述如下:

式中,r用于描述文字外边框点阵,r*用于描述完成线性大小归一化操作后点阵,h、w依次用于描述的高与宽,h*与w*依次用于描述归一化操作后的高与宽。

3.1.2 字符信息提取

完成上述对医院档案文字信息的预处理后,对字符轮廓进行提取,如果白点周围四个方位均和一个黑点相邻,则该黑点即为轮廓上的点。利用字符轮廓黑点对特征向量进行提取,即使一般字符会存在污点,通常会丢失部分污点处的信息,有时会导致字符受损严重,但依旧可以通过存在于笔画与轮廓中的特征进行提取。提取特征值可通过字符轮廓保存后进行,如果当前字符轮廓出现毛刺,则是由于成像质量不好而具有干扰因素,所以本研究通过模板法针对处理中的特征值进行平滑处理,以降低噪声干扰,完成对轮廓边缘的平滑处理。黑点轮廓中需要进行平滑处理的点和其相应的利用模板法进行平滑处理后的点的排序状态用图2进行描述。

图2 消除轮廓中直角边平滑处理前后比较

图2中,黑点标识黑像素,空白部分标识白像素,九方格可代表两种像素。针对字符轮廓中的所有黑点,首先需对其周围的8个相邻像素进行考察,如果图像中黑点和周围相邻像素排序组合成图像的任何一个文字,则把该黑像素转换成白像素。如果字符轮廓周围相邻像素排序和任意黑像素排序一致,那么将该黑像素滤除,通过图2所示的排序情况,利用平滑操作替代被滤除的黑色像素,从而删除字符轮廓中的小的突起。

3.2 档案归档安全管理

不管是医院传统模式下的纸质档案归档,还是大数据背景下的电子档案归档,在进行实际管理时,安全性都是所需解决的重要问题。然而当前医院电子档案归档管理在安全性方面较为薄弱,首先,防火墙访问安全性较低。防火墙作为医院内网与外网间的屏障,可以有效提高医院电子档案归档管理安全性[8],但当前绝大多数医院并未意识到防火墙的关键程度,通常情况下,防火墙软件是利用网络下载的,安全性较差,会导致医院电子档案管理安全性得不到保障;其次,网络入侵检测能力需增强。医院电子档案中包含很多医学工作信息资料以及患者治疗档案,当前很多医院在网络入侵检测能力方面还不够强大,日常工作中会影响到档案管理的安全性。

为了令医院电子档案归档管理水平提升,需对档案的安全管理进行强化。一方面,提高档案防火墙防护性能,避免使用安全性低的防火墙软件,不仅要在医院内网与外网间建立防火墙,还要针对医院电子档案保密级别设置对应防火墙,提高安全性。另一方面,提高对网络入侵检测模块的开发,不仅要提高对外部入侵的检测,还要针对内部数据进行检测防范,增强档案管理的安全性。不仅如此,还需建立病毒防御模块,防止病毒与黑客入侵,提高电子档案管理的安全程度[9]。

在医院电子档案信息流和入侵检测端口中间搭建滑动映射连接关系矩阵,公式描述如下:

式中,WBD用于描述信息流延迟,N用于描述信息流种类,m用于描述入侵检测端口数量,λ用于描述入侵概率,γ用于描述映射权重,Nj用于描述电子档案信息流,△W用于描述关系压缩权重。

滑动关系用图3进行描述。

图3 信息流映射关系

电子档案信息流和网络端口中间利用分布式协同处理,按照病毒种类、滑动窗口大小以及入侵方式,对医院电子档案服务器节点进行选择,为不同种类的电子档案信息流提供安全保障。上述方案会实时搭建映射关系元组。

3.3 大数据环境下数据库设计

本研究大数据环境下数据库选用NoSQL 数据库[10],该数据块泛指非关系型数据库,NoSQL 数据库所有数据均独立设计,便于将数据划分至不同服务器上,减少所有服务器数据量,面对大规模数据的写入操作更加便于处理。NoSQL数据库不但可通过节点解决了关系数据库结构定义无法改变以及对数据定长的问题,而且可在不定义表结构的情况下正常工作,支持复杂的查询条件,将大数据环境下医院内不同非结构化电子档案数据集合在一起,获取电子档案数据库架构,如图4所示。

图4 电子档案数据库架构

3.4 存储结构设计

NoSQL 数据库支持对多种类型医院档案进行存储,存储方式主要包括系统主动分片存储方式与用户自定义分片存储方式。

分片存储基本思想如下:把二进制文件划分为若干个数据段,所有数据段均以一条记录的形式在NoSQL数据库中存储,为了达到负载均衡,NoSQL数据库提供分片机制,令一个档案信息数据的若干个分块被保存在分片服务器中,所有分片服务器对全部档案数据子集进行映射以实现管理,用户不用了解档案数据具体被保存的位置,而是通过mongos路由进程进行管理,在查询时,路由进程将自动调用相关程序,从而得到被保存的电子档案的查询结果,供用户使用。

分布式文件存储部分结构图如图5所示。

图5 分布式文件存储部分结构图

4 实验结果及分析

将本文设计的大数据背景下医院电子档案归档管理系统应用于某医院,将文献[2]提出的电子档案多维度风险防控体系系统和文献[3]提出的基于大数据的特性及运用的档案管理方法作为对照组进行测试,对应用三种系统的工作人员进行问卷调查,获取不用工作人员使用系统的满意程度,分数最低为0分,最高为1分。

为了验证本文设计的大数据背景下医院电子档案归档管理系统的有效性,提高用户使用满意度,用于整体满意度提高,将平均满意度、最小满意度两个指标作为衡量系统性能的指标。

对平均数进行统计可体现整体的一般水平,或者整个数据的集中趋势,而平均满意度可体现优选结果的一般水平。

最小满意度可体现使用系统的医院工作人员满意度最差情况,该值越小,那么存在特别不满意情况的可能性越大。而如果只有某个或几个工作人员非常不满意,则不可代替整体情况。

平均满意度实验结果用图6进行描述。

图6 平均满意度实验结果

应用本文系统的工作人员对本文系统平均满意度较高,在大部分数据中,平均满意度都是最优,只在部分科室略低于文献[2]系统,经查证,这主要是因为文献[2]系统考虑了档案管理路径优化问题。

最小满意度实验结果用图7进行描述。

图7 最小满意度实验结果

实验结果表明,针对大部分使用系统的医院工作人员而言,本文系统最小满意度普遍高于文献[2]系统与文献[3]系统,然而在部分需求上,本文系统最小满意度低于其它两种系统,这主要是由于本文系统注重安全性、快速响应性以及准确性,可满足大部分工作人员需求。

在本文设计系统中,纸质档案信息提取非常重要,关系到后续查询时的信息完整性,因此需单独进行实验分析。从信息录入到综合运维,对200张纸质档案信息进行提取,将电子标签数据提取方式作为对照组,结果见图8。

图8 信息提取量比较

由图8中的数据可知,在进行纸质档案信息提取时,使用本文系统方法的信息提取量明显多于电子标签提取方式,在大数据背景下,本文系统采用的提取方法可有效提高录入率,由录入信息量可知,本文系统录入质量更高,为医院电子档案归档管理提供了便利。

5 结束语

针对当前医院对电子档案归档管理存在的普遍弊端,设计了一种大数据背景下医院电子档案归档管理系统。针对纸质档案,通过有效的信息提取方式将信息提取出来,便于查询与管理。通过分布式大数据映射方式能够有效提高电子档案管理安全性,利用分片存储思想可以减少存储空间,继而提高系统响应速度。

猜你喜欢
字符像素档案管理
赵运哲作品
艺术家(2023年8期)2023-11-02 02:05:28
寻找更强的字符映射管理器
像素前线之“幻影”2000
字符代表几
一种USB接口字符液晶控制器设计
电子制作(2019年19期)2019-11-23 08:41:50
“像素”仙人掌
档案管理中的电子档案管理
消失的殖民村庄和神秘字符
档案管理与企业内部控制关系的思考
消费导刊(2017年24期)2018-01-31 01:29:20
高像素不是全部
CHIP新电脑(2016年3期)2016-03-10 14:22:03