基于深度哈希的医院信息库数据批量无损迁移方法

2024-12-31 00:00:00王明龙
电脑知识与技术 2024年33期

关键词:医院信息库;数据迁移;无损迁移;深度哈希技术

0 引言

随着信息技术和医疗行业数字化转型的不断发展,医院信息化建设日益受到重视,医院信息系统已广泛应用于各个管理环节[1]。然而,随着医院业务的扩展和信息系统使用时间的增加,原有系统可能无法满足当前需求,需要进行升级或改造。医院信息库中的医疗和财务历史数据对于运营管理至关重要,数据迁移在系统升级改造过程中不可或缺[2]。数据迁移是一项复杂且关键的任务,涉及需求分析、数据清洗转换、迁移测试等多个环节,同时也为优化数据结构等提供了机遇。在当前数据迁移方法的研究中,文献[3] 通过参数核查等手段提升了迁移成功率,采用批量数据同步处理、触发器提取特征构建无损迁移模型;文献[4]则利用混合云架构设计并行迁移系统,实现了从数据转换到并行迁移的流程。但传统方法在迁移丢包率和数据一致性方面仍存在不足。

本研究的目的明确:一是确保在医院系统升级改造时数据能够顺利迁移,为海量数据提供可靠的迁移方案;二是改进传统方法的不足,降低丢包率、提高一致性,从而保障迁移质量;三是提升迁移效率与可靠性,优化迁移流程以减少时间消耗、增强可靠性;四是为数据的后续利用奠定基础,优化数据结构、提高数据访问效率。本研究的创新点独特:一是引入深度哈希技术,将高维数据映射到低维空间,构建神经网络模型以处理数据的复杂性和异构性,从而提高效率;二是实现批量无损迁移,利用技术特性精确定位传输数据并通过校验确保无损,解决了传统方法存在的问题,确保了数据的准确性和完整性;三是优化迁移流程以适应医院业务需求,注重业务连续性,满足时效性要求;四是提供全面的迁移解决方案,涵盖多个环节,全面提升迁移质量。基于此,本研究引入深度哈希技术,设计了医院信息库数据批量无损迁移的新方法。

1 方法设计

本研究所应用的深度哈希技术是一种将输入数据通过哈希函数映射到固定大小的哈希值的技术。在数据无损迁移过程中,可以利用深度哈希技术对数据进行预处理,生成唯一且稳定的哈希值。这些哈希值可以作为数据的唯一标识,用于在迁移过程中进行数据校验和完整性验证。

1.f/7Wdkj1ZFzq3v9D0BiUI0i4FYbEK5UTbHCN/mthvIs=1 医院信息库数据预处理

本研究首先对医院信息库中的原始数据进行如下预处理:

步骤1:数据清洗的目的是消除原始医院信息库中的缺失、重复以及异常个体。

1) 缺失值处理:本研究使用均值填充的方式填补缺失数据值。假设原始的医院信息库数据集为x = {x1,x2,…,x } n ,这里,n 为数据集中非缺失值的个数,则数据均值的计算方式如下:

将-x置于数据值缺失处,即可完成缺失值处理。

2) 数据过滤:根据特定条件删除不符合要求的数据[5]。例如:删除超出某个范围的值、出现频率过低的数据或与目标变量相关性较低的变量等。

3) 异常值处理:异常值是数据采集或记录的错误,也包括真实数据中的异常情况。本研究首先计算数据集的标准差s,过程如下:

然后,将距离均值超过标准差3倍的值视为异常值,即满足| x | i - -x > 3s 的数据视为异常值,再将异常值替换为均值。

步骤2:数据标准化的目的是将原始数据转换为正态分布,以便后续分析和处理。标准化的方式如下:

其中,z 表示标准化处理后的数据。

1.2 生成深度哈希值

本研究利用深度哈希技术,为预处理后的数据生成唯一且稳定的哈希值,以作为数据迁移过程中的校验标识。实际采用的是基于位运算的哈希算法,该算法利用位操作来生成哈希值,特别适用于快速哈希计算的场景。关于哈希算法的安全性分析如下:在抗碰撞性方面,位运算哈希算法相对较弱。然而,在医院数据迁移的场景中,通过对数据进行预处理,如限定医疗数据的数值范围、规范财务数据的格式等,可以有效降低碰撞的风险。在不可逆性方面,该算法的表现相对有限,理论上存在逆向推导的可能性。但考虑到医院数据的复杂性和多样性,实际逆向推导极为困难。况且,本研究主要应用于数据校验,而非加密存储,因此对不可逆性的要求相对较低。为了进一步提高安全性,可以采取加盐处理的方法,例如对医院财务数据在每次迁移校验时使用不同的盐值。此外,还可以结合数字签名技术,确保哈希值在传输过程中不被篡改,从而全面提升数据迁移的安全性。

1.3 数据迁移处理与校验

本研究利用深度卷积生成对抗网络,将预处理后的数据z 及其哈希值H 一起迁移到目标信息库中。在迁移完成后,利用哈希值对迁移后的数据进行校验,从而确保数据无损迁移。

假设N 表示随机噪声,将N、z、H 输入深度卷积生成对抗网络的卷积层中,得到的数据z、随机噪声N 的第v 个特征czv、cNv 如下(哈希值H 并不直接参与卷积层的计算):

其中:f (⋅)表示卷积层的激活函数,ω表示卷积核的权重,b 表示偏差,λ 表示窗口长度,zv 和Nv 分别表示第v个输入卷积层的数据和随机噪声。

深度卷积生成对抗网络的各个卷积层均含有多个卷积核,利用这些卷积核对医院信息库数据展开卷积处理,即可获取全部数据的特征[6]。然后,汇总各卷积核得到的特征,作为生成器的输出数据d:

其中,δ表示特征拼接函数。

利用多层卷积处理对z、N 的特征展开细化,使得输出数据d 中包含迁移后的真实医院信息库数据和随机噪声数据。为了辨别数据真伪,将d 的特征输入判别器中,得到数据d的第v个特征cdv如下:

判别结果D 反映了生成器数据属于迁移后的真实医院信息库数据的概率。设置一个判别阈值η。如果存在D > η,表明数据d 是迁移后的医院信息库数据;否则,d为虚假数据,需将其删除。

为了确保数据无损迁移,需要根据哈希值H 来验证数据的一致性,即利用生成深度哈希值的方式,计算迁移后数据的哈希值。若迁移后数据的哈希值与H 相同,表明迁移前后的数据一致;若不同,则表明数据在迁移过程中存在错误,需重新迁移,直到哈希值相同为止。

2 实验与结果分析

2.1 实验环境

实验采集某医院信息库数据5 000条,数据相似度为0.15,实验环境网络带宽为300 Mbps,数据块大小为1 024 KB,批量迁移任务数为7个。迁移过程中,哈希值的取值范围为[0.1,100]。

为避免实验结果的单一性,将文献[3]和文献[4]中的数据迁移方法作为对比,与本文方法一起完成同期验证。

2.2 结果分析

实验分别以迁移丢包率、迁移前后数据的一致性为指标展开验证。

1) 迁移丢包率是指在数据从源医院信息库迁移到目标信息库的过程中,丢失的数据量与原始数据总量的比值。该指标反映了在迁移过程中有多少数据没有成功迁移到目标位置。低丢包率表明迁移方法在数据传输过程中能够较好地保证数据的完整性。对于医院信息库来说,这意味着重要的患者病历、医疗记录、药品库存等信息不会在迁移过程中大量丢失,从而保证医院的正常运营。

不同方法的迁移丢包率如图1所示。

由图1可知,不同方法的丢包率总体上呈现出一定的差异。但本文方法的丢包率最大值仅为0.257%,明显低于两种对比方法,表明本文方法在数据传输过程中能够较好地保证数据的完整性。

2) 以迁移丢包率、迁移前后数据的一致性为指标的实验结果分析:如果实验得到的迁移丢包率较低,例如低于1%,这表明在数据从源医院信息库迁移到目标信息库过程中,迁移方法在数据传输方面表现良好,能较好地保证数据完整性,意味着医院重要的患者病历、医疗记录、药品库存等信息不会在迁移中大量丢失,从而确保医院正常运营;若迁移丢包率较高,则可能会对医院运营产生严重影响,比如丢失患者关键病历可能导致误诊,药品库存数据丢失会造成管理混乱,而迁移前后数据的一致性结果若显示高度一致,说明迁移过程准确可靠,若一致性差则需要深入分析是迁移算法、数据格式转换还是其他因素导致的问题。应用不同方法迁移前后数据的一致性如表1 所示。

分析表1可知,在迁移数据量为400 Mb时,本文方法的一致性为99.2%,而文献[3]和文献[4]方法的一致性分别为96.7% 和97.0%。当迁移数据量增加到4 000 Mb时,本文方法的一致性为99.1%,文献[3]和文献[4]方法的一致性分别为92.9%和91.9%。通过整体对比可以看出,本文方法迁移前后数据的一致性最小值也可以达到98.6%,说明本文方法可以使数据在迁移前后保持较高的一致性。

3 结束语

本研究针对医院信息库数据迁移过程中数据完整性和一致性的挑战,引入深度哈希技术,设计了一种新的数据批量无损迁移方法。该方法通过数据预处理、深度哈希值生成、数据迁移处理与校验等步骤,确保数据在迁移过程中的完整性和一致性。实验结果表明,该方法在迁移丢包率和数据一致性方面均优于传统方法。