医院HIS系统中目标处方信息筛选研究

2018-03-03 19:24魏源葛勇
现代电子技术 2018年5期
关键词:能量消耗

魏源+葛勇

摘 要: 对医院信息系统(HIS)中的目标处方信息进行筛选时,当前目标处方信息筛选方法特征选择的特征向量空间维数较多,导致筛选过程消耗的能量较高,筛选结果不准确。在医院HIS系统中提出一种目标处方信息筛选方法,对目标处方信息进行特征选择,控制目标处方信息的特征向量空间维数,降低筛选过程中的能量消耗。通过医院HIS系统的分类器,对目标处方信息的权重进行计算,提高目标处方信息筛选结果的精准度。实验结果表明,该方法对医院HIS系统中的目标处方信息进行筛选时,能量消耗较少,筛选结果较为精准,其成果对该领域的研究发展具有重要的指导意义。

关键词: HIS; 目标处方信息; 信息筛选; 能量消耗; 权重计算; 特征向量选择

中图分类号: TN911?34; TP393.08 文献标识码: A 文章编号: 1004?373X(2018)05?0028?05

Abstract: For the target prescription information screening in hospital information system (HIS), the current target prescription information screening method for feature selection has high dimensionality of characteristic vector space, which may cause the high energy consumption in screening process and inaccurate screening results. A method of target prescription information screening in HIS is put forward to perform the feature selection of target prescription information, control the feature vector space dimensionality of the target prescription information, and reduce the energy consumption in the screening process. The weight of the target prescription information is calculated by means of the classifier of the HIS to improve the accuracy of the target prescription information screening results. The experimental results show that the method used to screen the target prescription information in HIS has low energy consumption and accurate screening results, and its achievements have important guiding significance for the research and development of this field.

Keywords: hospital information system; target prescription information; information screening; energy consumption; weight calculation; feature vector selection

0 引 言

互聯网信息经济的快速发展,使信息在当代社会的作用越来越重要[1]。信息收集、整理和筛选的目的是提供及时、全面、准确的信息[2]。在信息时代,信息的含金量普遍提高,含有大量的经济利益和商机[3]。但信息给人们带来商机和利益的同时,也存在着海量的虚假信息,这些虚假信息会导致工作出现错误,并造成严重的后果[4]。

HIS是医疗活动和医院管理中进行联机操作和信息管理的计算机应用系统,是覆盖医院所有业务和业务过程的信息管理系统[5]。HIS系统的主要目标是支持医院事物处理业务和行政管理业务,减少事物处理人员的劳动强度,辅助高层领导的决策和医院的管理工作[6]。对医院HIS系统中的目标处方信息进行筛选,可以快速地找到目标处方,减少查询时间,降低处方查询人员的劳动强度[7]。

近红外光谱信息筛选方法采用近红外漫反射光谱对信息进行鉴别。通过Norris平滑处理光谱、二阶导数和光谱标准偏差选择光谱波段,筛选出目标信息的主成分。利用模群迭代奇异样本诊断方法去除数据库中的异样信息,采用子窗口重排、竞争自适应重加权法、遗传算法和蒙特卡洛?无信息变量消除法四种方法进行信息筛选。该方法对目标信息筛选的结果较为精准,但筛选过程中消耗的能量较多[8]。信息筛选与聚类的处理方法对目标处方信息提出了一种基于信息聚类的特征变化和特征选择方法,通过词汇在处方中出现的频率选择进行聚类的词汇,并根据词汇出现频率的模型定义特征变化函数,使信息筛选的速度加快,该方法根据词汇出现的频率对信息进行筛选时,筛选的结果难免会存在误差[9]。基于信息敏感性的目标信息筛选方法通过主成分占总指标集信息的比例和被保留主成分对目标信息的偏导数乘积的和,对原始目标信息的影响度进行分析。根据目标信息的敏感性指标对积累的信息进行筛选。该方法对信息进行筛选时,计算量较大,过程较为复杂,能耗较高[10]。为解决上述问题,本文提出一种医院HIS系统中目标处方信息筛选方法。endprint

1 信息筛选

1.1 特征选择

医院HIS系统的数据库中储存了大量关于处方的信息,处方信息中每段信息的词汇均不相同,导致医院HIS系统数据库中文本样本集的特征向量空间维数较多。特征向量的空间维数一般是副词、标点符号、助词和虚词,还有一部分是长度为1的词汇,这些词汇对目标处方信息筛选是不需要的,对这些词汇进行筛选不仅会耗费计算资源,还会造成“过拟合问题”,影响医院HIS系统中目标处方信息筛选的结果,对分词词汇进行特征筛选减少向量空间的维数。

当前常用的特征选择方法有、信息争议、词频和互信息等。本文采用统计方法进行目标处方信息的特征选择。统计用来度量类别和特征值的独立程度,当越大时,信息的独立性就越小,相关性越大。统计量特征选择方法又成为CHI,用来衡量处方信息类别和特征之间统计的相关性。

是目标处方信息数理统计中的统计量。设为医院HIS系统数据库中的某个词,为医院HIS系統数据库中某个类别,的计算公式如下:

式中:代表和在HIS系统中共同出现的频数;是目标处方信息中包含的文件;为不属于类中的频数;代表类文件中不包含的词汇频数;表示出现既不包括类文件频数也不包括类文件频数的文件;代表目标处方信息中的总文件数。当时,是独立的。

在医院HIS系统中,不同类别的处方信息特征值的重合程度越高,表示不同类别的处方信息之间的特征值区别越小,筛选难度越大。

判别率代表区分度特征中最大的可分性。表示医院HIS系统中处方信息的每一维,的判别率的计算公式如下:

式中:代表不同类别的处方信息;分别代表在第维特征下,该处方信息类别的标准差和均值。在医院HIS系统数据库的数据集复杂度中,处方信息特征最大的判别率为越大,处方信息的区分度越好。

代表特征间重合区域的体积,的计算公式如下:

式中表示医院HIS系统中数据集特征维数。越大,处方信息的重合度越大,筛选越困难。

代表最大特征效率,是处方信息特征重合区域外的处方信息占总处方信息的比例。越大,代表在特征重合区域之外存在更多的处方信息,特征的区分度较好。通过去停用词清理法和目标处方信息的词性标注过滤法对医院HIS系统中的特征词向量空间维度进行选择性的降低,控制特征选择的空间维数,降低目标处方信息筛选需要的能耗。

1.2 目标处方信息筛选结果精准度的提高

给定医院HIS系统中的数据库样本集为:,当时,代表样本中的第个元素,代表与样本中对应元素的属性值。医院HIS系统数据库中的每一个样本都分配一个权重,由这些样本权重构成向量。将初始化数据库样本的权重设定为表示每个数据库中的样本权重都是相同的。设表示样本集中最大的循环次数,计算医院HIS系统分类器在权值为情况下的错误率:

在医院HIS系统分类器的第二次训练中,对样本的权重进行调整,第一次对正确样本进行分类时,权重会降低。第一次对错误样本进行分类时,权重会提高。为医院HIS系统中所有分类器都分配一个权重值。权重值是根据医学HIS系统中弱分类器的错误率进行计算的,计算公式如下:

完成值的运算后,对权重向量进行更新处理,降低正确分类的处方信息样本权重,更新处方信息样本的权值公式为:

完成目标处方信息样本的权值计算后,开始下一轮的迭代,直到医院HIS系统弱分类器的数目达到指定值或错误率为0,提高目标处方信息筛选结果的精准度。

1.3 目标处方信息筛选

定义医院HIS系统中目标处方信息筛选中的相关变量:

式中:代表筛选处方信息对象集;代表可识别的处方信息;表示用户对处方的目标值。

目标处方信息筛选可以描述为。其中代表筛选处方信息对象集到信息类映射的关系;表示信息类用户目标度映射的关系。目标处方信息筛选根据对输入医学HIS系统的处方信息进行分类;通过计算用户输入HIS系统处方信息类的目标值,并根据目标阈值判断其取舍。

图1为目标处方信息筛选的过程,包括:

1) 用户目标体系的描述,对用户的目标和信息需求进行描述;

2) 医院HIS系统接收输入的信息;

3) 对输入医院HIS系统的处方信息进行分类;

4) 根据用户的目标值对输入医院HIS系统的信息处理行为进行判断:是否通过医院HIS系统的筛选器,判断输入医院HIS系统的信息是否进入处方信息筛选结果集;

5) 用户评价处方信息筛选的结果集;

6) 对用户的目标描述进行修正。

2 实验分析

本次实验在Microsoft.NET Framework环境下完成,并使用Microsoft Visual Studio编写Web服务和客户端应用程序。实验数据从医院HIS系统中收集,信息收集的标准是包含目标处方信息,标为目标处方信息的数据约为100条。随机对医院HIS系统中的处方信息进行划分,通过多次迭代进行平均。实验的评价指标为综合指标、召回率和采用准确率计算公式如下:

在医院HIS系统进行目标处方信息筛选时要避免漏报目标处方信息,并注重召回率。实验评估了本文方法和LiDAR目标处方信息筛选方法,实验结果如表1,表2所示。

表1为本文方法的实验结果,分析表1可知,本文的采用准确率平均为0.24,召回率平均为0.83,综合指标平均为0.66。表2为LiDAR目标处方信息筛选方法的实验结果,分析表2可知,LiDAR目标处方信息筛选方法的采用准确率平均为0.13,召回率平均为0.26,综合指标平均为0.33。对比表1、表2可知,本文方法的筛选结果要优于LiDAR目标处方信息筛选方法,筛选结果较为精准,适合医院HIS系统的目标处方信息筛选任务。endprint

选取四种特征選择方法进行实验,四种特征选择方法的空间维数分别为400,600,800,1 000,1 200,得到的宏平均值如表3所示。

分析表3可知,四种特征选择方法的宏平均值均在特征维数为1 000时最高,筛选的结果最为准确,当特征空间维数过多时,会导致特征选择的特征词中存在噪声信息,筛选的计算量增大,导致目标处方信息筛选的结果不准确。为了验证本文方法的特征选择性能,分别选取MI特征选择方法和IG特征选择方法与本文方法的特征选择方法进行测试,三种不同方法的测试结果如图2所示。

由表3可知,当特征维数为1 000个时,特征选择方法效果达到最佳,目标处方信息筛选的结果最为准确,分析图2可知,在测试时,本文方法的特征维数保持在1 000左右,此时的特征选择方法达到最佳,对目标处方信息筛选的结果较为准确。使用MI特征选择方法进行实验时,该方法的特征维数超过1 000个,此时的特征空间维数过多,导致特征选择的特征词中存在噪声信息,使筛选的计算量增大,筛选结果不准确。使用IG特征选择方法进行测试时,特征维数没有达到1 000个,此时的特征空间维数较少,不能完全筛选出含有特征的目标处方信息,导致筛选结果不准确。

为了验证医院HIS系统中目标处方信息筛选方法的性能,分别采用本文方法和SEF目标处方信息筛选方法进行测试,对比两种不同方法进行目标处方信息筛选时的能耗,能耗越低,筛选方法的可用性越高,实验结果如图3所示。

分析图3可知,本文方法进行目标处方信息筛选时的能量消耗要低于SEF方法进行目标处方信息筛选时的能量消耗。SEF方法对目标信息进行筛选时利用中间节点的概率,因为SEF方法各个节点之间的公共密钥概率比较低,所以非目标处方信息需要通过较多的跳出传输才能被过滤出去,消耗了较多的能量,使SEF的能耗较高。

3 结 论

对医院HIS系统中的目标处方信息进行筛选,可以快速地找到目标处方信息,减少查询所用的时间。当前的目标处方信息筛选方法存在能量消耗较高,筛选结果不准确的问题,本文提出一种医院HIS系统中目标信息筛选方法,在解决上述问题的基础上进行提升,并通过实验得到验证。

1) 采用本文方法和LiDAR目标处方信息筛选方法根据综合指标召回率和采用准确率进行筛选结果的测试,验证本文方法的筛选结果较为精准。

2) 根据特征维数对MI特征选择方法、IG特征选择方法和本文方法进行测试,验证本文方法的筛选结果精准度较高。

3) 采用本文方法和SEF目标处方信息筛选方法进行能耗测试,验证本文方法对目标处方信息进行筛选时所用的能量较低。

参考文献

[1] 高凌洁.实时互联网信息过滤系统的设计及实现研究[J].电子设计工程,2016,24(19):51?53.

GAO Lingjie. The design and implementation of real time Internet information filtering system [J]. Electronic design engineering, 2016, 24(19): 51?53.

[2] 马媛媛,杨磊.最优乒乓球运动员身体特征寻优筛选挖掘建模[J].计算机仿真,2015,32(6):382?385.

MA Yuanyuan, YANG Lei. Modeling of optimization screening mining for optimal table tennis athletes physical characteristics [J]. Computer simulation, 2015, 32(6): 382?385.

[3] 王欣,黄莉莉,陶祥,等.SPD系统在医院药品管理中的应用[J].科技通报,2017,33(2):231?234.

WANG Xin, HUANG Lili, TAO Xiang, et al. Application of SPD system for pharmaceutical management [J]. Bulletin of science and technology, 2017, 33(2): 231?234.

[4] 马胡双,石永革,高胜保.基于特征增益与多级优化的协同过滤个性化推荐算法[J].科学技术与工程,2016,16(21):272?277.

MA Hushuang, SHI Yongge, GAO Shengbao. A recommendation algorithm based on collaborative filtering by feature augmentation and cascade tactics [J]. Science technology and engineering, 2016, 16(21): 272?277.

[5] 孟祥萍,周来,王晖,等.云计算技术在未来智能电网信息处理平台中的应用[J].计算机测量与控制,2015,23(10):3508?3511.

MENG Xiangping, ZHOU Lai, WANG Hui, et al. Applications of cloud computing technology for information processing platform in future smart grid [J]. Computer measurement & control, 2015, 23(10): 3508?3511.

[6] 张瑞昕,卜方玲,惠毅.一种适用于多数据链网络的信息过滤转发策略[J].计算机工程与应用,2015,51(8):89?91.endprint

ZHANG Ruixin, PU Fangling, HUI Yi. Information filtering and forwarding strategy suitable for multiple data link networks [J]. Computer engineering and applications, 2015, 51(8): 89?91.

[7] 李云玮,马蕾.基于SVM的物联网大数据有效信息过滤挖掘[J].控制工程,2016,23(10):1533?1537.

LI Yunwei, MA Lei. Big data effective information filtering mining of Internet of Things based on SVM [J]. Control engineering of China, 2016, 23(10): 1533?1537.

[8] 王元忠,赵艳丽,张霁,等.近红外光谱信息筛选在玛咖产地鉴别中的应用[J].光谱学与光谱分析,2016,36(2):394?400.

WANG Yuanzhong, ZHAO Yanli, ZHANG Qi, et al. Study on application of NIR spectral information screening in identification of Maca origin [J]. Spectroscopy and spectral analysis, 2016, 36(2): 394?400.

[9] 李阳,杜垚.文本情报信息筛选与聚类的一种处理方法[J].火力与指挥控制,2017,42(2):172?175.

LI Yang, DU Yao. A text clustering method using word appea?rance probability [J]. Fire control & command control, 2017, 42(2): 172?175.

[10] 迟国泰,陈洪海.基于信息敏感性的指标筛选与赋权方法研究[J].科研管理,2016,37(1):153?160.

CHI Guotai, CHEN Honghai. A study of index screening and weighting method based on information sensitivity [J]. Science research management, 2016, 37(1): 153?160.endprint

猜你喜欢
能量消耗
太极拳连续“云手”运动强度及其能量消耗探究
中年女性间歇习练太极拳的强度、能量消耗与间歇恢复探究分析
没别的可吃
变速器对电动汽车能量消耗的影响
我国企业外部环境成本核算方法研究
无线传感网中具有唤醒机制T—MAC协议
重型混合动力电动汽车能耗测试方法设计
红砂岩填土压实厚度对压实能量消耗规律影响试验研究
运动能量消耗简易测量方法
铝诱导大豆根系有机酸分泌的能量消耗定量研究