基于语义关联的医疗档案数据化发展路径

2022-12-04 06:14赵可心
中文信息 2022年2期
关键词:关联语义数字化

赵可心

(铁岭县中心医院,辽宁 铁岭 112000)

一、我国档案资源数字化发展目标

2002年11月25日国家档案局颁发的《全国档案信息化建设实施纲要》提出,“十五”期间,“适应国家信息化建设和档案事业发展的要求,把档案信息化纳入国家信息化建设的总格局。加快推进档案资源数字化、信息管理标准化、信息服务网络化的进程,促进档案事业持续快速健康发展,为改革开放和现代化建设服务”。2016年,《全国档案事业发展“十三五”规划纲要》强调,“积极响应数字中国建设,加快推进信息技术与档案工作深度融合。采用大数据、智慧管理、智能楼宇管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平。”2021年颁布的《“十四五”全国档案事业发展规划》指出,“十四五”期间,“加强国家档案数字资源规划管理,逐步建立以档案数字资源为主导的档案资源体系。”“加快推进对重要档案数字化成果进行文字识别和语音识别。”

通过对以上三个纲要关于档案资源数字化的解析,不难发现,我国的档案数字化目标是渐近的、层层深入的。第一阶段,将档案信息化纳入发展进程;第二阶段,“十三五”期间,推进信息技术与档案工作深度融合。第三阶段,“十四五”期间,加快档案资源数字转型。加强国家档案数字资源规划管理,逐步建立以档案数字资源为主导的档案资源体系。大力推进“增量电子化”,促进各类电子文件应归尽归,电子档案应收尽收,市地级以上国家档案馆全部具备电子档案接收能力,电子档案在档案资源体系中占比明显提升[1]。继续做好“存量数字化”,加快推进对重要档案数字化成果进行文字识别和语音识别。同时,提出了“推进档案信息资源共享平台建设。各省(自治区、直辖市)综合档案馆加强本区域档案信息资源共享平台建设,实现本区域各级综合档案馆互联互通,推动共享平台向机关等单位延伸,促进档案信息资源馆际、馆室共建互通,推进档案信息资源跨层级跨部门共享利用。加大跨区域档案信息资源共享平台建设力度,扩大“一网查档、异地出证”惠民服务覆盖面的发展目标。医疗档案是我国档案资源体系的重要组成部分,其数据化程度的高低,直接影响我国医疗技术发展的快慢,直接关系我国人民健康水平提高的快慢。在5G时代的伟大进程中,如何从我国医疗档案管理的实际出发,建立具有真正意义上的数据化、信息化、语义化结构管理平台,实现医疗档案利用的智慧化,则是本文研究的核心所在[2]。

二、我国医疗档案资源信息化的发展现状

目前,我国的档案信息化是建立在冯慧玲、张辑哲关于“档案信息化建设是指,运用信息技术提高档案工作现代化水平,重新思考档案管理的新情况、新原则与新理论,确立网络环境中档案管理与档案服务的基本框架与基本方法,实现档案信息的社会化服务”基础上的。在当时的历史条件下,是符合实际具有先进意义的。但是历经近20年的发展,信息技术实现了历史性突破,我国的档案信息化也进入智能化发展阶段。但是从目前全国的档案信息化情况看,均处在数字化发展阶段,即采用数据库、数据压缩、高速扫描等技术,将纸质文件、声像文件等形成图像文件,建立数字档案图形数据库,以实现文件调阅的计算机化。

在技术层面,我国档案系统主要采用的是数字扫描和全文著录技术,只是实现了档案存储形态由纸质存储向电子化存储形态的变革,建立起了基于图片模式的数字化数据库,形成了目录关联的数字检索系统,实现了已扫描入库档案的电子化利用。这一变革是革命性的,它改变了千百年来以纸质档案实现对外服务的局面,使得档案管理和利用步入了信息化的初级轨道。但是,就目前我国的档案资源体系建设情况与智慧城市、智慧社会、智慧地球建设的目标相距甚远,与我国《“十四五”数字经济发展规划》关于“深化政务数据跨层级、跨地域、跨部门有序共享。建立健全国家公共数据资源体系,统筹公共数据资源开发利用,推动基础公共数据安全有序开放,构建统一的国家公共数据开放平台和开发利用端口,提升公共数据开放水平,释放数据红利”的远景目标还有很大差距。由此可见,在大数据时代,5G落地和《“十四五”全国档案事业发展规划》全面实施的大背景下,建设智慧社会、智慧城市,实现智慧服务,大力推进的智慧医疗档案智慧服务将成为历史的必然[3]。

我国的医疗档案管理仍处在电子化与数字化管理的中间阶段,不具备智慧服务的基本条件。在这种形势下,如何加快医疗档案的数字化发展进程,实现医疗档案数字化、数据化、语义化,进而实现医疗档案的智慧服务。进而达到“我想利用档案,不用我去找,自动地就能推送过来,这就需要做一件更重要、工作量也更大,意义和价值更大的事情,那就是把档案数据化”。在如此的大背景下,采用哪些信息技术来实现档案资源数据化呢?一是采用OCR光学识别技术、二是采用档案语义组织技术、三是采用挖掘技术[4]。

三、医疗档案数据化实现路径

1.光学符号识别——医疗档案数据化的首选技术

随着5G时代的到来,智慧中国建设战略的实施,智慧城市走向互联化步伐的加快,智慧医疗、智慧档案的呼声日益高涨。由此催生了采用新一代信息技术,依托信息技术赋能智慧城市建设,成为时代发展新趋势。根据我国数字经济发展战略规划的要求,我国的医疗档案资源就是要实现从传统的纸质业态向数字业态,乃至数据态的转变,进而为智慧社区和智慧服务生活圈建设提供专业化、市场化档案资源,提高智能化服务能力。在国家档案局举办的区块链技术视频专题讲座上,国家档案局局长陆国强指出:“我们要进一步提高认识,增强工作的责任感和紧迫感,积极运用好新一代信息技术,加快实现档案信息化战略转型。紧密围绕贯彻国家信息化发展规划、大数据战略、数字中国战略、新基建部署,加强档案领域战略规划对接,抓住机遇推动新一代信息技术在档案管理中的应用,在‘十四五’时期实现以信息化为核心的档案管理现代化必须取得突破。”作为医疗档案资源体系建设,如何实现战略转型,那就是要从医疗档案的数据化做起,进而实现医疗档案资源从粗粒度向细粒度的初步转化,进而建立全新的数据化档案数据服务模式[5]。

档案数据化则将“0”“1”等离散的比特(bits)进行再组织,形成结构化、标准化、开放性、可通用的数据对象,并基于数据对象的不同形态与类别开展相应的机器操作活动[4]。也就是说,通过光学符号识别技术(OCR)对已经实现数字化的图形化著录档案进行基于全新著录模式的可识别的文字转化,最终达到从图形化到电子化乃至文本化的转变,使之成为电脑可以识别的文字本体,其核心是建立可以列标计算的数据,但仍做不到机器可理解。目前,我国个别的省级医院的部分医疗存量档案开展了光学符号识别,进行了相应的著录工作,形成了相当数量的可通用的数据对象,建立起了能够实现某一病种病历的个体档案的数字化馆内查询。这种数据模式的建立,只是档案智能服务数据体系建设的第一步,使档案数据得以被机器可理解、可操作,使电脑的网络的自动关联、利用成为可能[5]。

2.语义关联技术——实现档案数据化的核心环节

“档案语义组织是借鉴语义网中信息资源组织的基本原理,对档案的内容语义、背景语义、结构语义进行向内组织和向外组织的过程,是推进档案数据化的核心环节。”在谈及语义关联的实现步骤前,我们有必要简单介绍一下语义关联技术的内涵。语义关联技术是基于Web3.0的主要技术应用,是一种在不同应用、企业、社区之间共享和重用数据的通用框架。档案语义组织是借鉴语义网中信息资源组织的基本原理,对档案的内容语义、背景语义、结构语义进行向内组织和向外组织的过程,是推进档案数据化的核心环节。通过语义标注和元数据语义增强,档案的内容、背景与结构得以转化为隐藏语义的结构化数据,通过明确化的概念模型建立起这些数据之间的语义关系,再通过机器可理解的形式化语言来表达这些语义和语义关系,从而构建起一个富含结构、语义和关联的机器可理解的数据网络[6]。

基于语义网和语义关联技术原理,在医疗档案智慧服务数据体系建设中,其核心是通过概念模型的建立,实现医疗档案的全面语义关联。根据医疗档案的异构化特征,一是建立同一病种个体医疗档案之间的关联关系,即以病种名称为统领,建立统一的同一性关联关系,也就是说,将具有相同属性特征的医疗数字档案资源聚合在一起,形成具有特定症候属性的医疗档案聚合单元;二是建立隶属性关联关系。即以医疗档案的形成者为核心,以病种为主轴,以医疗实施者、治疗方案、治疗效果、康复情况、病人存活周期等建立起一整套结构化档案数据关联;三是以国家病种分类表为核心,建立医疗档案数据管理系统,将某医院对某一病种的专业治疗能力,尤其是对特种病的治疗技术与力量等数据进行关联。例如,肺移植手术虽然每年全国仅有200多例,因其数量少,难度大,技术要求高,目前全国只有36家具备肺移植手术资质。在为肺移植医疗档案建立语义关联时,就要以具有资质的医院为关联要素和隶属关系要素进行关联,然后再将档案的其他要素相互关联,形成一个要素聚合,为社会利用提供全方位的信息源;四是建立相似性关联。相似性关联是指,数字医疗档案之间具有某种内容、性征、症候、词汇、语义相近或相同的互为表里的关系。在这一关联数据结构聚合时,要求以医疗档案中的词语表述为核心进行细粒度的数据拆分,在相同词汇、语句、字段间建立关联关系。例如,尿毒症医疗档案中的酸中毒、特殊性呼吸、患者呼出的气体有尿味、肺水肿、纤维素性胸膜炎或肺钙化等病变症状进行数据关联,建立尿毒症状聚合数据库,将治疗方法、方案、疗效、康复周期进行数据关联,为医生的诊断治疗提供借鉴[7]。

3.挖掘技术——实现数据化服务的有效途径

档案数据化的目的是将粗粒度数据转为细粒度数据,形成数据聚合资源,进而实现对档案数据资源的深度挖掘与开发奠定资源性、无差异化、向全社会开放的基础数据,就是在云计算的作用下,将数据挖掘管道中各个节点连接起来,形成完整的数据挖掘体系,进而实现挖掘的科学化、运行的有序化。“通过挖掘技术,能够挖掘出档案的潜在价值和潜在用户,挖掘出用户的潜在需求,从而大大提高档案的价值。”数据挖掘技术是指借助一定的手段对已知数据加以分析、整合,从而获取到其内在的信息的一种技术。数据挖掘技术的实质是一种检索技术,通过大数据算法、语义组织、语义关联实现对档案数据的查全率和查准率。在对医疗档案的挖掘技术中,主要是将Web挖掘技术和Web3.0语义网技术有机结合,通过语义关联对医疗档案展开内容挖掘、结构分词挖掘、记录挖掘、文本挖掘、分词挖掘和特征挖掘,进而将数据化医疗档案变成可被电脑全文检索、任意组合、全部关联、重新生成的数据,并对数据进行关联分析、聚类分析,阐明疾病发生规律,使大数据算法成为提炼知识、总结规律,成为赋予人类智慧医疗服务的利器[8]。

结语

随着大数据时代的到来,医疗档案智慧服务与智慧中国建设同步展开,但是囿于信息技术应用途径的制约,医疗档案智慧服务的技术发展路径成为制约其发展瓶颈。本文从医疗档案智慧服务入手,阐述了引入光学符号识别技术、语义关联技术、挖掘技术最终实现医疗档案数据化的发展路径,意在通过医疗档案的全面数据化,实现医疗档案从粗粒度管理向细粒度管理的过渡,为实现医疗档案数字化服务、智慧服务提供借鉴[9-12]。

猜你喜欢
关联语义数字化
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
家纺业亟待数字化赋能
语言与语义
高中数学“一对一”数字化学习实践探索
“一带一路”递进,关联民生更紧
高中数学“一对一”数字化学习实践探索
奇趣搭配
智趣
数字化制胜
“上”与“下”语义的不对称性及其认知阐释