体检报告数字化智能分析

2023-01-16 10:14李慧敏张宏杰刘复昌
健康研究 2022年6期
关键词:分词界面报告

李慧敏,张宏杰,刘复昌

(1.浙江省立同德医院 检验科,浙江 杭州 310012;2.杭州图检智能科技有限公司,浙江 杭州 311100;3.杭州师范大学 信息科学与技术学院,浙江 杭州 311121)

随着生活水平的不断提高和人们健康意识的不断增强,越来越多的人开始进行健康体检。健康体检是了解身体状况、预防疾病的一种有效方法。但体检报告中包含大量医学词汇和指标数据,非医学人员无法全面直观地了解报告中包含的信息,也无法快速得知体检结果与历年体检结果的差异和快速获取专业的医疗建议,导致不能全面发挥健康体检的价值。据统计,2018年以来我国大城市工薪阶层中大概超过70%的人身体处于亚健康状态[1]。同时,我国也面临着医疗资源分配不均等现状[2]。

人工智能(artificial intelligence,AI)技术提供数据分析技术指标,具有弥补医疗资源短缺、协助医生诊断等优势[3],AI技术辅助医疗已是大势所趋。为更好地发挥健康体检的作用和更好地改善人们的健康,将健康体检与人工智能相结合,设计一款基于深度学习方法的体检报告智能交互系统,帮助体检者更便捷直观地了解体检结果、快速获取专业的健康指导建议,即通过对人们的亚健康进行干预从而达到改善人们健康目的的体检报告数字化智能分析系统,是当前比较有价值的一项研究和应用。

1 方法

1.1 体检报告文本分割 U-Net(U型网络)以其优秀的分割效果常用于医疗影像图像分割[4-6]。本系统借助U-Net网络进行体检报告文字分割。本研究的数据集是从医院获取的1 000份体检报告,通过从扫描的图片中选择1 500张包含要识别重要文字的图片作为训练数据集,使用Labelme软件标记mask的形式对每行文字进行标记用于后续模型训练。由于图像分割是像素级操作,特别是文本区域分割,在文本间距较近的情况下容易出现错误。Yu等[7]提出一种新的卷积方式——空洞卷积[8],空洞卷积主要作用是减小模型计算量提高网络的性能。本文改进的U-Net 网络将第一层中最后一个卷积操作替换成空洞值为1的空洞卷积。

1.2 体检报告文本识别

1.2.1 生成训练数据集(train datasets,TD) (1)语料库获取。体检报告文本具有丰富的语义信息,且含有大量专业的医学词汇,无法通过随机组合汉字的方式生成。所以通过目前合作者提供的1 500份体检报告数据,对数据进行清洗整理,剔除无用重复信息,组成需要的语料库共计119万字符。(2)选取特定长度字符。语料库中句子长度不一,生成训练集时需要对每句进行分割合并,得到固定长度文本,每张图像固定为10个字符。(3)选择字体和字号。由于受到用户手机镜头到报告的距离的影响,字号一般在18~24间变化。针对汉字和英文字符字体选择等线字体。(4)添加噪声与模糊处理。在用手机拍照生成图像的时候,通过随机添加噪声和模糊滤波,来模拟用户真实的拍照效果。生成得到30万张体检报告训练数据集。

1.2.2 制作测试数据集(test datasets,TS) 首先将体检报告用A4纸打印,然后使用手机拍摄30张体检报告图像,通过手工裁剪出含有体检报告文本的区域300 张图片,总计3 752个字符,作为测试例,称为TS。本研究采用动态时间调整(dynamic time warping,DTW)的方法计算字符提取准确率。假设识别一张包含体检报告文字的图片,它的标签为Q=“请注意口腔卫生”,而识别结果为C=“请注意口空卫”,虚线表示经过的路径,矩阵中的数字则为到达该点累计的距离。图片准确率为(7-3)/7=57.1%。对比百度光学字符识别(optical character recognition,OCR)、Tesseract以及两层、三层、四层LSTM的CRNN网络结果,如表1所示。体检报告文本比较简单,故而各个模型得到的准确率都较高。通过实验得知,我们的方法(三层LSTM的CRNN)文字识别网络具有较高的准确率和效率。

表1 模型识别指标对比

1.3 体检报告智能交互系统 基于前面方法构建基于深度学习体检报告智能交互系统,结合Jieba技术[9]对识别到的文本进行分词和关键词匹配,再在APP界面上进行展示与交互。点击APP终端词云可以获取专业的健康建议。系统记录体检报告图片,形成一个长期基于用户体检报告的健康建议报告,让体检者能够对自身的健康有一个长期的监控。该APP的系统流程如图1所示。

图1 APP系统流程图

系统实现。APP采用联合应用(unite-application,Uni-app)框架,Vue是一个跨平台的前端应用框架,开发者只需一次开发,便能得到发布到苹果手机操作系统(input output system, IOS)、Android等平台的软件。所以前端采用Vue+Uni-app+Echarts实现,Echarts主要用来显示体检报告关键词提取结果以及完成交互效果。服务器端采用Springboot框架,数据库使用结构化数据库语言(structure quest language,MySQL)。体检者上传图片到服务器,服务器完成关键词提取并存入数据库中供历史查询,同时传给前端进行词云展示。

体检报告关键词提取分两步骤:文本分词与词匹配。文本分词,指将字符串按照特定的规则分割成词的集合。中文分词词语之间没有英文那样的分隔符,且非常复杂,需要消除歧义,识别未登录词。本文使用开源Jieba分词工具进行分词。医学名词专业性强,往往是由多个简单词组成的组合词,比如左侧脑供血不足,此类词语归类于未登录词。Jieba对于未登录词采用了隐马尔可夫模型[10](hidden Markov models,HMM),模型使用了Viterbi[11]算法。Jieba分词模式分为全模式、精确模式和搜索引擎模式三种。全模式尽可能地把所有词都切分出来;精确模式试图进行准确地切分词;搜索引擎模式在精确模式基础上对较长的词语进一步切割。Jieba分词还支持自定义词典,需要新建基于前缀词典dict.txt,在切分句子时把不能切分的词语进行保留,该词典中的词语便是未登录词。在本系统中,由专业的医生总结归纳了163个医学词汇记录在前缀词典 dict.txt 中,在分词的时候保证不被切分。

1.4 关键词健康数据库建立 针对体检报告上关键词的专业性建议以及对应的症状和描述,主要来自于对第九版内科学、外科学、诊断学等人卫版医学教材与网络公开医疗资源的整理,已获得100个关键词的医疗建议,大致涵盖了体检常见疾病。

2 系统效果

2.1 登录界面 登录界面包括用户名、密码两个输入框。登录界面如图2所示。

图2 登录界面

2.2 交互界面

2.2.1 关键词展示 体检者将体检报告图片上传到服务器,经一系列算法处理后可得到关键词。前端可视化将关键词展示到交互界面上。交互界面如图3所示,点击“心律失常”关键词,APP会使用灰底白字将针对的专业建议显示出来。

图3 交互界面

2.2.2 历史体检报告查询 历史查询界面可以查询体检者过往的所有体检报告关键词提取记录。图4展示了从数据库中检索某一体检者多年提交报告提取关键词的结果,并用折线图的形式展示多次体检之间的差异,给予体检者近年来身体状态最直观的动态变化。同时,点击相应的点可以获取对于上一次体检报告新增的关键词,图4中可见,该体检者在2019年12月体检新增“肥胖”关键词,系统会提示该体检者需要注意合理饮食、减少摄入高糖高脂类食物、加强体育锻炼等。

图4 个人体检报告关键词历史变化趋势

2.2.3 医疗建议 系统测试了200份体检报告,包含1 268个关键词,系统提取到了1 192个,关键词提取准确率为94%,准确度高,交互系统结果可靠。体检报告的关键词词云效果如图5所示,常见关键词有“肥胖、结节、血脂高”等,点击每个关键词,智能交互系统会给出相应的专业医疗建议。下面是系统对体检常见的三个疾病给出的医疗建议的文字描述细节。

图5 界面识别关键词显示效果

“血糖升高”:在排除应激、药物影响等短暂血糖波动的情况下,当血糖大于7.0 mmol/L时,请及时到医院内分泌科就医;当空腹血糖为6.1~7.0 mmol/L时,建议使用粗粮和蔬菜替代高糖、高脂类食物,加强体育锻炼,肥胖者必须减重、戒烟戒酒、定期随访复查血糖,若血糖没有改善请及时到医院内分泌科就诊。

“咽炎”:若有咽部干灼、疼痛或者声音嘶哑的急性咽炎症状时,请及时到医院耳鼻喉科就诊;若仅表现为长期的咽部不适,干呕等慢性咽炎症状时,建议多喝水、注意口腔卫生、避免辛辣食物、避免饮食过多和饭后就躺的习惯,必要时可使用咽喉含片。

“肾结石”:若有持续的腰背部等肾区疼痛或者血尿,请及时到医院泌尿外科就医;若体检者无其他不适症状,建议多饮水、减少碳酸饮料的摄入、避免久坐等。

3 总结与展望

随着我国人口老龄化进展以及亚健康和慢性病的增多,人们对健康的需求日益增加。自从2017年国家提出将人工智能应用到医疗行业以来,智能化医疗软件和设备的研发成为医疗行业的一大热点。

目前,人工智能在医学影像的识别[12]、疾病的辅助诊断[13]、药物的研发[14]等方面有了越来越多的研究与应用,但是人工智能在健康体检方面的应用较少。目前大多数体检者是根据体检报告单的结果主动去医疗APP上查找某一指标的意义或者某一疾病的病因及医疗建议,且要主动去查找历年体检报告,自行比较后,才会发现每年体检结果的变化,比较耗时耗力。顾东兴等[15]设计的一款微信小程序,虽然将人工智能应用到体检,简化了体检流程,开展了健康评估、疾病动态监测等服务,但该程序目前只适用于上海市体检者,其他地区尚未开展。

本研究设计的一款体检报告智能交互系统,可以帮助体检者更直观地解读体检报告,自动展示个人历年体检结果新出现的不同关键词,并根据体检所反映的健康问题直接快速提供专业合理的建议,不用体检者自行发现与查找,非常高效且简便。与顾东兴等设计的微信小程序相比,无论体检者在哪个城市,是否是在同一家医院体检,只要体检者输入体检报告照片进入该交互系统,该系统就可以保存记录,并自行比较历年体检变化和给出相应医疗建议及需要就诊时给出就诊科室建议等。

对于高血压、糖尿病等慢性病,要长期监测血压、血糖等指标的动态变化。目前该系统尚不能对同一指标数据进行跟踪分析其历年变化趋势。同时,医疗大数据具有一定隐私性、安全性等。我们接下来将从以下方面对该系统进行完善:①通过对体检者体检报告各项指标的历年数据进行大数据分析,挖掘出各项指标变化与疾病之间更多的潜在联系,给体检者提供更多更全面的医疗建议;②进一步完善健康数据库,扩充更多类型的疾病关键词的专业建议;③对该系统进行加密,保护体检者隐私,确保数据安全。

综上,该交互系统使体检者不仅可以了解自身健康状况、了解某一疾病的动态变化,还可以获得科学的健康改进建议,做到疾病早发现、早干预、早治疗,努力改善体检者的身体健康,使体检更有实际意义。

猜你喜欢
分词界面报告
分词在英语教学中的妙用
国企党委前置研究的“四个界面”
一种可用于潮湿界面碳纤维加固配套用底胶的研究
结巴分词在词云中的应用
结巴分词在词云中的应用
基于FANUC PICTURE的虚拟轴坐标显示界面开发方法研究
电子显微打开材料界面世界之门
报告
报告
报告