搜索引擎技术在急诊知识库中的研究与应用

2022-11-01 07:06曾小琴
现代医药卫生 2022年20期
关键词:知识库分词急诊科

曾 伟,曾小琴,冉 露,谭 丹

(陆军军医大学第二附属医院急诊医学科,重庆 400037)

21世纪的成功越来越依赖于个人或单位所拥有知识的质量,利用所拥有的知识创造竞争优势和持续增长竞争优势始终是一个挑战。在组织中建构一个量化与质化的知识系统,让组织中的资讯与知识通过智能系统快速获得、实时分享、持续记录与创造、不断整合与存取、达到更新和创新等过程,并不断地回馈到知识系统内,累积个人与组织的知识,形成永不间断的组织智慧的循环。在组织中成为管理与应用的智慧资本,有助于指导员工做出正确的决策,以适应市场的变迁。知识管理在中国的应用也从研究院所等知识密集型企业,逐步扩展到消费品、房地产、制造业、医疗卫生等各行业。

在长期的医疗实践过程中,医院利用先进的医疗理论和技术积累了丰富的诊疗方案、诊疗技术、护理方法等,创造了一系列的基础研究成果和疾病诊疗原则及标准。对这些知识产品进行有效管理、交流和互动,可不断缩短各层次医生诊疗水平的差距。同时,各类型科研成果、医疗和教学资源、个人数据如期刊论文、会议论文、专著教材,相关证书的电子化长期保存,并可进行快速、精准地检索,是一件有意义、有价值,且可不断丰富和完善的工作[1]。

通过急诊知识库的建设和应用,可对原有的信息和知识进行收集和整理,根据对它们的应用领域特征、背景特征、使用特征、属性特征等进行识别和分类,可实现信息和知识有序化,加快知识和信息的流动并有利于知识共享和交流,有利于实现急诊科的协同与沟通,构建知识图谱进而为学科竞争力提供有力的数据基础。

1 整体设计

1.1系统架构 (1)在急诊建立数据库服务器。(2)建立工作环境下的局域网。(3)集成医院现有门户,建立客户端,实现单点登录访问。(4)系统可通过不同类型终端进行检索,对待检索内容进行智能分词,基于ElasticSearch实现文档检索。见图1。

图1 基于Elastic Search文档检索

1.2核心技术

1.2.1数据库的建立 根据科室资料的不同,进行分层分类管理,同时可作为人员档案管理和实现信息化条件下对员工进行科学考评。建立长期运行的机制并不断积累工作经验及管理经验,完善数据库相关数据和制度。(1)数据库分类文件。规范类包括岗位职责、医院和科室制度、管理规范等;文献类包括诊疗指南、专家共识、国家标准或行业标准等;书籍类包括内、外、急诊、重症等相关教科书。(2)急诊常规文档。包括员工基本信息、职级层级情况或年度考评结果、科研成果等,以及理论及技能教学视频等,对内部文档进行整合分类,分析人员工作状态、职级成长等情况。(3)科学研究与经验总结。在急诊工作中,不断收集经典或典型病例收集,将病历资料,照片等整理后上传数据库,便于经验总结和回顾性分析,为以后的科学研究提供数据支撑。(4)数据库管理为实现数据库的长期规范管理,设置由1~2名医生或护士担任专职管理员,科室1~2名领导作为数据管理责任人,定期对数据库进行维护,进行数据资料的整理和上传,只允许在线阅览,禁止一般人员下载和外传。

1.2.2智能分词 对待检索内容实现精准检索的前提在于对待检索内容实现语义识别,因此对一串字符能识别出不同的词就显得尤为重要,如“急诊科人工智能”拆分为急诊科、人工、智能、人工智能、急诊科人工、急诊科人工智能等,检索结果包含“急诊科人工智能”或同时包含“急诊科”“人工智能”,这是最匹配结果;以往的分词方法,无论是基于规则的还是基于统计,一般都依赖于一个事先编制的词表。自动分词过程就是通过查词表来做出词语切分的决策。与此相反,由字极词方法把分词过程视为字的分类问题。即认为每个字在构造一个特定的词语时都占据着一个确定的构词位置[2](即词位)。

由字构词分词技术的优势在于其能够平衡地看待词表词和未登录词的识别问题,在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的分类结果,最后根据语位定义,直接获得最终的分词结果。封闭测试结果比较见表1。

表1 backoff 2006语料上的封闭测试结果比较

1.2.3全文检索 对非结构化文档建立索引,再对索引进行搜索的过程就是全文检索(full-text search)。在本系统中,采用了开源的搜索引擎Elastic Search 作为基础搜索引擎在本地部署,并进行了一定的完善。Elastic Search基于Lucene构建,且Lucene是Apache软件基金会众多项目之一[3]。Elastic Search是一个实时性全文搜索引擎,在数据存储方面,采用“key-value”键值对的存储方式,同时其restful特性支持通过http的方式进行信息的检索和返回,其安装配置、使用都十分方便[4],具有开源、分布式方便、扩展方便等属性[5]。见图2。

图2 非机构化全文索引

1.2.4在线预览 对检索出来的内容可通过PC端、移动端等多种不同的设备直接点开预览是知识库系统较为重要的功能之一,将文件下载到本地,然后再打开查看的传统方式,已经不能满足办公节奏日益加快的用户需求[6]。本系统采用金山的在线预览实现无插件式的文件在线预览。实现在线图书馆的功能,不断与急救临床工作相结合,可在线辅导教学,快速指导临床工作,解决急救工作中的关键点和疑难问题[7-8]。

2 应用结果

本系统于2020年初正式上线运行,已实现了本院急诊科全科内员工档案、论文、研究资料、学习资料等的管理,最终建设成急诊医学科个性化、一体化、智能化的数字图书馆平台,助力急诊学科发展。数据库建成运行1年以来,注册用户数量185人,数据库文章发布232篇,根据发布内容进行统计,各类别总阅读量21 569人次,平均阅读量93人次,最大阅读量172人次;总点赞数8 354次,平均点赞数36次,最大点赞数148次。为了解知识库运行状况,对科室工作人员发放问卷进行调查。问卷共5个条目,分别针对知识库的实用性、反应及时性、急诊知识的全面度、稳定性进行测评。

科室工作医疗、护理、医技、科研专职人员共97人,发放问卷97份,收回97份,调查结果显示,知识库实用性满意度为73.2%,及时性满意度为74.4%,急诊知识全面度满意度为75.6%,系统文档性满意度为71.8%,5个条目满意度均在70%以上。

3 小 结

基于Elastic Search搜索引擎实现的非结构化全文检索,可以部署在工作局域网络环境中,用于搭建公开的/私有的文档知识库系统,用于管理TXT、PDF、Office、WPS等常用的档案文件数据。利用搜索引擎技术,实现对海量文档内容的快速检索,可更好地指导临床工作,将精准的医疗措施和护理技术落实到患者的救治过程中,最终提高救治效率。但目前该系统运行时间较短,整合各种资源不够全面,从系统采集的数据量不够全面,相关研究有待进一步验证并不断探索。

猜你喜欢
知识库分词急诊科
急诊科护士分层培训的实践与探索
分析急诊科脑出血昏迷患者抢救治疗的临床效果
分词在英语教学中的妙用
护理风险管理在急诊科护理管理中的应用
结巴分词在词云中的应用
结巴分词在词云中的应用
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
基于Lucene搜索引擎的研究
位置与方向测试题
聚焦现在完成进行时