海量文本疾病主题自动提取研究

2019-08-26 01:35王明令纪怀猛吴春琼
数字技术与应用 2019年5期
关键词:项集词频分词

王明令 纪怀猛 吴春琼

摘要:从大量中文病历文献中提取出重要的疾病主题,对医疗工作者学习和科研是非常重要的。为了更方便的提取出主题,本文提出结合中文分词技术与FP-Growth算法的一种方法模型。该模型可以在大量中文病历文献中,首先将病历文献划分为若干关键词组成的项目集文档,再使用FP-Growth算法,计算关键词的频繁项集,并生成病理字典,最后提取出文本的疾病主题。

关键词:文本挖掘;中文病历;主题提取;FP-Growth

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2019)05-0074-02

0 引言

在医学领域中,通过查阅病人的病历,医疗工作者可以获取到他们所需的信息,但大部分病历都是以较为零散的自然语言来书写。医务工作者不得不采取人工阅读及手工摘抄的方式查阅病历。利用人工智能技术结合自然语言来对病历文献进行检索和提取,是疾病诊疗研究的的一个重要的研究方向。

1 病历书写现状与文本提取难点

现有医疗文本挖掘研究主要采用国外的医疗数据库,如学者傅博泉[1]采用生物信息学资源库NCBI下的子数据库PubMed和基因-疾病关联信息数据库OMIM等进行文本挖掘,又如学者陆维嘉[2]采用大型生物医学语料库MEDLINE进行文本挖掘等。字母文字更适合文本挖掘,如学者余传明[3]等所研究的多任务深度学习模型就对英文语种有更好的识别。

许多国内学者已对于文本文献的主题提取进行了深入的研究。如学者焦红[4]等以图书情报(ISLS)领域的粗糙集研究方向为例识别其核心文献,同时基于向量空间模型对核心文献进行补充,并提取主题。学者吕皓[5]等利用隐含狄利克雷分布(LDA)对中国工程科技2035的11个不同领域进行話题分析,将对应的技术项文本投影到二维平面上,实现技术预见下技术项目的话题分布挖掘。学者段玉婷[6]利用两家不同的医学专业期刊在2012-2017年载文为数据来源,提取主题频繁项,发现医学信息的研究热点。

中文病历是一种篇幅较短的文本,而且其词频统计较为离散,常规的词频统计方法不足以提取并量化这些词。采用关联规则算法处理未知的文本数据时,能很好地匹配文本表述与语义之间的正确关联,尤其是关联规则频繁项集的算法在并行处理大数据集时分析能力较好,而只遍历数据集2遍的FP-Growth算法可以规避Apriori算法生成过多的候选集的缺点,提高算法的运算效率。

2 疾病主题提取

2.1 文本提取框架

大部分中文病历,没有明显的标题、关键字、摘要等,其主要包括:主诉、既往病史、查体、检查结果、综上的诊断等部分。如表1病历文本所示。

病历文本符合一定的规律。例句,对一次中风主诉的病历描述文本为:左侧肢体无力两天突发。

根据中科院计算所的ICTCLAS(汉语分词系统,Institute of Computing Technology Chinese Lexical Analysis System)对例句进行分词处理,得到:左侧/肢体/无力/两天/突发。

例句的分词处理结果与结构如表2所示。

经由分词处理后的文本,提炼出若干关键词。其中与病理体征相关的是位置、器官的描述文本;与诊断结果相关的是器官、症状的描述文本;程度相关的是时间、发展的快慢的描述文本。

2.2 文本提取模型

病历文本经由分词划分之后,形成由若干关键词集合。经过建立疾病名称字典、关键词匹配、累计关键词频繁项、病理字典构建等几个过程进行文本挖掘和自动提取,如图1所示。

(1)标准疾病名称字典。通过增加疾病名称别名字段,扩大关键词搜索与匹配的范围。字典库应包含一级疾病类目、疾病代码、疾病名称、别名、二级疾病名称等条目字段。(2)建立关键词集合。分词后形成离散关键词集合。部分中文停用词,如“了”、“的”、“已”、“与”等,应从集合中剔除。(3)关键词词频累计。经由分词与剔除处理之后,进行键词词频处理。关键词根据其特点,可以分为医学性名词、描述性名词、数值参数、病理描述性形容词等。(4)病理字典构建。根据关键词集合和词频,构建出疾病病理字典。(5)疾病主题提取。依据关键词频繁项的关联规则分析,在海量文本中使用FP-Growth算法自动提取出疾病的主题。

3 FP-Growth关联规则的主题提取过程

FP-Growth是对频繁项集的挖掘来产生候选项集,经过构建FP-tree、从FP-tree中挖掘频繁项集两个过程。疾病主题的自动提取过程如图2所示。

在数据预处理过程中,有些数值化参数——如“血糖达20”等,FP-Growth算法对数值化的参数无法进行频繁项扫描。因此在对这些数值化的参数,本文采用Spss modeler的“离散化”节点,进行区间划分,完成数据的离散化。

FP-Growth算法在构建FP-tree时采用深度优先的处理,递归地进行频繁项集挖掘。通常分4步:

(1)扫描数据集。扫描数据集,列出所有频繁项大于1的项目集。(2)项目集频数分析。根据项目出现的频率,定义最小支持度,由大到小对数据进行降序排序。删除出现的次数少于最小支持度的、不重要的项目。(3)二次扫描。删除不满足最小支持度的项目后,根据项目出现的频率,再次由大到小对数据进行降序排序。(4)建立FP-tree。对排序后的数据从上往下,依次添加构造FP-tree,递归调用FP-tree树结构,继续删除小于最小支持度的项目,直到生成一条单一路径。在算法的过程中,不需生成候选项集。

4 仿真实验分析

本文的研究所使用的数据来自福州某医院神经内科的200份中文病历文本,样本病历符合中文病历书写的一般主体、内容和风格。通过分词处理后的病历文本,顺利地形成了关键词的集合,运用FP-Growth算法对其进行疾病主题提取的效果较好。提取结果经由医生人工检测,证明有较高的准确性。

5 结语

在医疗事业的开展过程中,产生了大量的病历文本数据。这些病历文本大多采用自然语言书写,数量庞大,没有标准化的数据结构,不利于机器学习对其进行文本挖掘。本文提出结合分词技术产生病历文本关键词集合,再使用关联规则的FP-Growth算法进行疾病主题自动提取的方法模型。实验结果证明该模型有一定的效率与正确性。实验的不足在于病历数据的样本有限,需要进一步扩大病例数据库。另外,后续对病历文本进行基因-疾病数据挖掘时,FP-Growth算法必然会显示出FP-tree构建过大的缺点,这是需要进一步改进的问题。

参考文献

[1] 傅博泉.基于文本挖掘的基因—疾病关联关系研究[D].华南理工大学,2016.

[2] 陆维嘉.关联规则挖掘结合PSO的基因-疾病关系自动提取方法[J].湘潭大学自然科学学报,2016,38(03):64-68.

[3] 余传明,李浩男,安璐.基于多任务深度学习的文本情感原因分析[J].广西师范大学学报(自然科学版),2019(01):50-61.

[4] 焦红,李秀霞.基于研究主题的学科领域知识演化路径识别——以图书情报领域粗糙集为例[J].情报理论与实践,2019(01):1-11.

[5] 吕皓,周晓纪.基于主题模型的技术预见文本分析[J].情报探索,2018(10):52-59.

[6] 段玉婷.基于聚类分析挖掘国内医学信息学研究热点[J].科技经济导刊,2018(03):34+32.

猜你喜欢
项集词频分词
基于词频分析法的社区公园归属感营建要素研究
分词在英语教学中的妙用
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
一种频繁核心项集的快速挖掘算法
论英语不定式和-ing分词的语义传承
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*