杨子良 赵自雄 张业武 马家奇
(中国疾病预防控制中心 北京 102206)
流行病学调查(以下简称流调)是用流行病学方法进行的调查研究,是传染病暴发中寻找传染源、追踪和判定密切接触者、分析传播特征与传播关系的重要手段[1]。现实工作中流调信息纷繁复杂且具有不确定性、主观性和缺少统一标准等特点。仅靠人工从海量非结构化流调信息中梳理出传播特征和传播关系费时、费力、时效性差。基于标签体系建立个案流行学画像,可在一定程度上解决流调信息无法直接通过计算机批量处理和分析的难点[2],具有重要现实意义。用户画像是在收集用户属性及行为信息基础上抽取用户信息全貌、形成数字化标签集以表征和预测用户的行为,是对真实用户的数字化建模[3]。标签是通过人为概括或定义以唯一性语义说明其对应实体的具体含义,无需文本分析等过多预处理便可为后续信息读取、计算、分析和可视化展示提供便利[4]。本研究将用户画像和标签理论与流调相关核心业务结合,以呼吸道传染病病例个案流调相关要素为研究对象构建个案流行病学标签体系,将零散、复杂的流调信息转换为形象、结构化、易懂的标签,为提取个案流行病学特征、建立个案流行病学画像提供模型基础。
以呼吸道传染病病例个案流调相关要素为研究对象。研究资料为肺鼠疫、严重急性呼吸综合征(Severe Acute Respiratory Syndrome,SARS)以及肺炭疽以及不明原因肺炎的病例个案流行病学调查表(以下简称流调表)。
使用指标标签化与活动要素模型从流调表中抽取标签。指标标签化是从数据指标出发,在保持指标含义不变的条件下,将指标转换为以短词语或短词组形式为主的精简标签[5]。活动3要素模型将活动看作由一系列事件构成,将事件概括为何人(Who)、何时(When)、何地(Where)3要素集合[6]。
根据流调表业务属性,采用等级列举式分类法构建1级和2级标签。等级列举式分类法是一种以知识分类为基础,依据概念划分与概括原理,将概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系的分类法。其特点是采用等级隶属方法规定类目间相互关系,通过全面列举表达一组完整的并列类目,以树型结构在类目表上将众多类目系统排列起来组成一个体系[7]。
在2级标签基础上采用分面组配式分类方法形成多个类目标签。分面组配式分类方法是将概括事物的主题概念分解为简单概念,组成“分面-亚面-类目”结构体系[8]。本研究应用分面组配式分类法中冒号分类法的5个基本范畴理论进行分面分析,从本体、空间、时间、动力、物质5个范畴[9],对2级标签的流调具体元素进行分面分析,见表1。
表1 冒号分类法的5个基本范畴
标签属性可以理解为针对标签进行的再标注,即标签的标签,主要包括标签类型、标签取值与标签组合规则等[10]。为便于理解和表达,本研究参照数据元属性相关理论定义标签属性。数据元属性包括数据名称、定义、数据类型表示格式以及数据元允许值等多个维度[11]。本研究采用多个维度混合定义标签属性,定义标签数据类型和标签表示格式。数据表示格式中,可枚举字符型参照流调表中指标选项进行定义,不可枚举字符型对标签的取值进行定义。
个案流行病学画像标签体系构建研究技术路线包括标签体系构建与示范场景应用研究两部分。首先分析流调表,从中抽取关键指标并进行标签化。通过等级列举式分类法构建1级和2级标签,利用分面组配式分类法构建类目标签并定义类目标签属性,形成个案流行病学标签体系。再通过个案流行病学画像、病例间相互关系及传染病传播链分析3个场景进行应用示范,见图1。
流调表集合个案调查对象基本信息、病例发现与就诊、暴露史与接触史、实验室检验等信息,可在一定程度上反映流调数据特征。通过归纳分析4种呼吸道传染病流调表的内容并统计其包含的流行病学要素,见表2。本研究重点关注呼吸道传染病早期暴发的流行病学调查,病例入院日期、出院日期、既往病史、转归及并发症等疾病临床发病过程暂不作为本次研究内容。因此将人口学特征、临床症状、临床体征、病原学检测、血清学检测、暴露史与轨迹史、疫苗接种史、病例发现8个流调要素纳入标签体系构建。
表2 流调要素分析
从流调要素中归纳提炼出关键指标,将指标统一归类、合并重复。该过程共提炼出37个关键指标,其中有无疫苗接种史、发病前是否去过外地以及可能感染来源3个指标表达复杂不宜直接拿来作为标签,因此标签化为短语形式的标签,见表3。流调表中轨迹史与暴露史部分的指标复杂且不具体,无法直接进行标签化。暴露史与轨迹史可看作随时间变化的事件集合,因此通过构建活动要素模型对其进行描述。传染病的传播依靠人-人或人-物-人之间的接触,因此人-物、人-人之间的关系是流调过程中重点关注的要素[12]。结合流调轨迹史与暴露史特征,本研究在3要素活动模型的基础上添加关系要素,提出流行病学4要素活动模型,用时间(When)、地点(Where)、对象(Item)、关系(Relationship)描述调查对象的暴露史与轨迹史。为使活动要素与流行病学标签体系相衔接,将流行病学4要素模型标签化为接触时间、接触地点、接触对象和与接触关系4个标签,其中接触对象包含接触的人、环境与物品。
表3 指标标签化结果
在指标标签化的基础上,根据《中华人民共和国卫生行业标准》中呼吸道传染病诊断依据,即传染病的诊断需要有确切的流行病学史、相应临床表现以及特异性实验室检查结果[13-15]。采用等级列举式分类法将个案流行病学调查活动列举为基本信息、临床症状与体征、实验室检测与流行病学史4个基本大类,作为1级标签。在基本大类基础上,按照其构成列举出8个基本类,作为2级标签,形成个案流行病学画像标签体系框架,见图2。
3.4.1 类目标签的分面分析 类目标签是在2级标签基础上采用分面组配式分类法分析形成的标签,表4为分面分析得到的35个类目标签,其中标*号的为按照5个基本范畴理论,结合具体业务得到的拓展标签,其余为在流调表的基础上进行分面分析得到的基础标签。
表4 类目标签分面分析结果
3.4.2 类目标签的属性定义 通过整理提炼各个类目标签的属性特征,对标签属性进行归类,得到类目标签属性定义的结果,见表5。
表5 个案流行病学画像类目标签属性定义
标签体系是通过对多种标签进行归类并对标签属性加以定义形成的。通过等级列举式分类法构建1级与2级标签,利用冒号分类法进行分面分析构建类目标签,并对标签体系每一层添加标识符定位标签位置(如患者信息可表示为1aP),形成个案流行病学画像标签体系,见图3。
通过自然语言处理等技术,从复杂流调信息中提取标签体系所需要信息要素形成数字化标签,刻画个案流行病学信息,通过画像可视化方式展示。此方式有别于传统意义上的文本描述,能够让研究者更加生动、直观、全面地了解该调查对象的流行病学特征。利用本研究构建的标签体系可对病例进行流行病学画像,见图4。
在构建个案画像的基础上,通过对两个病例暴露史及接触史中有联系的标签进行组合碰撞,可发掘其关联关系,提升分析效率。利用本研究构建的标签体系,对病例A和病例B进行流行病学画像,通过标签碰撞发掘出病例间关系,虚线框内为两病例共同标签交汇信息,见图5。
在发掘两病例间关系的基础上,可进一步拓展多个病例间的传播关系,辅助绘制传播链,为防控传染病和排查密切接触人群提供指导。对模拟的一起病例进行流行病学画像,通过寻找共同轨迹史中的类目标签建立关联关系,形成的传播链示意图,见图6。
本研究从流行病学调查信息的结构化处理出发,以呼吸道传染病病例个案调查表为研究对象,按照基于个案调查表中流调指标构建个案流行病学标签体系的技术路线,应用等级列举式分类法和分面组配式分类法构建形成了包括4个1级标签、8个2级标签和35个类目标签共47个标签的个案流行病学画像标签体系,其中通过流调表标签化37个,通过活动要素模型得到4个,通过分面分析拓展得到6个。3个示范场景应用表明,本研究构建的标签体系兼具稳定性和可扩展性,能够为非结构化流行病学调查信息的结构化处理提供动态的分级分类规范化标引,可用于个案流行病学画像、病例间传播及相互关系的信息关联匹配,为进一步构建流行病学知识图谱,实现基于大数据和人工智能技术的智能流调提供信息分级分类的基础。本研究构建的标签体系还存在一定不足。首先,由于无法获得完整、真实的流调数据,仅以个案调查表为研究对象,构建的标签体系还有待在实践中进一步验证。其次,该标签体系主要关注传染病感染及发现过程的关键指标,并未涉及既往史、并发症、毒株分型等现实流调过程中关注较少的标签,有待根据实际工作需要进一步扩展和丰富标签体系。