,,
大数据时代,过载的信息一方面给人们带来了更为广泛的数据来源,另一方面对信息的快速聚合和处理提出了更高的要求,即资源深度开发与广度关联。换言之,需要对信息进行更深层次的融合,根据目标进行耦合,推送智能聚合的结果。本文面向案例分析,根据资源深度开发与广度关联的需求,提出了一种基于数据关联的信息聚合模型,旨在不同类型信息间建立不同角度聚合关系并进一步形成耦合,并以实例说明该模型在医学信息决策辅助领域的应用场景。
信息聚合是指从不同的数据源汇集分析相关信息和解决这些信息在语义方面的异构性,并提供基于数据源之间关系、业务过程的聚合等功能[1-3]。目前,信息聚合模型在图书情报领域得到了广泛的应用,包括基于关联数据的图书馆信息聚合模型[4]、将知识聚合模型应用于数字图书馆的智能检索模型[5]、基于关联数据的数字图书馆资源聚合与服务研究[6]、基于耦合关系的学术信息资源深度耦合分析[7],基于共现与耦合的馆藏数字文献资源聚合4层模型[8]。以上研究对学术资源的聚合进行了深层分析,然而在实际决策支持应用系统中,除了学术资源之外,还存在领域统计数据、信息动态、案例等大量异构资源。因此需要建立一个统一的信息聚合模型,并将这些数据用于案例分析,为决策提供支持服务。
本文基于语义特征,建立了多个二元聚合关系,并进一步基于多个二元聚合关系建立了案例之间的耦合,以辅助决策制定。
参考面向政府决策的知识管理系统模型[9],本文结合领域知识建立了一个决策辅助知识管理系统(图1),并应用语义关联技术建立了一个信息聚合模型。考虑到政府决策人员在决策时的知识需求,本文选取了静态信息、动态信息和案例信息3类信息,其中静态信息包括政策法规、专家信息、领域统计数据、学术论文和研究报告,动态信息主要为行业动态等。
图1 面向决策支持的知识管理系统模型
在该模型中,异构资源经整合后,规范存储为数据库资源。该资源一方面用于建立领域主题词表,另一方面用于进一步建立索引、提取语义特征。根据语义特征和领域主题词表,首先形成案例与各资源的聚合,并进一步形成案例之间的耦合,最终用于决策咨询。
图1中的信息聚合模块所用到的面向决策支持的信息聚合模式如表1所示。关联维度分为案例特征关联维度的不同关联路径对应的聚合模式为基于语义特征的聚合模型,案例评价过程关联维度为基于聚合关系的耦合模型。
在聚合模型的数据关联过程中,不仅考虑了属性权重,即相关性;还结合了资源的权威性,即重要性。模型的数学描述如下:
式中,d表示文档,dq代表待决策案例,dc代表候选各个资源类型文档,f(dq, dc)代表dq和dc的耦合指数,Wn代表字段n的权重因子,A(dc)代表dc的权威因子,g代表字段根据词匹配的得分。其中,权威因子A(dc)∈[0,1]。权威因子A(dc)综合考虑了资源来源权威性排序以及发表时间:资源来源的可靠性越高(如期刊的影响因子值越高),权威因子A(dc)越高;发表时间与当前时间的时间差越小,权威因子A(dc)越高。
权向量 W=(w1,w2,…,wn)满足wi∈[0,1]。权重因子wi越大,代表该字段越重要。
权威因子和权向量需根据具体领域进行调试。
表1 面向决策支持的信息聚合模式
应医学情报机构强化卫生决策情报服务功能的需求[10],本文把信息聚合模型应用于卫生信息领域。以一个典型的突发公共卫生事件:中东呼吸综合症“MERS”为例,用信息聚合模型对该主题信息进行分析,取排序为前20条的聚合结果(top 20结果)。具体的数据关联项及其权重产参数设置详见表2所示。
表2 卫生信息领域信息聚合模型关键参数设置
根据表2的数据关联项及其权重设置,输入“突发公共卫生事件中东呼吸综合症‘MERS’”,系统返回的top 20结果中出现了有助于辅助决策的信息资源。具体返回的信息举例如表3所示。
表3 面向公共卫生事件的MERS分析的信息聚合结果举例
从表3可以看出,通过基于数据关联的信息聚合模型以及具体参数调试,可在top 20结果列表中获取可供决策参考使用的有效信息,包括卫生政策、学术论文、研究报告和信息动态等。
本文从信息特征间关联和信息利用过程关联的角度出发,对信息聚合的维度、路径、模式及其应用范围等进行了较深入的研究,建立了一个基于数据关联的信息聚合模型。该模型在医学信息领域的应用表明其在特定领域的案例分析中具有可行性。考虑到模型的参数设置具有经验性,还存在较大的改进空间。另外,由于模型选取的特征仅利用了基于领域词典的语义信息,更深层次的语义信息如本体信息,隐含语义信息等,会加强资源挖掘的深度。