李筱菁
南京特殊教育师范学院中国残疾人数据科学研究院 江苏 南京 210038
随着社会经济的发展,残疾人事业信息化建设逐渐成为社会高度关注的问题,这需要高质量残疾统计数据的支持。然而,目前我国残障统计体系还存在诸多问题和挑战,如数据碎片化程度高、数据规范性低、未成体系等,远不能满足科学研究需要。在信息化发展的背景下,开发健全的残障专门数据库就具有重要的意义。
开发构建系统化的残障数据平台,首先要解决的是测量标准问题。目前,国际残疾测量主要基于3种模式,一是以损伤为基础的医学模式;二是注重环境因素的社会模式;三是基于2001年世界卫生组织提出的《国际功能、残疾与健康分类》(International Classification of Functioning,Disability and Health,ICF)中的“生物-心理-社会模式”理论框架[1],这也是国际上普遍采用的残疾数据收集和测量模式。在ICF框架下,个体的活动与社会参与状况可由环境与个人因素共同决定。除个体本身生理功能损伤之外,个体所处的物理环境、社会支持程度等因素都可能对个体活动造成限制[2]。目前,我国残障统计主要还是基于医学模式,由残联统一扎口,对残障群体进行医疗评估,基于评估结果发放残疾证,对残障群体进行持证管理。然而,如ICF模式所提出,残疾测量是多维度的,不能简单地用“是”“否”进行二元定义。应采用多种问题适应环境要求,明确术语系统,定义需要被测量的多种维度。
当前,大数据、区块链、人工智能等技术在多领域的普及为多模态数据的开发与利用提供了有利条件。多模态数据指对于同一对象采用多种方式获取特征数据[3]。对残障群体来说,多模态数据可以来自残障个体的生理、行为与心理及环境层面。底层为生理数据,主要描述残障个体生理障碍情况,包括物理损伤形式或疾病状态的生物信号反映等。中间层为行为数据,主要描述残障个体日常功能行为障碍情况,可看作生理障碍与环境因素共同作用的表达。外层为环境数据,包括物理环境与社会环境等因素。开发多模态残障统计与测量数据库既迎合了ICF残疾测量框架的要求,也充分利用了近年来人工智能技术飞速发展所提供的丰富资源。构建多模态数据库对残障个体和群体进行融合分析,可以突破传统单一层面数据无法全面反映残障定义这一缺陷。
目前,已有研究将残障统计发展历程、残障数据体系建设现状进行了详细梳理[4],认为残障统计数据应当充分应用于残疾教育、康复、社会保障、福利补贴、残疾预防等各个领域,实现残疾人数据资源的多领域汇聚管理。这也充分体现了多模态数据库建设在残障统计领域发展中的重要性。
生理数据主要包括基础医疗诊断数据和生物信号数据等。已有相关领域构建了大规模、多模态生理数据平台。如美国国立卫生院NIH于2009年起开始推动的人脑连接组计划(Human Connectome Project, HCP),主要利用包括脑电、功能磁共振、弥散磁共振成像等不同脑成像技术,结合问卷、行为、基因测序等数据来绘制不同个体的脑功能、结构图谱,深入理解神经或精神疾病的来源。由美国多个研究中心联合发起的阿尔茨海默神经影像学倡议(Alzheimer’s Disease Neuroimage Initiative,ADNI)通过大规模采集阿尔兹海默病患者的影像、脑脊液、血液生物标志物等数据,以实现在尽可能早的阶段检测疾病,应用适当干预方法预防和治疗疾病。已有研究通过观察分析局部脑活动的不同实现了对早期盲人与健康群体的较好的区分作用[5]。更有大量研究基于ADNI数据库开展的多模态数据学习进行疾病预防与分类探索[6-7]。因此,面向生理信号测量与记录的残障个体数据应广泛应用于残疾数据库构建,从而为残障人士的生理障碍状态提供客观、精确的描述。
残障个体的行为与感知障碍特征数据采集主要可基于两个途径。一是自我报告或看护者报告。数据采集人员通过指导调查对象或其看护者准确填写相关量表,如使用日常生活活动能力量表(ADL)测评其日常行为能力情况、使用汉密顿抑郁量表(SDS)测评其心理健康状态等。这类数据相对较易获得,在已有的大规模数据库中也有诸多应用。如由北京大学启动开展的中国健康与养老追踪调查(CHARLS)、中国家庭追踪调查(CFPS)等。另一途径为利用信息技术、传感器技术等对被测者的行为、步态、眼动等数据进行收集。如使用可穿戴式设备收集帕金森患者步态信息,所得数据用于诊疗和预测疾病发展等[8]。此类途径可以较精确地描述被测者的行为状态,但一是对技术要求较高,二是只能提供客观指标,无法提供受试者对行为状态的主观感受,因此对此类数据的使用需结合受试者自我报告结果,并需对所得数据进行专门分析,提取和计算可用参数。
相比个体生理与行为、感知数据,环境数据的收集较为复杂。现有残障统计体系对这部分数据的开发应用讨论仅限于宏观层面,如中国残疾人联合会及省、市级残联提供的残疾人事业发展统计公报[9]、年鉴等数据,尚无针对残障个体层面的环境数据开发。总体来说,环境数据可分为残疾人所处的物理环境与社会环境。物理环境主要是残疾人家庭、社区、活动场所等的无障碍物理设施情况,即能否为残疾人提供充分、便利的出行、日常生活活动等。在获取这部分数据时,考虑对残疾人所处的无障碍物理环境进行专业评估[10],结合残障个体日常行为活动受限情况进行判断。相比之下,社会环境意义更为宽泛,可包含社会服务与保障体系建设情况、服务残疾人的政策制度颁布情况、健全人对残疾群体的歧视情况等。由于缺乏准确定义,已有研究对残障群体的功能限制社会环境因素缺乏系统、全面的总结,因而数据缺口较大,远不能满足研究需求。而基于ICF定义,环境因素是导致功能限制的重要环节,因而环境因素对残障统计数据开发的重要性不可忽视,这也是未来残疾统计研究面临的重要挑战。
基于相关数据库构建经验,多模态残障群体数据库的建设与开发已有一定的基础支持,但仍面临诸多问题挑战。现就目前存在的问题及对策进行说明。
残障人士目前在社会上还属于相对特殊的群体。多数残疾人,尤其是重度肢体、精神障碍残疾人与社会脱节较为严重,其看护人也承担较重的照料负担,缺乏了解研究机构的受试招募渠道,或因照料负担过重而无暇顾及。因此,开展此类数据大规模采集工作,既离不开与医疗机构、残联、残疾人托养照料机构的密切合作,又需要残障群体自身有参与意愿和意识。
由于残障群体的特殊性,部分数据在采集时可能面临准确性受限的问题。如,对于以报告方式提供的数据,智力或精神障碍残疾人可能因题目理解困难、不能正确表达而无法提供准确数据,看护者又可能因无法感知残疾人的真实感受而不能提供准确答案。又如,对于以采集生理信号(如脑电)方式提供的数据,专门针对盲、聋群体设计的实验范式较为匮乏[11]。因而,要提升数据准确性,还需面向特殊群体设计专门化的数据采集流程,尽力减少测量误差。
残疾人相关数据有一定敏感性,容易导致违法行为对残疾人群体带来伤害。出于对这一群体保护的原因,数据的采集、使用与发布流程相比健全人都更为严格。目前,关于残障群体的研究伦理缺乏规范性,未来需加强对残障伦理的研究,形成以残障视角构建伦理理念和规则,考虑残障群体的实际处境和需求的规范。
作为专门数据库,残障群体多模态数据库将会催生多方面、全角度的残障群体相关实证研究,对政策制定、行业发展也有重要意义。
当前,残障数据体系建设是残疾人研究领域关注的热点话题,多模态数据库可以帮助对残障群体进行全面状态描述,对其健康、功能与社会参与情况进行综合评价,在ICF框架下实现对残疾的有效定义与客观评估。
相比传统的单一模态数据,利用残障个体的多模态数据可以更加充分地预测其未来残障或健康状态,并对其进行有效的健康预警或干预。在充分考虑各个层面影响因素的基础上,基于多模态数据预测可提供更好的准确性和稳定性。
基于已有数据库,可帮助政府充分了解残障群体发展现状。多模态数据可帮助政府基于不同部门与行业间的异质性加强协调,同时提升大数据应用能力,构建决策支持系统,打造“智慧政府”。
本文讨论了多模态数据在残障统计领域的应用,以期为基于大数据的残障统计领域深入研究提供应用参考。未来应完善专门针对残障群体的数据采集技术,充分应用数据分析与挖掘技术,深入挖掘多模态下各个层面残障数据间的内在关系和规律,这将为完成多模态残障数据库开发,实现残障数据平台信息化建设提供坚实基础。