任程 郭云峰 丁国徽 许俊 王萍萍
摘 要:随着信息技术的发展,人类生物信息得到越来越广泛地挖掘和应用。本文围绕人类生物信息在生物特征识别和生物医学领域的应用展开讨论,阐述了人类生物信息应用标准化要点,探讨分析了标准化发展情况及典型标准,并给出了人类生物信息标准化建设的建议,期望为后续人类生物信息研究和标准化工作提供参考。
关键词:生物信息,生物特征识别,生物医学,信息安全,标准化
DOI编码:10.3969/j.issn.1002-5944.2023.13.009
基金项目:本文受上海市2022年度“科技创新行动计划”技术标准项目“人类生物信息安全关键技术研究及标准研制”(项目编号:22DZ2205300)资助。
Research on Application Standardization of the Human Biological Information
REN Cheng GUO Yun-feng* DING Guo-hui XU Jun WANG Ping-ping
(International Human Phenome Institutes, Shanghai)
Abstract: With the development of information technology, human biological information has been mined and applied more and more widely. Focusing on the application of human biological information in biometric recognition and biomedicine, this paper discusses the main points of application standardization of human biological information, and analyzes the development of standardization and typical standards. It also puts forward suggestions for human biological information standardization so as to provide references for further human biological information research and standardization.
Keywords: biological information, biometric recognition, biomedicine, information security, standardization
0 引 言
人类生物信息蕴含重大的经济社会价值,是一种重要的国家战略资源。随着大数据时代的高速发展,人类生物信息数量呈爆炸式增长,基于人类生物信息的开发利用和安全保护成为重点研究领域。开展人类生物信息标准化研究,运用标准化手段厘清人类生物信息应用模式,提高技术创新和安全管理水平,是对《中华人民共和国人类遗传资源管理条例》《中华人民共和国个人信息保护法》《中华人民共和国生物安全法》《中华人民共和国数据安全法》等法律法规的贯彻落实,是“加快标准化、规范化的人类遗传资源保藏基础平台和人类遗传资源大数据建设,为开展相关研究开发活动提供支撑”“制定和完善生物安全领域相关标准”“推进数据开发利用技术和数据安全标准体系建设”等要求的具体实践,对发挥标准对于行业发展的引领支撑作用具有重要意义。
1 人类生物信息概述
1.1 定义
人类生物信息包含以下两类:遗传信息,通常包括由DNA、RNA和蛋白质等生物大分子所携带的信息;非遗传信息,包括各类诊疗数据、临床试验数据、研究数据等[1]。
1.2 应用
生物识别信息携带着每个生物不同的特征信息,具有唯一性和稳定性。基于此物理特征开发出来的人脸识别、指纹识别、虹膜识别等生物特征识技术广泛应用于安防、金融、教育等領域。生物特征识别技术是通过提取生物信息特征,并与数据库中已有的模板数据进行比对,来实现1:N的身份识别和1:1的身份鉴定。人类生物信息在生物医学领域的应用研究,已逐步由遗传信息向非遗传信息转变[1]。目前围绕基因组学、转录组学、蛋白质组学和代谢组学等各类组学数据与个人的健康生理信息发展起来的新型医疗模式——精准医疗产业集群正在逐步形成。主要是对大样本人群与特定疾病进行整合分析与标准化处理,建立不同数据之间的关联性和差异性,对病理发生发展的过程建立定量模型,提出假设与验证,从而寻找到特定人群甚至个体疾病的精确原因和治疗靶点,最终实现对疾病和特定病患进行个性化精准预防和治疗的目的[2]。
2 人类生物信息应用标准化要点
2.1 关键技术
生物特征识别技术实现过程中,主要包括生物特征样本采集技术、生物特征样本预处理技术、生物特征建模与比对技术、呈现攻击检测技术、生物特征识别系统性能评价技术[3]。除了确定生物特征识别系统或设备的功能和性能指标之外,还需考虑技术实现方案的互联互通。
在生物医学领域,各类组学数据、健康生理数据等来源广泛且分散、类型多样,若要实现对这些数据的充分挖掘和深入研究,需要建立完善的生物数据资源收集和管理体系、信息共享系统,在术语定义、数据质量、数据格式等方面统一的基础上[4],完成数据分析、解释和共享,才能实现数据价值的最大化。
2.2 安全保护
人类生物信息安全涉及数据安全和隐私保护两个方面,数据安全贯穿着数据全生命周期,面临着数据泄漏、篡改、丢失、损坏或被非法获取、非法利用等安全风险。近年来,生物特征识别最为突出的安全风险是在信息采集阶段识别系统被伪造攻击等技术破解,比如利用指纹膜、3D人脸面具、合成语音等人造或模仿的生物特征攻击识别系统[5]。在生物医学领域,除了防范基础设施、信息系统、网络安全等方面的安全风险,还需注重不同应用场景下使用数据的安全性。
如何保障人类生物信息安全,促进数据合法、安全、有效流通,充分发挥数据价值,是生物特征识别和生物医学领域面临的重要课题。从技术角度,采用加密存储、加密传输、身份权限控制等方式保证数据存储的安全,采用替代、混洗、数值变换、加密、遮挡等脱敏技术保护数据的隐私安全[6]。开发出的多模态识别技术,利用两种及以上生物特征共同完成验证,不仅提升了隐私安全性,也提高了识别的准确度和场景适应性。提高识别系统和设备的呈现攻击检测能力,是提高识别安全性的通用要求,以防止恶意伪造。从管理角度,建立涵盖数据访问方式、身份安全认证、权限管理、存储策略和备份机制等方面的安全管理机制[7],以及数据共享机制,考虑不同应用场景下数据的共享程度和共享方式,从而保障数据隐私安全。
3 人类生物信息标准化分析
3.1 国内外标准化组织及发布标准
国内与人类生物信息相关的标准化技术组织见表1。与生物特征识别相关的国内标准化组织及其标准发布情况:全国信息技术标准化技术委员会生物特征识别分技术委员会(TC 28/SC 37)、全国信息技术标准化技术委员会卡及身份识别安全设备分技术委员会(TC 28/SC 17)已发布国家标准73项,涵盖术语、应用程序接口、数据交换格式、生物特征样本质量、呈现攻击检测、测试和报告等内容;全国安全防范报警系统标准化技术委员会(TC 100)已发布国家标准12项,社会公共安全行业(GA)已发布生物特征识别应用相关的术语、技术要求、应用系统等行业标准44项。全国金融标准化技术委员会(TC 180)聚焦金融行业中的生物特征识别数据保护,发布了GB/T 27912-2011《金融服务生物特征识别 安全框架》;全国防伪标准化技术委员会(TC 218)关注人脸识别防伪问题,发布了GB/ T 38427.1-2019《生物特征识别防伪技术要求 第1部分:人脸识别》。山西省发布了DB14/T 2164-2020《生物特征识别技术应用指南 公共安全领域》。已发布的团体标准有T/AI 113-2021《生物特征识别服务中的隐私保护技术指南》、T/TAF 079-2021《移动智能终端及应用软件生物特征识别安全规范》。在生物医学领域,人类生物信息相关的标委会主要有全国医用临床检验实验室和体外诊断系统标准化技术委员会(TC 136)、全国生物样本标准化技术委员会(TC 559)、全国生物芯片标准化技术委员会(TC 421),它们的工作范围侧重生物技术标准化工作,在生物信息技术融合方面,未发布相关标准。TC 28/SC 37于2022年成立基因组识别工作组,负责基因识别数据相关的标准化工作。卫生健康委员会(WS)已发布卫生信息数据元、平台交互等相关行业标准81项。四川省发布了DB51/T 2989-2023《四川省健康医疗大数据应用指南》。当前,从全国标准信息公共服务平台检索到的健康医疗与组学数据相关的团体标准见表2。全国信息安全标准化技术委员会(TC 260)负责国内信息安全的标准化工作,目前已发布GB/T 41819-2022《信息安全技术 人脸识别数据安全要求》、GB/T 41806-2022《信息安全技术 基因识别数据安全要求》、GB/T 39725-2020《信息安全技术 健康医疗数据安全指南》等数据安全相关国家标准9项。
与生物特征识别相关的国际标准化组织及其标准发布情况:ISO/IEC JTC1/SC37生物特征识别标委会已发布生物特征识别相关国际标准135项;ISO/IEC JTC1/SC17卡及身份识别安全设备标委会已发布国际标准118项。IEEE(电气电子工程师学会)发布了IEEE 2410-2021《生物特征识别隐私标准》、IEEE 2790-2020《生物特征识别活体检测标准》2项安全标准。在生物医学领域,ISO/TC276/WG5生物技术委员会(数据处理与集成委员会分会)主要从技术角度出发,制定数据处理与集成方面的标准化工作,已发布标准2项;ISO/TC 215/SC 1健康信息学委员会(基因组信息学委员会分会)从健康产业角度出发,已发布DNA测序质量控制、数据交换格式、组学标记语言等相关标准7项。
3.2 标准现状分析
从标准化发展情况来看,我国生物识别信息应用标准化工作发展较早,在基础通用、产品、检测方法等方面已发布生物特征识别术语、数据交换格式、生物特征樣本质量、识别系统和设备、呈现攻击检测等内容的国家标准,且在人脸识别、活体检测方面处于国际领先地位[8]。近年来发布的国标主要围绕移动设备和识别系统的技术要求、信息安全等方面,以满足市场快速发展需求。GB/T 41772-2022《信息技术 生物特征识别 人脸识别系统技术要求》、GB/T 37742-2019《信息技术 生物特征识别 指纹识别设备通用规范》对图像质量、响应时间、错误接受率等性能指标做出了相应规定。GB/T 40660-2021《信息安全技术 生物特征识别信息保护基本要求》规定了各类生物特征识别信息控制者开展生物特征识别信息处理活动应遵循的基本原则和安全要求。GB/T 37036.8-2022《信息技术 移动设备生物特征识别 第8部分:呈现攻击检测》、GB/T 41987-2022《公共安全 人脸识别应用 防假体呈现攻击测试方法》给出了人脸、指纹防假体攻击检测流程或方法,虹膜、声纹等生物特征识别方式呈现攻击检测方面还属空白。
在生物医学领域,人类生物信息应用标准化工作尚处于初期发展阶段,团体标准发展较为迅速。目前国家标准研究和制定工作主要聚焦在数据安全方面。GB/T 39725-2020《信息安全技术 健康医疗数据安全指南》、GB/T 41806-2022《信息安全技术 基因识别数据安全要求》对医疗服务场景、消费服务场景、研究开发场景等不同应用场景下数据的使用提出了相应的安全要求。在数据的匿名化、分类分级等隐私安全保护技术方面,已发布相应的团体标准。除此之外,在数据集存储、样本处理和数据分析等方面,也已有相应的团体标准发布,但未形成标准体系。目前还没有关于人类生物信息共享的国家和行业标准。T/SHIA 8-2020《四川省健康医疗大数据共享应用指南》给出了健康医疗数据控制者进行健康医疗数据共享、交换、分析和利用的方法和要求。而对于生物特征识别数据,GB/T 40660-2021《信息安全技术 生物特征识别信息保护基本要求》中规定“生物特征识别信息原则上不应共享、转让”。
4 人類生物信息应用标准化建议
4.1 发挥政府主导作用
一是建立健全规章制度,强化国家监管和社会监督制度措施,保障人类生物信息安全;二是建立人类生物信息标准化沟通合作机制,做好标准化顶层设计,鼓励和引导企业、社会团体和科研机构等参与标准制定与实施,积极发挥各方优势;三是统筹人类生物信息资源,加强基础设施建设,建立信息共享机制,为推动生命科学基础研究、精准医疗等产业发展提供便利。
4.2 构建系统完善的标准体系
人类生物信息数据量庞大、来源广泛、类型多样,尤其是组学数据、健康生理数据,需充分考虑信息主体、管理方、使用方不同需求,结合不同数据类型,分析行业应用特点,注重数据安全和隐私保护,探索构建数据格式、数据质量、数据分析方法和安全管理等多个维度的标准体系,为人类生物信息标准化建设提供指导和方向。
4.3 加大重点标准制定
加快人类生物信息安全保护标准的制定,从技术和管理方面积极探索呈现攻击检测、数据汇交共享、安全保护和管理等重点标准。加快制定数据质量评价、安全风险评估等重点标准,为数据的安全应用提供保障。加快国家标准、行业标准和团体标准的制定,响应市场发展变化需求,加大标准供给,为行业高质量发展提供技术支撑。
5 结 语
人类生物信息能否得到高效、安全地开发利用,直接影响到个人利益、社会发展以及国家安全。采用标准化手段指导人类生物信息应用,对推动产业技术创新和提高安全管理水平具有重要意义。当前人类生物信息在不同领域的应用发展不尽相同,需要结合行业特点,发挥各方优势,加强应用相关的标准化研究,尤其是信息安全方面的标准化工作,构建系统完善的应用标准体系,为产业有序健康发展提供标准支撑。
参考文献
[1]王小理,阮梅花,刘晓,等.生物信息与国家安全[J].中国科学院院刊,2016,31(4):414-422.
[2]何勇群,余红,杨啸林,等.本体:生物医学大数据与精准医学研究的基础[J].生物信息学,2018,16(1):7-14.
[3]生物特征识别白皮书(2019版)[Z].
[4]张育润,江洲.探讨生物信息标准化研究[J].生物信息学,2011,9(1):39-41.
[5]上官晓丽,郝春亮,胡影,等.生物特征识别安全标准化研究[J].信息技术与标准化,2022(4):38-43.
[6]四川省健康医疗大数据共享应用指南:T/SHIA 8—2020[S].
[7]李茹姣,张欣,宋述慧,等.基因组科学数据的安全管理与应用[J].大数据,2022,8(1):37-45.
[8]孙曦,冯春培,落红卫.生物特征识别国际标准化研究情况[J].金融电子化,2018(10):60-61.
作者简介
任程,硕士研究生,工程师,主要从事标准化研究工作。
郭云峰,通信作者,硕士研究生,高级工程师,主要从事计量、标准化研究工作。
丁国徽,博士研究生,研究员,主要从事生物信息学、生物医学数据安全研究工作。
许俊,硕士研究生,高级工程师,主要从事标准化研究工作。
王萍萍,硕士研究生,工程师,主要从事标准化研究工作。
(责任编辑:袁文静)