【摘要】生物信息学作为生命科学与生物技术/信息技术研究领域的关键交叉学科,对生物经济和数字经济的贡献日益显著。当前,生物信息学仍面临学科体系不健全、定位模糊以及交叉合作不充分等挑战,多模态高维度生物大数据的准确性、分析处理和共享整合问题也考验着生物信息学的发展。在建设科技强国的过程中,生物信息学是生物经济产业布局的关键环节。与此同时,人工智能技术的融入正引发生命科学研究范式的转变,促使生物信息学从认知科学向工程创造的STEM并存模式方向发展。此外,生物信息学面临人才培养同质化和优秀青年人才“内卷”的困境,需要构建多层次培养体系和优化科研环境,培养具有战略眼光的科学家。由此,应加强顶层设计,完善学科体系与教学体系;建立多元化人才培养体系;全面推进“101计划”;优化教育资源分配和教学模式创新。
【关键词】生物信息学 人工智能 人才培养 STEM 优化教育资源分配
【中图分类号】Q811.4/C961 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.16.002
生物信息学兴起的背景与意义
20世纪以来,生物学取得了巨大的发展,在许多生物领域的发现和研究方面作出了重大贡献。同时,计算机科学和信息技术也有了显著进展,信息处理能力日益增强。生物学和信息技术的快速发展促使人们利用信息技术的优势来解决生物学领域的问题,这便催生了生物信息学。此外,大规模生物数据的可用性也推动了生物信息学发展。生物学家能够获取大量生物数据,如基因序列、基因表达谱、蛋白质结构和代谢物组成等。随着高通量测序和其他生物学技术的不断进步,生物数据的数量和复杂性持续增加。这些大数据难以通过传统手动方法处理和分析,迫切需要生物信息学引入新的方法。
简而言之,生物信息学是整合计算机科学、统计学和生物学的学科,旨在使用计算方法分析和解释各种生物数据并提供预测。随着相关技术的不断发展和突破,生物信息学也在不断演进,其历程可以划分为如下四个阶段。
基因组阶段。基因组阶段生物信息学发展的标志性事件是人类基因组计划的启动。该计划于1990年启动,历时13年,旨在确定人类基因组的化学结构、功能和组织。在这一阶段,生物信息学主要关注基因组序列的生成、注释和分析,为人们提供了大量精确的生物信息,从而推动了分子生物学、基因组学、遗传学等多个领域的发展。
高通量阶段。高通量阶段生物信息学发展的主要特征是利用高通量技术大规模获取各种生物数据,如芯片技术(microarrays)和高通量测序(high-throughput sequencing)。在这一阶段,数据的大规模获取和分析变得更加容易,使我们能够深入了解生物系统的复杂性。高通量技术的发展提高了生物信息学的效率和准确性,使研究人员可以快速获得生物数据,并利用生物信息学工具进行分析。高通量技术在生命科学和医学研究中的应用日益广泛,如基因组学、转录组学、蛋白质与代谢组学。
大数据阶段。大数据阶段生物信息学发展的主要特征是大数据的生成和处理。生物数据以指数级增长,如基因组、转录组、蛋白质组、代谢组等大数据集的不断积累,给数据的存储和处理带来了极大挑战。因此,生物信息学的发展重点关注开发新的技术,如云计算、分布式计算和并行计算,以满足更高效的数据处理需求。此外,大数据使得开发更准确的模型、算法和工具来预测生物事件及其参数成为可能。
人工智能阶段。人工智能阶段生物信息学发展的主要特征是人工智能技术大规模应用于生物数据的处理和分析。随着深度学习、自然语言处理和图像处理等领域的迅速发展,人工智能技术已广泛应用于生物数据的解读和分析。例如,深度学习算法可以在海量生物数据中识别模式和趋势,并预测生物事件及其参数。人工智能技术可以用于研究原位基因表达、细胞图像和蛋白质结构等生物系统。类脑神经元模型构建方法为人工智能的性能提升提供理论支持。
在大约半个世纪的时间里,生物信息学历经上述四个阶段不断发展和壮大,为生物学研究提供了新的工具和方法,不断推动着生命科学的进步,也为生物学、医学、农业等领域持续带来重大改变和提升。通过生物信息学分析从基因组序列到其他类型的生物数据,科学家能够更好地理解遗传学、基因组学和其他生物学领域的问题。具体来说,生物信息学提供的分析工具使科学家能够更快地识别和比较基因序列、注释基因功能、了解分子调控过程及其他生物信息,更好地探究基因型和表型间的可能机制。生物信息学通过比较基因组、蛋白质组和其他生物数据,实现精准医学研究,使科学家能够更快地识别新的药物、诊断以及发现新的治疗方法。生物信息学还可以辅助分子育种,改进作物品种,提高作物产量,改善食品质量并发现新的农业处理方法。
生物信息学发展的困境及挑战
生物信息学的学科定位未获共识。生物信息学作为一门交叉学科,尽管在许多领域发挥着重要作用,但其学科体系尚不健全,存在学科认可、专业定位问题。生物信息学涵盖理论算法研究、技术开发、组学分析、应用研究以及工程化创新研究,涉及从生物学问题和数学信息问题,到应用分析、数据挖掘、人工智能和主动发现等多个方面。广泛的研究内涵使其在不同学术领域形成了相对独立的研究方向和影响力,如偏算法的理论研究和偏实验科学的生物学应用研究,不同领域的研究所面临的发展挑战也各不相同,这导致生物信息学的学科内部合作不充分、不主动。此外,生物信息学作为整体交叉学科,缺乏成熟的理论体系和鲜明的领域方向,产业应用集群效应也未得到足够积累。
生物数据对生物信息学的发展至关重要。生物信息学依赖于生物数据,生物数据的质量、特性、处理方法、共享和整合使用情况等因素影响着生物信息学的发展。一是生物数据可能存在错误或不完整。如何确保数据的准确性、识别和纠正错误或缺失的数据,成为生物信息学发展的关键挑战。二是生物数据具有其特定属性。如何正确区分其全局性和局部性、常态和特殊条件、静态和动态等,也是科学处理数据的难点所在。三是有效地分析大量数据的方法选择。生成大量数据后,不同类型数据的分析、不同分析方法的评估和使用、基于已有知识的有监督数据分析和基于数据的无监督数据分析都有其不同的应用范围。四是生物数据的共享和整合使用面临的挑战。生物数据通常由不同的研究人员和机构创建和管理,因此在数据的共享和整合使用方面可能存在壁垒。充分利用多模态生物数据,需要识别和克服上述问题。
生物数据已成为国家重要资源,其产生、分析、管理与利用是保障生物科技安全的重要环节。针对部分敏感生物数据的分析处理还需要建立可持续发展的安全保护、隐私保护和共享服务的机制和技术。2019年,主要依托中国科学院北京基因组研究所的中国生物信息学中心正式成立,打破了欧美日垄断全球生物数据的格局,实现了生物信息学数据库的自主开发、自主管理,为我国高质量生物数据资源的基础设施建设提供了重要支撑。未来应进一步加大投入,将其建设成引领全球生物信息学生物数据资源发展的大国工程。
生命科学研究范式发生转变。生命科学研究范式正在发生深刻变革,尤其是人工智能技术对生命科学研究范式产生了深远的影响。总体来说,从单纯的问题驱动研究,转变为问题驱动与数据驱动并行的研究。基因组学、转录组学、蛋白质组学、代谢组学、表型组学等领域的数据量巨大,传统方法难以应对,而人工智能算法技术可以高效地从中提取有价值的信息,使得研究更加高效、精准和个性化。例如,人工智能技术可以将不同来源的数据(如临床数据、实验数据、文献数据)进行整合,提供更全面的视角。在人工智能时代,对生物大分子和基因的研究进入精准调控阶段,通过机器学习模型,可以预测疾病的发生和发展,使个性化医疗成为可能。在病理学、细胞生物学等领域,人工智能的图像分析技术可以自动识别和分类细胞、组织等,提高诊断的准确性和效率。采用人工智能技术分析患者的基因组数据、病史和生活方式,可以提供个性化的治疗方案。利用可穿戴设备和人工智能技术进行实时健康监测和管理,能够有效提高疾病预防和管理水平。人工智能还可以模拟和预测药物与靶点的相互作用,加快新药研发速度。人工智能技术(如AlphaFold)在蛋白质结构预测方面取得的重大突破推动了结构生物学的发展。人工智能技术帮助设计更高效的CRISPR编辑工具,能够提高基因编辑的准确性。人工智能驱动的自动化实验室可以进行高通量筛选和分析,进而大幅提高实验效率。生物信息学应秉持“从生物中来到生物中去”的理念,探索从“认知科学”到“工程创造”的有效发展路径,实现从单一理科到理工并存发展的新的转变。
加快建设科技强国与大国竞争形势紧迫。世界百年未有之大变局加速演进,科技革命与大国博弈相互交织,高技术领域成为国际竞争最前沿和主战场,深刻重塑全球秩序和发展格局。当前,我国亟需通过科技创新驱动,发展新质生产力,推动数字经济和生物经济的发展。具体来说,要坚持目标导向和问题导向,依靠跨学科、大协作和高强度支持,发挥协同创新的新型举国体制优势,充分体现战略科技力量在集聚整合相关科研力量、开展核心技术攻关中的引领作用。2022年5月,国家发展和改革委员会发布的《“十四五”生物经济发展规划》强调,培育壮大生物经济支柱产业,加快生物技术广泛赋能健康、农业、能源、环保等产业,促进生物技术与信息技术深度融合,全面提升生物产业多样化水平,推动生物经济高质量发展。具体规划包括:依托人工智能技术、生物医学和健康大数据资源,发展智能辅助决策知识模型和算法,辅助个性化新药研发,为疾病诊断治疗提供决策支持;利用第五代移动通信、区块链、物联网等前沿技术,实现药品、疫苗从生产到使用全生命周期管理;深化卫生健康大数据在医学科研、教育培训、临床诊疗、产品研发、行业治理、医保支付等方面的应用,等等。《中国生物产业发展报告2022》提出,2025年我国生物经济总量有望达到22万亿元。
科技工作要面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康。在自然指数追踪的学科排行榜上,我国越来越多的科研机构进入科研领导者榜单,科研机构的高质量科研能力有强者愈强之势。然而,在大国竞争中,我国生物经济领域仍缺少具备市值规模、市场份额、专利技术、品牌影响力和产品竞争力的“世界级领军企业”。未来,我国需要在基因组学、脑与认知科学、精准医疗、生物医药、高端医疗器械、生物育种、同一健康、合成生物学、生物质能源和生物安全等产业布局方面实现全面突破和引领。
生命科学相关的未来产业人才培养有待进一步加强。当今世界的竞争说到底是人才竞争、教育竞争。我国要实现高水平科技自立自强,归根结底要靠高水平创新人才。当前,我国部分领域的人才培养仍存在原创性和突破性不足、科研资源出现分散重复与“圈子”垄断、研究深度不足等问题。围绕生命科学相关的未来产业布局,开展相应的人才培养需要进行详细的规划和实施。一方面,建立多层次的人才培养体系。加强本科教育,注重学生基础知识的学习和科研素养的培育,增加实验课程和实践环节,鼓励学生参与科研项目;在研究生教育阶段设置跨学科课程,提供更多的科研机会和国际交流项目,培养学生的创新能力和跨学科思维;通过博士后流动站和青年科学家计划支持青年科研人员独立开展研究,提供相应科研经费和科研资源,鼓励原创性研究。另一方面,优化科研环境。增加对基础研究和前沿技术研究的经费投入,设立专项基金支持原创性和突破性研究;建设和完善高水平的科研实验室和平台,提供先进的科研设备和技术支持;鼓励和支持科研人员参加国际学术会议,不断增加国际合作研究项目,促进学术交流和合作;建立灵活的聘用和评价机制,减少对论文数量和影响因子的过度依赖,更注重科研成果的实际贡献;加强公共服务资源统筹,为科技人才提供住房、子女入学、医疗健康、后勤服务等有效保障,切实帮助人才解决后顾之忧。
生物信息学教育资源发展不均衡。当前,我国生物信息学教育资源的发展仍存在不均衡现象,主要表现在一流师资力量不足、顶尖专家参与教学积极性较低、教材质量仍有提升空间以及教育资源分配不均等方面。生物信息学要求教师具备生物学、计算机科学和统计学等多学科背景,而具备这种多学科背景的教师数量相对较少。同时,许多在生物信息学领域具有丰富经验的专家更倾向于从事科研工作,而非参与一线教学,导致学生难以直接获得顶尖专家的指导和启发。生物信息学教材的编写需要综合多个学科的知识,而现有的教材质量参差不齐,优秀的生物信息学教材数量有限,难以满足日益增长的教学需求。教育资源分配不均的现象依旧存在,未来应重点施策逐步缩小区域、城际、校际教育质量差距。
生物信息学人才培养的模式与建议
加强顶层设计,完善学科体系与教学体系。一方面,要健全和完善生物信息学的学科体系。现有的学科分类、产业分类和经济活动目录中,存在生物信息学缺失或定位不准确的问题,建立完善的理论体系、充分体现学科价值、进行有效的学科分类和产业分类等工作至关重要。要加强顶层设计,充分发挥新型举国体制的优势,推动学科发展和产业创新深度融合。
另一方面,要完善教育部制定的生物信息学专业国家标准,并成立教学指导委员会。在科学(Science)、技术(Technology)、工程(Engineering)和管理(Management)等方面,明确生物信息学的人才培养定位,构建STEM培养体系。这将有助于规范和提升生物信息学教育的质量,引导高校培养出符合社会和产业发展需求的高素质人才。
建立多元化人才培养体系。一是避免同质化,加强工程化培养。为避免同质化培养、同质化科研、同质化成果对自由探索原创性科研成果的制约,应将生物信息学与STEM教育相结合,针对不同领域和岗位需求,制定差异化的人才培养方案,在科学研究、技术应用和工程开发等方向上有区分地培养生物信息学科学家和工程技术人员。注重系统的工程化培养,提升学生的综合素质和跨学科能力。丰富实践项目和跨学科课程,增强学生的创新能力和实际操作能力。在培养过程中,要坚持全科与专科相结合。
二是缓解青年人才“内卷”焦虑。在当前竞争激烈的社会环境中,注重青年学生的理论学习和科研训练的同时,还要注重培养其科学情操、抗压能力和良好的心理素质。为此,应为青年科研人员提供必要的心理辅导、团队建设等活动机会,提升其综合素质和团队合作能力。同时,应建立和完善公平公正的激励、评价和保障体系,引导青年教师专注科研和教学工作。此外,要引导青年人才理性看待和追逐科研热点的现象,避免盲目跟风和短期行为。
三是注重培养战略科学家。战略科学家的培养是我国科技发展的重要一环,其作用不仅在于推动前沿科技的突破,更在于为国家的长远发展提供战略性指导和创新驱动。教育部围绕这一目标,鼓励各高校开展卓越班的培养模式,并实施了基础学科招生改革试点(即“强基计划”),旨在通过该计划开展知识、能力、素质、人格四位一体的人才培养模式,实现“好苗子”一贯式培养。培养具有战略眼光与创新能力的科学家和技术人才,需要特别注意以下几点:首先,战略科学家需要具备敏锐的战略眼光和前瞻性思维,因此课程设置应面向国家重大需求和前沿科技领域,采用启发式教学方法,激发学生的战略思维和创新能力;其次,战略科学家必须具备全球视野和跨领域整合能力,因此应加强高校之间的合作与交流,鼓励学生参与国际学术交流和合作研究项目;再次,战略科学家的培养还需要丰富的科研资源和实践机会,应进一步打通高校“围墙”,鼓励学生选择不同高校、科研院所进行交流学习,拓宽视野;最后,要注重人才科研素养的培养和家国情怀的教育,使其能够在国家重大科技需求和前沿领域中发挥关键作用,助力科技强国建设。
全面推进“101计划”。基础学科教育教学改革试点工作计划(即“101计划”)旨在建设核心课程、核心教材、核心师资和核心实践项目,着力培养一批未来在全球具有重要影响力的杰出自然科学家、医学科学家和社会科学家。教育部“101计划”生物信息学核心课程牵头专家的任务是联合全国33所生物科学类“拔尖2.0”相关高校,开展“核心课程、核心教材、核心师资团队”的建设。未来将从“教学理念、团队建设、教材建设、质量标准、课程模式、教学方式、课程资源、质量管理”等方面全方位打造具有“思想性、科学性和时代性”的生物信息学一流课程体系,以满足我国对生物信息学领域拔尖创新人才的需求。
具体来说,在专业、课程大纲及课程组设置方面,应全面规划课程内容,加强知识图谱和能力图谱建设。课程设计可分为理论课和实验课两部分,前者包括“基本原理与算法”和“组学数据分析与应用”两大模块,后者设计科研案例模块,邀请国内外优秀专家学者向学生讲授生物信息学的研究案例和学术报告,充分展示生物信息学的交叉性和前沿性。理论与实践相结合的课程设计能够确保学生在掌握理论的基础上提升解决实际问题的能力。
优化教育资源分配和教学模式创新。一是推动教育资源优化与共享。为了改善生物信息学教育资源分配不均衡的现状,需通过政策引导和资金支持优化资源分配,缩小不同地区、不同高校及高校内不同院系之间的教育资源差距。要加大生物信息学科研后备人才的培养,扩大人才规模,提高人才质量。同时,进一步推进高校管理改革,解决结构性问题,促进公平竞争和资源共享。
二是加强教育部生物信息学虚拟教研室的建设。虚拟教研室是一种依托现代信息技术,突破时空限制,灵活开展线上线下结合的教学研究和实践活动的新型教学组织。它汇集优质资源,跨时空和跨领域进行精细化、专业化的教研合作,具有开放性、灵活性和变革性等特征,能够弥补实体教研室的不足,构建多学科、多层级、多类型的立体化教研模式。生物信息虚拟教研室的创立将进一步推动生物信息学人才的培养,利用其信息技术优势,实现跨时空的教学研究合作,促进优质资源共享,提升学术交流的效率和深度,推动生物信息学领域的教学与研究创新。
三是推动科教融合。通过政策引导更多具有多学科背景的人才加入教育领域,制定激励政策提高专家参与教学的积极性,设计涵盖生命科学、计算机科学、数据科学等学科交叉内容的综合课程并确保教学内容的前沿性和实用性。注重人工智能与数据分析的教学,内容涵盖机器学习、深度学习和数据挖掘等技术,并在教学中引导学生将这些技术应用于生物数据分析。此外,还应让学生了解人工智能技术应用于生命科学中的伦理问题,如隐私保护、数据安全和伦理决策,确保其在技术应用中能够遵循道德规范。为进一步提升学生的科研能力,可鼓励学生参与团队课题组的科研项目,通过实际科研工作积累经验。在“101计划”的框架下,推动各高校学生参与到其他高校的科研活动中,促进跨校合作和资源共享。
四是推动产教融合。生物信息学与产业深度融合,通过合理的产业布局和全面的人才培养,构建产业集群,能够有效推动医疗健康和生物技术的进步。为此,要加大对生物信息学技术研发的投入,支持企业和科研机构开展自主创新,推动技术的不断进步和应用。推动产业园区规划和基础设施建设,在重点区域建立生物信息学产业园区,吸引相关企业、研究机构和高校入驻,形成集聚效应,带动技术创新和产业发展。建立产学研合作平台,鼓励企业、研究机构和高校合作,设立联合研究项目和实验室,推动应用研究和技术开发,培养学生的实践和创新能力。推动企业、研究机构与高校共同制定人才培养计划,设立联合培养基地,通过实习和合作研究等形式,让学生在实际工作中得到锻炼并提高综合素质。引导企业和社会组织资助生物信息学相关的科研项目,通过设立科研基金和奖学金等方式,支持优秀学生和教师开展科研工作,推动学科发展。
五是引导社会资源参与。要通过制定相关政策,提供税收优惠和资金支持等激励措施,鼓励企业和社会组织参与生物信息学人才培养和学科发展,吸引更多社会资源投入,形成多方协同、共同推进的良好发展局面。利用报纸、电视、广播、网络等媒体平台,采用制作专题节目、科普专栏等多样化的传播形式,向公众科普生物信息学的基础知识和最新进展,丰富公众对生物信息学的认识和理解。对中小学等教育机构,可以以合作方式将生物信息学科普内容纳入课程体系,开展校内外的科普活动,培养学生的科学兴趣;对大学生和科研人员等具备一定知识基础的受众,可以提供前沿研究报告、技术培训课程等更深入的科普内容。同时,需要规避包括利益驱动的不良社会教育培训机构的影响。加强科普宣传,提升公众的科学素养,使其能够辨别优质教育资源和不良培训机构,避免被利益驱动的机构所误导。
结语
生物信息学的特色和优势主要体现为强大的数据处理能力、跨学科融合的创新方法、精准高效的生物学研究、创新的生物技术、广泛的应用领域以及智能化和自动化的技术应用。生物信息学的发展得益于新算法、新理论、新技术和新工具的不断涌现。同时,政策的支持与引导也为生物信息学带来了创新突破和长效机制,进一步引领了学科的发展。
利用生物信息学技术进行大数据分析,可以挖掘数据价值,提供精准的市场预测和决策支持。将人工智能技术与生物信息学结合,开发智能化的生物信息学应用系统,能够提高数据处理和分析的效率,进一步推动数字经济的发展。在精准医疗领域,生物信息学技术被广泛应用于基因检测和个性化治疗等服务,这提高了医疗水平和效率。生物信息学在农业科技中的应用,如作物基因改良和畜禽育种,提升了农业生产效率和质量,推动了生物经济的发展。将生物信息学技术用于环境监测和治理,可以进一步提升生态环境精细化管理水平。然而,人工智能在生命科学中的应用也带来了隐私、安全和伦理等方面的挑战,需要制定相应的法规和伦理指南。
生物信息学与产业的有效结合可以构建产业集群,助力数字经济和生物经济的建设,推动经济高质量发展。未来,还需进一步规范引导数据资源共享,建立生物信息学数据共享平台,提高数据利用效率,进而推动技术创新和产业发展。同时,要加强数据安全保障,制定数据安全管理制度,保护数据隐私和安全,从而提升数据共享平台的可信度和安全性。综上,才能更好发挥生物信息学在推动科学研究、促进产业发展和提升社会福祉方面的重要作用。
参考文献
陈铭,2004,《后基因组时代的生物信息学》,《生物信息学》,第2期。
陈铭,2022,《大数据时代的整合生物信息学》,《生物信息学》,第2期。
国家发展和改革委员会,2022,《“十四五”生物经济发展规划》,https://www.ndrc.gov.cn/xxgk/zcfb/ghwb/202205/P020220920618304472104.pdf。
国家发展和改革委员会创新和高技术发展司、中国生物工程学会编,2022,《中国生物产业发展报告2022》,北京:化学工业出版社。
施一公、赵进东、陈晔光、金力主编,2024(待出版),《高等学校生物科学类专业人才培养:战略研究报告暨核心课程体系》,北京:高等教育出版社。
责 编∕李思琪 美 编∕梁丽琛