李大舟 沈雪雁 高巍
摘要:从培养化学专业学生的大数据应用实践能力出发,对拟开设的面向化学专业学生的大数据应用实践课程教学进行初步探索,具体从化学大数据教学内容、教学方法与师资培养方面进行了阐述。
关键词:大数据应用实践;教学内容;化学大数据;教学方法;师资培养
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2020)34-0074-03
Abstract: Starting from the cultivation of big data application and practice ability of chemistry major students, this paper makes a preliminary exploration of the proposed big data application and practice course teaching for chemistry major students, and elaborates on the teaching contents, teaching methods and teacher training.
Key words: big data application and practice; the teaching content; chemical big data; the teaching method; teacher training
1 概述
化学专业旨在培养在科研机构、高等院校和企事业单位从事科研、教学和管理工作的基本理论、基本化学知识和较强实验技能的高级专门人才。大数据时代推动应用化学教学,新的教学理念对应用化学专业学生的人才培养有很大的启迪。更加注重自主实验课的参与,更加注重个性化教学体系的精准开发[1]。
随着近期大数据热潮的持续升温,人们意识到 "大数据"并不是指 "海量数据",而是指规模更大、类型更多、范围更广、价值更高的数据。同时,一种新的数据处理难度模式的出现,在产业界、学术界和教育界产生了巨大的影响。随着科学家对大数据的深入研究,人们意识到利用数据为其生产和生活带来了极大的便利,但也带来了不小的挑战。
现阶段大数据还处于应用的初始阶段。目前大数据的化学领域的应用是数据标准化、数据挖掘和数据可视化等比较简单的应用。大数据的管理和分析、基于云计算和网络的数据传输和计算和分布式数据库等核心技术,在化学领域体现的还不够。由此可见,大数据在化学领域的应用存在更广阔的应用空间[2]。
未来,随着大数据技术的发展和改进,传统的分析仪器将在采集和处理的基础上,被已经小型化和便携式的分析仪器所取代。分析仪器最终将沦为具有数据传输功能的检测器,将采集到的数据直接传输到大数据分析平台,数据处理和分析的所有功能都在这个平台上完成。同样,传统的计算机数据管理容量小、数据类型不统一的化学方法,也将逐渐被以云技术为代表的大数据管理和存储所取代。在大型服务器的基础上,可以轻松管理不同领域、不同类型的化学数据。在化学信息领域,进一步研究和挖掘各类化工信息,可以设计和建设基于大数据的化学搜索引擎和化学信息数据库,从而加深对研究内容的理解。另外,在化学计量学领域,对化学数据进行大数据分析模型的开发将帮助研究人员更轻松地处理大容量和复杂的数据源。大数据的可视化技术也可以直观的帮助研究人员对结果进行表达和解释。可见,化学大数据将对化工设备、化工数据管理与分析、化学信息与计量学产生深远而巨大的影响。
沈阳化工大学作为化工院校在2017年开始面向研究生和本科生开设了大数据应用实践课程。经过四年的教学取得了良好的教学成果。在此期间,大数据应用实践课程作为计算机科学与技术专业核心骨干实践课程,在2019年工程认证专家入校考察阶段经过了工程认证专家的认真考核,在工程认证专家反馈会会议纪要中对该课程给予了很好的评价,为该专业成功获批工程认证做出了较大的贡献。
大数据应用实践课程面向化学专业学生开设还处于探索阶段。首先,大数据应用实践课程作为我校计算机科学与技术和数据科学与大数据两个专业的核心课程,虽然已经有一定的教学经验,但是其教学目标、教学方法、课程安排、教学内容、实验设计以及课程考核方法等方面不能直接套用于化学专业教学。其次,化学专业也要依据其学科特色,在专业课设置部分留出一定比例的学时和学分,更新或者增加与大数据紧密相连的化学专业课程。最后,课程教学计划的制定需要计算机专业和化学专业两个专业教师进行深入探讨与沟通,才能解决跨学科教学内容与教学培养目标不一致的问题。作为化工院校的跨学科课程,不仅要实现传统的教学目的,还要体现出化工院校的教学特色。因此,本文结合本校大数据发展的实际情况,针对化学专业开设大数据相關应用与实践课程进行了思考与探索,为化工院校的跨学科教学改革提供支持和参考。
2 面向化学专业的大数据课程教学内容的设计
2.1 国际公开的大型化学数据库的使用
现阶段化学研究离不开大型公开的化学数据库的支持,这一点已经是现阶段化学教育的一个痛点。学生不会使用大型公开的化学数据库,等于无法进入到世界化学研究的前沿领域。公开的数据库如PubChem、BindingDB和ChEMBL代表了大型公共领域化合物活性数据库。ChEMBL和BindingDB包含从数万篇文章中手工提取的数据。PubChem最初是作为美国国家卫生研究院分子图书馆计划的高通量筛选实验的中央数据库而开始的,但也包含了其他数据库(如ChEMBL和BindingDB)的数据。商业数据库,如SciFinder、GOSTAR和Reaxys积累了大量从出版物和专利数据中收集的数据。与公共和商业数据库类似,工业界也产生了大量的数据库。例如,作为阿斯利康国际生物科学信息系统的一部分,仅2008年以前进行的实验就有超过150M个数据点。积累的化学专利是另一种丰富的化学信息资源。IBM在PubChem中贡献了2000年前专利的化学结构。2014年推出的SureChEMBL数据库提供了隐藏在专利文献中的丰富知识,目前包含从1400万份专利文献中提取的1700万个化合物。这些努力使得每个组织内部的数据共享成为可能,并导致 "大数据"的规模进一步扩大。该方面作为教学内容,可以考虑和借鉴现阶段大数据应用实践课程中的互联网爬虫技术,或者学习Python语言和R语言通过公开的数据库提供的访问接口,快速地访问、查找和下载数据库中的感兴趣的化学内容,对数据库中化学数据进行充分的挖掘,实现对前沿化学信息的掌握和利用[3]。
2.2 化学空间的数据可视化和分析
化学数据分析的第一步通常是数百万化合物的可视化和紧凑表示,这也是大数据分析的重大挑战。解决方法通常是通过将大型化合物集合投射到一个低维空间中,便于人脑进行视觉检查和直观分析来完成。它可以帮助检测具有新的化学支架和物理化学特性的化学实体,比较不同的库或识别具有特定药理特征的化学空间区域。典型的方法如原理成分分析、生成式地形图、科霍宁网络、扩散图、以及通过投影高维描述符空间获得的交互式地图。上述可视化方法也可以用来解释结构-活性关系。除了已知的和现有的化学结构所代表的空间外,由虚拟化合物构成的化学空间要大得多。理论上可以列举的潜在分子结构的数量是巨大的。例如,数据库GDB-17中包含了1664亿个分子,这些分子是按照化学稳定性和合成可行性的简单规则,最多可以有17个C、N、O、S和卤素原子的可能组合。虽然GDB-17已经非常大,但如果扩展到20-30个重原子,也就是类药物分子的平均尺寸,那么它将会大很多个数量级。即使是每分钟能够处理10万个分子的快速算法,也需要再进行3年的计算,才能注释完整的GDB-17。这些数据集甚至对传统的化学化合物集合的剖析提出了新的挑战。该方面作为教学内容,可以考虑和借鉴现阶段大数据应用实践中的分布式计算技术,学习Hadoop和Spark等大数据并行计算结构,利用云计算平台打破化学分析中现有的单机本地计算资源有限的瓶颈,实现计算的并行化和云端化。这样才能将过去无法实现的化学分析变成现今可以完成的计算任务[4-5]。
2.3 全新的药物设计方法
全新的药物设计的目的是以定向的方式产生具有类似药物特性和所需生物活性的新化学实体。与一般的虚拟筛选或高通量分析相比,全新的药物设计试图在硅片中生成假设的候选化合物。全新的药物设计分子设计主要有两类方法,一类是基于与已知活性化合物的相似性进行设计,即基于配体的全新药物设计;另一类是基于蛋白质三维结构生成新的化合物,即基于结构的全新药物设计。全新的药物设计需要搜索大型虚拟化合物数据库,如GDB。为了搜索庞大的虚拟化学空间,需要结合高效搜索和多参数优化策略,以尽早过滤掉具有次优特征的分子。例如,物理化学和合成可行性過滤器可以被前置以削减化合物的数量。另一种策略是反应驱动基于片段的重新设计。基于已知的化学反应和市售的构件,通过通常的多步骤和多参数优化过程,寻找满足特定性质的候选化合物,生成化学上多样和合成上可行的化合物。这些基于反应的方法已经被成功地应用于设计新的生物活性化合物。第三种策略是提供一个智能搜索新化合物的方法,即生成足够新的结构,但仍然在模型所覆盖的化学空间内。因此,这些方法在提出新的化学结构的同时仍然保持在模型的化学空间内。该方面作为教学内容,可以考虑和借鉴现阶段大数据应用实践中的海量搜索和超大规模分布式数据库技术,学习Hive和Hbase等大数据存储数据库,利用云计算平台打破化学分析中现有的单机本地数据存储平台搜索效率低的障碍,借鉴Google、百度和其他大数据检索引擎的基本原理实现大数据的检索,完成快速的设计方法的检索[6-7]。
3 面向化学专业的大数据课程教学方法
教学方法与教学内容是密不可分的,教学方法是教学内容的载体,不能完全抛开教学内容空谈方法。在面向化学专业大数据应用实践教学中,教师需要掌握更加多样化的教学方法为教学服务,这不仅可以提高学生的课堂参与度,还有助于提升学生的创新能力。教学方法上本质上是师生交流合作,通过多途径开展交流为面向化学专业大数据应用实践教学提供服务。除了提问法、操作法等传统的交流形式,在面向化学专业大数据应用实践教学中还可以通过网络课堂、协作法和小组会议等方式进行交流。课堂教学需要教师充分利用网络技术,通过跨行业的整合,充分发挥其优势,为课堂教学服务。在课堂上根据化学内容,可以采用多学科的教学方法,以丰富课堂教学内容,提高学生在课堂上的注意力。
在面向化学专业大数据应用实践教学中,课堂教学可以组织学生建立学习小组,将学生学习知识共享平台纳入慕课[8]。慕课具有使用方便、成本低、覆盖面广、有利于自主学习、学习资源丰富的优势。教师引导学生使用慕课平台,指定部分学习内容,学生进行个性化学习,可以学习所有内容,也可以只学习指定小组的内容。每个小组在课程中制作PPT汇报学习,在准备的过程中如果有什么疑问可以通过微信和QQ网络向教师提问汇报,由课程决定由现场汇报完成后,全组学生回答教师和其他组学生的问题,教师可以纠正学生讲解,也可以帮助学生答疑。慕课的教学设计与翻转课堂相结合,如果部分小组成绩较差,教师可以围绕重点进行必要的微课型讲解,但在实际教学过程中,总的来说一节课教师讲解时间不应超过15分钟[9]。除了传统的教师问学生答题,学生、教师要形成并提出答题形式,学生与学生之间也可以在课堂上互相提问,甚至辩论,只有这样才能丰富师生互动的教学方法。面向化学专业大数据应用实践教学中的化学学科学生也要转变角色,以前学生的重点是理解和记忆,而面向化学专业大数据应用实践教学中的重点应该是数据的推理和提问。
4 面向化学专业的大数据课程师资培养
"大数据"的挑战需要经过专业训练的专家,即 "化学领域的数据科学家"来解决。他们能够应对这一科学发现领域复杂多样的问题。来自计算机科学领域的教师,以及对计算机科学知之甚少的化学教师,不太可能有足够的知识和专业技能来解决化学信息学的问题,因此需要额外的培训。这方面的主要问题有以下几个:应如何平衡化学和计算机科学培训?如何在保证高水平的科学专业知识的同时,又能保证以实践为导向的思维方式?应该考虑哪些新的和快速发展的方法?如何培养学生在计算机、化学和药物研究之间的工作?这些问题只有在两个专业的教师之间密切互动中,以及行业企业紧密参与有针对性的研究培训中才能得到解答。在相关方面,我校设立沈阳化工大学教育教学培育工程项目实现政策导向和资金支持,以促进和推动跨学科研究和互动。