黄 娟,王 献
(中南民族大学 化学与材料科学学院,湖北 武汉 430074)
研究生教育是高等院校人才培养中重要环节之一,也是国家科技兴旺发达与否的影响因素之一。在当今大数据时代下,各个高校的研究生教育也需要跟上大数据时代的步伐,探讨研究相关的教育改革措施[1],提高学生的综合素质,培养学生的综合能力,使学生能够立足于今后的大数据时代之中。化学及其相关专业作为科学研究中占比较重的学科,在大数据背景之下,其研究生综合素质培养亟待引起更多的关注。
大数据一词常用于计算机、商业以及信息通讯领域,其主要特点有:大量(Volume)、迅速(Velocity)以及多样化(Variety),即3V特征[2]。如图1所示,大数据集成视图的3个边代表3个维度,分别为Volume、Velocity和Variety。三维维度的增长与准确性呈负相关,但与复杂性、变异性,衰退和价值呈正相关[3]。大数据不同层面的困难包括:数据捕获、存储、搜索、共享、分析、管理和可视化[4]。
近些年来与大数据相关的基础研究及应用发展迅猛,图2是以big data 为关键词,在web of science核心期刊数据库中进行检索后生成的统计结果图(截至2019年2月20日)。图中反映出2012至2016年,文献发表数量增幅均在20%以上,此五年平均增幅为42.6%。从学科方向上来看,排在前五位的学分分别为:计算机科学、工程学、数学、电信学以及生态环境学,而化学类只排在第16位。不过与2014年文献数据[5]比较而言,排名有些许提升,化学中大数据的整理与挖掘有较大的提升潜力,需要得到更多的关注。
科研文献是创新灵感的重要来源之一,由于科研文献的数量呈指数级增长,研究人员发现新的研究课题和课题的改变将会越来越具有挑战性。如果能够借助文本挖掘,将可视化技术应用于文献的主题分析,从大型文本流中提取有价值的内容,则可大大提高科研热点趋势的获取效率,发现特点特定知识领域的主要研究主题、新兴主题及研究前沿和主题演变[6]。
Nadine Schneider等[7]利用近年热门的文本挖掘技术,分析了过去近40年(1976~2015年)从美国专利中检索到的化学反应和所涉及到的分子。结果显示药物专利中,使用的不同反应类型的数量稳步增加,但某些反应类别的平均产率较低。2006~2015年,每个专利包含的反应数由1976~1985年的6.2增加到20.1。在反应类型中,杂原子烷基化及芳基化最多(占27.8%),乙酰化的相关反应次之(占21.3%)。前10名平均反应率在86%~97%之间,主要反应类型为官能团转换,后10名平均反应率在43%~52%之间,主要为杂原子芳基化和烷基化。最后发现如今的药物分子比40年前的更大、更疏水及更具刚性。在未来10年间,铂催化的反应、胺偶联及还原胺反应将会继续增长,Click法和新3+2杂环形成法会更加受欢迎,而保守的铬、铝、锡等化学物质将会被抛弃。
Chang等[8]报道了一种文本挖掘的方法,从PubMed出版物中提取的2128种候选生物标记物中确定了肝癌的的潜在生物标志物。为了缩小范围广泛的生物标记以进行进一步的临床验证,生物信息学家需要使用已发表作品中提供的信息对其进行分类。生物医学文本挖掘是一种在大量生物医学知识中获取感兴趣信息的自动化方法,从而能够提取与某些疾病相关的生物标记物的数据。这种方法可以显着减少研究肝病等重要疾病所花费的时间和精力。
这些应用还包括从文献中提取药物-药物相互作用的药代动力学证据[9]。当然这些科研大数据技术的应用离不开数据库的开发与建立[10],从文献的发掘[11]到数据的采集及处理[12, 13]_ENREF_10,甚至实验方案的优化设计[7, 14~16],均需要开发建立相应的数据库及工具。
从了解知晓各种数据库、自然语言处理及文本数据挖掘技术[17]到尽可能掌握和利用这些数据库及相应技术来提取相关信息,这样才能更好地帮助自己扩大知识背景,加深实验理论研究,提高实验效率。
不管是文献阅读及归纳,还是思路梳理及课题设立,亦或是从方法罗列及筛选,到实验设计及优化,再到数据采集及处理,直至最后结果分析及拓展。大数据及其相关技术能够在科研的各个环节发挥其数据挖掘的功能[18],从大方向上把握整体科研的趋势及走向。
在大数据时代下,科研工作者不仅自身需要学习大数据的相关技术,更需要在培养学生的时候主动提升他们的相关综合素质,导师和学校是研究生培养的关键所在。
大数据时代下导师更需要对学生侧重以下几种能力的培养:收集能力、管理能力、分析能力以及应用能力。
4.1.1 个性化引导与鼓励
通过收集并传递一定数量的文献,导师需要引导学生从筛选中的文献中学习及掌握实验研究所涉及的一些基础知识及必要操作。引导学生拓宽研究课题的应用领域,鼓励并培养学生对于化学研究的学习兴趣,发挥其主观能动性。通过进一步的文献调研,归纳总结,汇报讨论等形式培养学生对新知识的接受与学习能力。大数据时代不仅是数据收集,还需要数据的整理归纳,更重要的是从这些数据中衍生出经自己吸收并消化后的产物。即大数据的收集性,管理性,分析性和应用性。
4.1.2 研究方向的拟定
导师可以根据自身研究方向,结合学生在前期文献检索中对某类课题感兴趣的程度拟定其研究的方向。引导学生对已有文献的收集、管理、分类,与导师及小组成员分享其心得与想法,共同对拟定的研究课题进行改进与完善。当学生在拟定的研究方向上进行顺利时,可鼓励并引导其对此方向进行适度的拓展延伸。当学生在拟定的研究方向上受到挫折时,导师需要鼓励并引导学生主动去发现解决并解释实验中的问题,而不是搁置或回避实验中出现的问题与现象。
4.1.3 数据分析软件的熟练应用
可视化是大数据相关技能中重要的一项。如何利用软件将数据转化成图形或图像便于读者更好地理解作者所表达的内容,这是科研人员必备的一项能力,也是学生所需要学习并掌握的技能。
数据分析与处理是文章的撰写中重要的一个环节,学生能够熟练的掌握这一项技能,不仅能够增加其自信心,提高论文撰写效率,更能使其在以后的科研工作中如鱼得水。应用能力的提升甚至在非科研领域也能为其带来意想不到的收获。导师可以将本课题组所涉及到的一些数据分析软件的常用操作进行整理,并撰写成册,让学生经常温习演练。对于不常用的软件功能也需要让学生熟悉,鼓励学生多掌握几种最新的软件,尽可能全面了解软件中所有的功能。
大数据时代,仅仅依靠导师对学生综合素质强化是远远不够的,学校也需要在研究生综合素质培养的环节上做出力所能及的努力与贡献。
4.2.1 重视与时俱进的文献检索技能实践课程
院校不仅要培养学生传统的文献检索技能,更需要培养与时俱进的检索能力。这不仅能够提升学生的检索能力更能帮助其开拓视野,更好的适应当下的大数据时代。同时也避免了学校图书馆所拥有的数据库资源浪费现象的发生。
4.2.2 重视流行及新兴学术应用软件的培训
学校应该多举办一些流行的以及新型的学术应用软件培训讲座,可将此讲座纳入创新学分统计之中。学校及各个学院可以适当鼓励学生成立一些软件社团,给学生之间创造或增加交流的机会与空间。尽可能多举办一些软件分析的讲座及经验分享交流会,使大家能熟悉和了解大数据时代的数据分析软件,加强大数据时代下学术生态链系统的完善性。
4.2.3 重视与计算机等学科的交叉培养
从大数据应用程度来看,计算机科学、工程学、数学、电信学以及生态环境学排在前列,学校或学院可根据自身学科状况,设立一些交叉培养方案,鼓励大数据优势学科进入各个学科之中。让学生能够接触大数据时代下与其相关度较高的一些基本技能。从教育改革角度出发,学校需要设立更多的化学交叉学科,特别是需要重视及设立与计算机相关的交叉专业,从而能够产出更多的混合型人才。
4.2.4 增加交叉合作成果的认可度
院校应该增加大数据相关学科的合作认可度,提高各学科之间的合作动力,对涉及大数据相关的研究内容及工作量应该另立标准。可鼓励大数据相关文章发表在学校校报,或者其他同水平或更高水平期刊杂志中。
4.2.5 增加大数据相关教育研究的经费预算
对于大多数研究者来说,大数据可能是一个陌生又熟悉的领域。增加大数据相关教育或研究的经费,能够引导研究人员多接触了解此领域,同时帮助其找到与之相关的交叉领域的研究课题。研究人员或导师名下的学生也能够拥有一定的经费开展相关的学习与研究。
4.2.6 联系相关企业进校宣讲
让学生认识到,大数据时代下,各个企业对于某些技能的需求,以及各个科技公司在大数据技能中的发展状况。联系相关企业进校宣讲,不仅能够提高学生对于掌握大数据相关技能的兴趣,更能帮助学生扩大就业范围,同时还能帮助相关企业解决用人问题。
在大数据时代,科研工作者自身需要不断接触并学习大数据相关的应用技术,利用相关软件提高自己的科研综合能力。作为导师,需要培养学生各项综合能力,提高其在大数据时代的综合素质,使他们面对今后的工作能够更加自信。为国家的科技教育事业多做贡献应该是每一位导师的责任与追求。