大数据在高校教学中的应用

2020-07-27 14:56林钦永蔡肯王克强

博鳌观察 2020年4期

林钦永蔡肯王克强

内容摘要随着人工智能、5G技术、深度学习、移动互联网、智能手机、物联网等技术的蓬勃发展，全球图像数据正呈几何倍数的速度增长。同时，海量的数据也带来了存储和处理上的困难。存储容量往往同存储性能成反比，基于单节点的传统处理方法难以有效应对，而大数据中的分布式存储和计算技术等为解决这些问题提供了方案。文章从大数据和神经影像学的概念出发，介绍了具有代表性的分布式存储的处理系统及神经影像学领域中数据共享的现状，随后以脑网络为例介绍了神经影像学中的数据分析方法，最后对文章进行了总结和展望。

关键词大数据高校教学分布式存储

1 引言

随着人工智能、5G技术、深度学习、移动互联网、智能手机、物联网等技术的蓬勃发展，全球图像数据正呈几何倍数的速度增长。这些信息数据主要由使用智能设备的用户产生，具有极大的科研和商业价值。对于大数据的定义目前尚未有统一的说法，一些文献中指出，大数据是指具有复杂结构的海量数据，它们难以使用传统的方法和工具进行处理，它的过程包括数据的获取、存储、格式化、提取、管理、集成、分析和可视化。大数据的“大”对数据的存储和计算提出了更高的要求。另外，神经系统的新型检测和成像技术的发展带来了令人兴奋成果，同时也在数据存储、分析、计算等方面提出了挑战，而大数据技术的发展为这些问题的解决提供了新的途径。

2 背景介绍

2.1 大数据特征

大数据相较传统数据具有体量大、速度快、模态多、难辨识和价值大密度低的特征[1]。大数据的类型多种多样，而处理大数据的方式主要有流处理和批处理[2]。流处理的处理机制是直接对大数据进行处理，而批处理所采用的处理机制则是先将大数据存储到介质中，后续使用时再对它进行处理，也称为先存储后处理。

2.2 大规模神经影像

脑科学研究是近年来的研究热点领域，随着人工智能等工具在脑科学领域的广泛应用，人类已可解码一小部分脑电波信号，脑机交互工程的突破也迈出重要的一小步，实现控制机械臂协助截肢者完成捉取食物等动作。2016年，欧盟启动“人脑计划”项目，耗资10亿欧元，计划研究时长达10年之久;紧随欧盟，美国也推出了美国版的人脑计划项目——“尖端创新神经技术脑研究计划”，该项目计划在10年内投入45亿美元的研究经费[3]。上述项目的投入掀起了脑科学的研究热潮，旨在通过融合神经科学、医学和计算机学等学科的多学科交叉研究，使用超级计算机对现有人脑大数据进行建模计算，探索人类脑部的结构、信息传递、功能及其相互间作用的关系，进而认识人脑活动和人类行为、脑部相关疾病之间的相关性，为开发新的脑部疾病治疗手段和药物研发方法提供理论依据和参考[4]。

人脑大约由1011个神经元组成，而连接神经元的神经突触则高达1015对，构建成庞大而复杂的神经网络，它们通过相互作用共同完成人腦活动的各种功能。当前关于脑科学的影像学研究结果表明许多神经精神类疾病与人脑结构和脑功能网络的异常相关，这些研究结果能够给予治疗这些神经精神类提供指导，同时还可提供剖析神经精神疾病病理机制的新思路，而影像学特征则是临床医生对神经精神疾病进行诊断的依据，它们主要用于早期诊断和治疗。

随着成像设备和成像技术的快速发展，大脑成像的数据量也在迅速增加。一旦这些方法被证实具有较高的可靠性和鲁棒性，那么使用相应的分析方法，研究者们能很快处理它们，而数据处理又会使得数据量成倍增加。事实上，许多关于fMRI（Functional Magnetic Resonance Imaging，即磁共振脑功能成像）的文章，比如行业里权威杂志NeuroImage上的一些文章中，提出自从1995年以来，收集的数据量每过将近26个月就翻一番。按照这种速率，在2015年，仅仅神经影像的图像数据量，每一篇发表的文章中，除去头信息数据处理过程中的信息和统计数据，平均数据容量就已经超过20 GB[5]。

3 分布式存储与计算

3.1 数据存储

fMRI是神经影像成像的一个典型代表，其由于非侵入性、没有辐射暴露等优势广泛地应用于人及动物的脑或脊髓的研究中。在事件相关fMRI中，在常规的空间图像中加入时间维度，即图像是随时间变化的一系列图像。目前，在对老鼠的视觉皮质区域进行监视中，在8 s内的双光子成像可以产生512×512×4的像素。因此，每小时可以产生60 GB的数据。而在整个大脑激光片层扫描过程中，一条斑马鱼每2 s可以产生1000×2000×40个像素。因此，在1 h内会产生1.2 TBs的数据。而随着技术进步带来的空间和时间分辨率的提升，这些数据大小只会进一步增加。

图像数据的爆炸式增长首先带来了存储的困难，为解决高效存储和快速处理图像数据，研究者设计了高性能分布式计算框架，也就是所谓的云计算平台[6]。云计算系统具有媲美超级计算机的计算能力，它采用分布式数据存储和处理技术，将多台计算机的计算能力进行汇总，达到存储和处理海量数据的能力。

云计算系统主要采用GFS（Google File System）和HDFS （Hadoop Distributed File System）进行海量数据的存储和处理操作。其中，GFS是一个具有拓展功能的分布式文件系统，其对计算机硬件性能要求较低，并且具有较强的容错功能，在文件读写模式方面需要在应用程序的协助下完成某些具体操作，主要通过API接口实现与应用程序协同交互，这种设计方式有助于提高该文件系统的操作灵活性[7]。HDFS主要用于存储静态数据，它通过MapReduce将计算逻辑分配给云计算系统的各个数据节点，采用花整为零的方式进行数据计算[8]。客户端能够通过名称结点对元数据进行读和写操作，也可直接对数据结点进行操作[9]。HDFS由于具有可扩展性、效率高、能够在通用平台上部署、可靠性强、成本低等优势大受开发者欢迎，当前已逐步成为工业与学术界公认的海量数据并行处理标准[10，11]。

3.2 数据共享

为了满足临床的需要和病人信息数据的查询共享，我国绝大多数医院都搭建了内部的医疗信息管理系统，如用于影像数据存储和传输的PACS系统，以及用于管理门诊、病历、药库等医疗信息的HIS系统。医院内部的医疗信息管理系统是医院数字化发展的重要产物，其能够服务于医院内各个医疗部门间的信息处理、交互、共享等需求，同时也可实现对公众发布本院临床专家的简介和坐诊时间等信息。医学影像数据是医院所产生数据的重要组成部分，占医院产生数据总量的90%以上，它既是临床诊断的主要依据，也是研究疾病的重要材料。如何存储和管理海量医学影像数据已成为我国医疗信息管理系统的首要问题。医学影像数据库作为存储、传输、管理、处理医学影像大数据的主要工具，是在普通图像数据库技术的基础上融合相关临床医学及生物医学等相关领域的关键信息发展起来的。

当前，医学影像数据库的研究和构建已取得较好的成果，如由病理学家Dr. John Monarch创建的肿瘤及乳房影像的数据库、由ADNI（Alzheimers Disease Neuroimaging Initiative）创建的阿尔茨海默症数据库。而在国内，关于阿尔茨海默症临床数据的存储和管理仍无一个完善、成体系的管理系统，使临床影像数据采集不够规范完整，科学研究者无法充分利用这些影像数据进行深入研究。此外，帕金森综合征、脑连接组成像等领域也建立了相关的数据库，但国内对这些数据库管理同样存在阿尔茨海默症数据库同样的问题。这些数据共享和开放不仅是数据采集者的责任，同时也是数据库管理者的责任。后者需要妥善地对数据进行管理，以安全有效地提供给需求者相应的数据。但是，由于存在各种互不相关的项目，而且这些项目有的涉及伦理方面，在能够有效利用之前必须先妥善地处理好这方面的问题。神经影像数据的共享能够起到以下作用：能够广泛利用世界各地的数据;能够用于最新的方法当中;推广数据的重复分析和重复使用。

4 神经影像学中数据处理方法：以脑网络为例

目前，经过多年的积累，全球多家医院和多个知名实验室在对神经精神类疾病的研究中已积累不同研究领域的大量数据，这些大数据主要有基因组学的实验和临床研究数据、神经组学的实验和临床研究数据、多模态脑影像的实验和临床研究数据。由于实验数据量呈现几何倍数增长，以及数据间相关性的错综复杂，仅仅通过孤立的实验观测和传统的数据统计方法已难以剖析数据内部隐藏的规律。因此，如何利用大数据模型结合深度学习方法计算多尺度多模态的相关性，从基因层次到神经元层次再到脑结构网络层次形成多层次的学科交叉研究成为未来发展神经影像学的重要方向之一[12]。

当前，神经影像学的一个研究热点是脑网络研究，其研究方法大致可分为两大类。第一类是基于组块—事件关联性的研究方法，如局部一致性分析法[13]、小世界模型分析法[14]、默認模式网络分析法[15]等[16];第二类是基于机器学习方法使用这些神经影像数据对患者进行个体分类及预测，其中深度学习已成为分析神经影像数据的重要方法[17，18]。

应用机器学习方法对脑网络分析的前提是先构建脑网络，而脑网络的构建可分为功能性网络和结构性网络。通常，结构性的脑网络通过神经影像序列进行构建，如通过采集弥散张量成像或扩散频谱成像序列，再结合医学上的连接模式来创建大脑网络的相关性，并使用矩阵表示脑网络的相关性，从而构建出结构性脑网络。而功能性脑网络的构建则需要采集相关大脑区域活动的神经影像学时间序列，再结合聚合测量方法对这些神经影像学时间序列进行计算分析，从而得到神经影像学时间序列的相关性，这种相关性同样能够使用矩阵的形式进行表示，该矩阵代表了脑网络时间序列的相关性。

应用机器学习方法对脑网络分析的关键步骤是使用神经影像数据进行特征学习，它为后续的网络分类提供重要依据。特征学习的一般步骤是先从脑网络数据提取用于学习的特征，通常选择一些有意义的网络局部测量作为学习的特征，然后采用机器学习中的一种或多种特征选择算法筛选出一些有助于分类和理解疾病的重要特征。机器学习方法应用于脑网络分析的目标在于对脑网络进行分类和预测。脑网络分析方法中广泛地使用机器学习和模式识别中的各种分类方法，其中，该方法因能够提供一个通用的框架而得到了广泛的研究和应用。

5 结语

随着成像设备和成像技术的快速发展，如磁共振波谱成像、扩散加权成像、灌注加权成像、扩散张量成像等成像技术的出现，极大地推动了神经影像学的发展，为神经影像科学家对大脑神经的结构和功能的认识和进一步研究提供了基础。但是，海量的数据也带来了数据存储、处理的困难。普通图像数据库技术由于其文件管理系统无法实现分布式存储和处理大数据，加上硬件设备无法提供大数据处理所需的强大算力，因而出现效率低、并发性低、可拓展性差等问题。现代化的大数据存储和处理技术，如云计算系统，在神经影像学上的应用可有效地解决上述问题。云计算系统所采用的分布式数据存储技术能够满足海量的数据存储和处理能力，它具有将存储资源进行抽象表示和统一管理的功能，同时还具有良好的数据安全功能，能够保障数据在安读写操作过程中的安全性。文章介绍了两种典型的分布式存储处理系统，即谷歌公司研发的GFS和Hadoop研发的HDFS系统，还对神经影像在数据共享方面的现状进行了综述，最后通过一个脑网络计算实例展现了神经网络中数据分析的一般流程。然而，目前在神经网络中，这些海量数据的存储和处理技术还远远未成熟。随着这些应用的进一步深入，必能推动神经网络学的进一步发展，为人类解开大脑的谜题奠定基础。

【参考文献】

[1]Cheng X，Jin X，Wang Y，et al. Survey on big data system and analytic technology[J].Journal of Software，2014，25（9）：1889-1908.

[2]孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013（1）：146-169.

[3]顾凡及.欧盟和美国两大脑研究计划之近况[J].科学（上海），2014，66（5）：16-21.

[4]邵亚超，刘光明，吴思，等.面向高性能计算平台的脑科学仿真技术研究[J].北京师范大学学报（自然科学版），2015（6）：576-581.

[5]Van Horn J D，Toga A W.Human neuroimaging as a “Big Data” science[J].Brain Imaging and Behavior，2014，8（2）：323-331.

[6]张功荣.基于云计算的海量图像处理研究[D].福州：福建师范大学，2015.

[7]蔡键，王树梅.基于Google的云计算实例分析[J].电脑知识与技术，2009（25）：7093-7095+7107.

[8]程学旗，靳小龙，王元卓，等.大数据系统和分析技术综述[J].软件学报，2014（9）：1889-1908.

[9]黄晓云.基于HDFS的云存储服务系统研究[D].大连：大连海事大学，2010.

[10]廖彬，于炯，张陶，等.基于分布式文件系统HDFS的节能算法[J].计算机学报，2013，36（5）：1047-1064.

[11]陈吉荣，乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学，2013，35（10）：25-35.

[12]汲小溪.大数据驱动的计算生物标识研究[D].上海：复旦大学，2014.

[13]侯小燕，陈维翠，陈俊，等.组穴针刺治疗颈痛患者默认网络的ReHo研究[J].磁共振成像，2014，5（6）：436-440.

[14]Sanz-Arigita E J，Schoonheim M M，Damoiseaux J S，et al.Loss of “small-world”networks in Alzheimer's disease： Graph analysis of FMRI resting-state functional connectivity[J].PloS One，2010，5（11）：13788.

[15]Greicius M D，Srivastava G，Reiss A L，et al.Default-mode network activity distinguishes Alzheimer's disease from healthy aging： Evidence from functional MRI[J].Proceedings of the National Academy of Sciences of the United States of America，2004，101（13）：4637-4642.

[16]Bai F，Zhang Z，Watson D.R，et al.Abnormal functional connectivity of hippocampus during episodic memory retrieval processing network in amnestic mild cognitive impairment[J]. Biological Psychiatry，2009，65（11）： 951-958.

[17]田苗，林嵐，张柏雯，等.深度学习在神经影像中的应用研究[J].中国医疗设备，2016（12）：4-9.

[18]张道强，接标.基于机器学习的脑网络分析方法及应用[J].数据采集与处理，2015，30（1）：68-76.