穿越大数据 引领科学梦
——记哈尔滨工业大学(深圳)计算机科学与技术学院助理教授廖清

2019-05-06 02:56刘玉杰
科学中国人 2019年6期
关键词:数据挖掘样本维度

□ 刘玉杰

通过统计用户的购物记录,可以基于用户的浏览、点击、收藏、购买等行为推断出该用户的年龄、性别、购买能力、爱好等,也就相当于用这些挖掘出来的属性为用户画像,刻画出一个更加真实的用户形象。同样,通过一个简单的肿瘤样本,可以做些不简单的事,不但可以了解到肿瘤的类型、属于哪种疾病分类,还能分析出肿瘤是良性还是恶性,以及恶化到哪一阶段等。这些就是数据挖掘,从字面上理解,就是在海量数据中找到有用的数据,而“有用”的限定范围要看具体的业务目标。

如今,我们进入信息时代已有多年,冗杂的数据与信息还是不断如浪潮般袭来。但这些数据大多难以得到有效利用,其中包含的多重有用价值也亟待挖掘。数据挖掘正是一种可以挖掘这些数据价值的技术。

而这种技术也并不是什么新鲜事了,最早可以追溯到20世纪70年代,从电子邮件阶段、信息发布阶段,到电子商务阶段,再到全程电子商务阶段即软件服务模式,发展至今,数据挖掘俨然已是一位年近半百的“老者”了。而在近几年,随着人工智能领域的大热,数据挖掘也开始受到越来越多的关注。

在哈尔滨工业大学(深圳)计算机科学与技术学院,有一位科研人员,同样密切关注着数据挖掘技术的发展,她就是廖清。十几年如一日,廖清每天都与数据挖掘和深度学习为伴,她以基础理论与应用研究为主,细细挖掘着高维度、少样本数据的表征学习模型设计及算法优化中的价值。

执着科研 求数据真知

提到人工智能和数据挖掘,廖清整个人瞬间变得“生动”起来,连说话的语气都透露着一丝轻快。“完全是兴趣,我对人工智能与数据挖掘永远都充满热情。”廖清说道。身上一直有着“冒险精神”的廖清,对新事物总是无比好奇,也勇于尝试。2006年,廖清来到澳门科技大学学习计算机科学与技术专业,自此便开启了自己的科研旅程。

但在本科期间廖清并没有深入接触与数据有关的研究方向,仅对数据有了初步的认识,为了加深认识的程度,2010年毕业后廖清来到香港科技大学继续进行计算机科学与技术专业的硕士学业。也正是在硕士期间,廖清得到了第一份与数据相关的工作。当时,她的任务主要是基于新浪微博平台,寻找到具有网络影响力的“网络大咖”。为此,她通过新浪微博,搜集并分析了无数的数据。“在这个过程中,我对数据分析开始产生兴趣。”廖清表示。她还发现,在对数据进行分析时,需要用到许多她在本科期间学习的表征学习方面的知识。“只有先学习能够正确反映当前原始数据特征的知识,才能进入到对数据进行分析的阶段。”廖清补充道。

兴趣是廖清科研路上巨大的推动力,在兴趣的引领下,很早就立下“攻读博士”志愿的廖清,在硕士毕业后更加坚定了自己的想法。于是她继续在香港科技大学进行计算机工程专业的学习,主要在数据理论模型方面进行研究,并在学习与研究过程中积累了大量针对高维度数据分析的机器学习理论模型和应用研究经验,对数据分析有了深刻的认识,为后来参加工作后的研究打下了坚实的基础。

2016年,毕业后的廖清来到哈尔滨工业大学(深圳)计算机科学与技术学院任职,她在延续博士期间研究方向的基础上,将研究范畴进行了扩展。廖清围绕高维度、少样本数据分析这一方向,将高维度数据表征学习技术融入到少样本数据分析中,一步步用扎实的脚步开拓出崭新的研究领域。

虽千万人吾往矣

孟子曾在《孟子·公孙丑上》中抒发了自己心中“虽千万人吾往矣”的大志,在数据表征学习这一领域里,纵然面对无数的研究阻碍,廖清也没有丝毫退缩,而是一如既往,勇往直前。带着这种勇气与气魄,廖清始终在为了心中的科研理想而上下求索,哪怕直面困境,她也无畏无惧。

刚刚在数据分析研究上有些“柳暗花明”的廖清,从校门步入工作岗位后不久,就遇到了数据上的阻碍。廖清表示,当前在大数据时代的背景下,数据的高维度、少样本现象已经非常常见。她特别提到,数据一词很好理解,那什么又是高维度数据呢?譬如一个人可以同时具备多种特征,黑头发、蓝上衣、戴眼镜等,每一个特征都可以被看作是一个维度。如果想要细致描述这个人,是可以有成千上万个维度可供利用的。虽然近年来,数据的采集能力在不断增强,一次性采集成千上万维数据特征已不成问题,但尽管如此,能够采集到的样本数目却仍旧很有限。例如,在生物信息中,采集到的数万个特征的样本组织中,只有一个肿瘤样本;而在推荐系统中,一次采集一个几千维个人信息里,也只有一个顾客样本……

这样的现象还有很多,因而在这些应用领域里,虽然存在着大数据现象,却也一直饱受着数据高维度、少样本的困扰。利用传统的机器学习方法,通过手动提取特征确实可以降低数据维度,将少样本数据进行切割或者复制也的确可以达到提高样本数目的目的,但这些方法也仅仅能暂且间接缓解传统机器学习在高维度、少样本数据上的性能瓶颈,长远来看并不如意。一旦发现问题,廖清绝不容许自己有丝毫的耽误,她开始针对高维度、少样本数据,打破传统机器学习在此类数据上表征学习难、性能不佳的瓶颈,取得了巨大突破。

廖清先是针对数据高维度问题,在提出的降维模型基础上,提出了新的高维度数据表征学习技术。她创新性地引入Log-determinant散度理论,将该理论与降维模型结合,首次解决了由于秩缺陷导致表征学习失败的问题,降低了表征学习应用中出现表征失败的风险,提高了降维模型在表征学习上的性能。她从理论上证明了降维模型可扩展到当前大部分非负矩阵分解工作中,解决了非负矩阵分解技术在秩上的技术缺陷。该成果发表在顶级会议IEEE ICDM上,还获得了人工智能领域知名专家,澳大利亚科学院院士陶大程教授小组的高度关注。

接下来,廖清发现在现实世界中,存在着大量被称为“数据孤岛”的少样本数据集,由于这些数据的特征、标签和分类任务都不相同,使得数据源之间无法互相融合。为此,针对数据少样本问题,廖清设计了多任务深度学习模型,她首次将不同类型与不同来源的少样本数据集集合在一起,利用多任务学习技术将其融合在深度卷积神经网络中,有效解决了因数据少样本导致的表征学习不准确、数据建模难等问题。这种利用多源数据共享表征来帮助少样本数据进行表征学习的方法,为解决“数据孤岛”现象开辟了全新的研究思路。值得一提的是,该模型在“天河”超算平台上,将罗氏制药、日本癌症研究基金会等多个研究机构的肿瘤数据进行结合后,提供了更加精准的医疗诊断。对此,国家超级计算中心主任卢宇彤教授高度评价道:“这是‘天河二号’超级计算机与大数据、人工智能融合的创新发展,是提升超算应用水平的代表性应用。”

此外,廖清表示,在现实数据中,存在许多“维度灾难”。首先,数据的超高维度现象会极大增加数据处理的复杂程度,这就会使得许多传统数据模型很难对海量的高维数据进行有效处理。其次,在学习过程中,丢失的数据结构信息也会降低表征学习的效果。

于是,廖清针对高维数据降维速度慢、表征学习不稳定、学习过程丢失数据几何特征等问题,设计了几种效率更快、更优的数据表征优化算法和模型,包括保留了原始数据局部信息的表征学习模型,还有几种能快速迭代收敛的模型优化算法。她在Signal Processing期刊上发表论文,提出了新的局部图非负矩阵模型。此类模型既能够学到更优的数据表征,还可降低模型在大规模数据集下的学习时间,不仅能够快速收敛,以便保证表征学习的稳定和有效性,而且更能够保留原始数据的结构特征。

人才培养 书写数据新篇章

除了在科研中兢兢业业,廖清也没有忘记将自己这份对数据挖掘的热爱传递下去。在来到哈尔滨工业大学(深圳)计算机科学与技术学院以前,廖清在博士期间就有过担任本科生实验课助教的经历,工作后她一边潜心研究,一边积极参与学院多门本科课程的教学方案研讨、教学大纲设计、教案编写等工作。目前,廖清主要讲授“软件工程”和“大数据技术与应用”两门本科生课程。同时,作为“软件工程实践教学研讨会”的成员,廖清还积极参加国内软件工程方面的教学研讨会,与国内高校同行老师都保持着密切的沟通,时常就教学经验进行交流,积累了丰富的教学理论与实际经验。

在不断丰富自身的同时,廖清也开始了对个人学术研究之外一些问题的探索,这其中就包括在数据挖掘领域里人才的培养。她提到,由于自己本身比较独立,她也因此希望学生能够具备独立科研的条件。她不希望看到学生只会每天“埋头苦读”不闻窗外事,而是能够做自己在科研中的“领导者”。因此在针对数据挖掘方面的教学思想与理念上,廖清始终将学生放在首位,以学生的个人发展为本,强调学生探索新知识的经历,并引导学生了解获得新知识的体验。与此同时,廖清充分实施多样性与丰富性并存的教学过程,以此来培养学生的创新精神和创新思维。在廖清看来,科研的进步离不开创新思想的协助,因此在教授好专业知识的前提下,廖清还尽自己最大能力充分调动起学生对学习的积极性,大力倡导以“主动、探究、合作”为主要特征的新的学习方式,为行业增添新鲜血液。

除了注重学生在学校期间的学习,廖清也意识到学生不能只在学校这个“温室”中,还要走出校门,接触更广阔的天地。在引导学生更深入地研究专业知识以外,廖清常常鼓励学生将课堂知识转换为课外实践,并积极参与各类知识竞赛,以扩充自己的见识。于是,在课堂授课与实践教学的指导上,廖清一方面重视课堂的教学过程,在看似枯燥的教材中尽量充分挖掘出其中的趣味因素;另一方面,廖清将课本中的“死”知识转化为现实中的“活”例子。她表示,通过将抽象的教学知识转化为身边事例的教学方法,可以使学生对课堂更感兴趣,也会更乐于接受新的知识,这样就可以帮助学生从“被动学”变为“主动学”。

与学生在一起

这样有针对性的教学方法,必然少不了廖清在课前做的充分准备。她在讲每一个知识点前,都会在心中“彩排”多次,还会反复问自己,是否能给出具体的示例,来帮助学生更好地理解知识,理解后又是否能用学生比较容易接受的方式将知识点串连起来。此外,课堂上的廖清也并不是唱“独角戏”,她会适当在课堂上增加与学生之间的互动,与学生在学术讨论中进行思路碰撞。例如,她在基于示例讲授知识点的过程中,会通过给出的多个示例,将讲授内容的难度层层渐进,与学生展开积极互动,鼓励学生思考,还会让学生以游戏闯关的方式,自己发现知识难点并找到解决方法。

廖清这种特色鲜明的教学思想理念与讲授指导方式取得了良好的教学效果,极大地调动了学生课堂的参与性,原来学生只听课不提问的状态早已不复存在,取而代之的则是积极活泼的上课状态,令学生从被动的知识接受方变成了主动的学习者。课后,学生们也常常会围在廖清身边就学习到的课程内容进行更深入的讨论。一切就绪后,廖清并没有一身轻,她还会对在教学中发现学生存在的问题进行总结,并用案例的方式在下一堂课前展示给学生,帮助学生对知识点做更全面的了解。通过这些方式,学生对知识产生了浓厚的研究兴趣,自己主动积极申请加入课后研究小组,主动参与课外项目,还积极报名参加各类知识竞赛。

人工智能与数据挖掘这条路很长,也很艰辛。廖清时常对学生说,如果在研究过程中觉得很痛苦,事实上是自身成长的过程,等到度过这段“痛苦期”,就会发现所有的苦难都是过眼云烟,等待他们的终会是满满收获。未来,廖清还会带着她那份自信、务实与坚韧走在人工智能与数据挖掘的大道上。

猜你喜欢
数据挖掘样本维度
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘和海流要素的船舶导航改进研究
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
基于支持向量机的测厚仪CS值电压漂移故障判定及处理