美国大学如今这样学习

2014-04-29 00:44李露
大学生 2014年5期
关键词:关节点图像研究

李露

12岁女孩造出机器人画家

无人控制的“水彩机器人”!能用滑竿固定的画笔蘸取不同的颜料,还能对照电脑屏幕上的原画(雄狮)进行临摹!这“水彩机器人”有条不紊地先画狮头,后画狮身,最后再细致地点描雄狮的鬃毛。不到五分钟,一头气宇轩昂,悠然散步的雄狮便跃然纸上!

那是2013年11月,某次午饭后我在UCSD(美国加州大学圣地亚哥分校)校园中散步,被计算机楼外的这款“水彩机器人”深深吸引。当时我粗略估计,创作这款“水彩机器人”至少运用了大学课堂中机械学、电子工程学、计算机学、物理学等学科的知识。首先,制作者需要在电脑上用Linux操作系统编写软件程序,使之能够从网络、电脑文件夹中任意调用想绘制的画作。其次,一条带有USB插口的数据线将电脑与集成好的硬件电路模块Eibotboard相连,电脑上抽象的图像信息就转化成了硬件命令。Eibotboard模块简称EBB,它是一个5cmx5cm的小型单片机,专门用于控制步进电机的机械运动。步进电机(stepper motor)是一个利用电磁效应带动其中齿轮转动的动滑轮。从它的英文名称来看,不就暗示着这是个执行一步一步机械动作的小型机器吗?这正好完全符合我们绘图时画笔的机械操作呀!我们在绘画时,不论勾勒还是染色,不也是分为不同的步骤吗?每一次蘸取相应的颜料,在画纸上轻点或重抹。因此,步进电机在接收到来自EBB的指令后,带动用绳线链接的交叉的滑竿。绑定在垂直滑竿上的画笔就在每一个时间单位,在图纸上相应的二维坐标点处描画指令中要求的图案与颜色。

在我惊叹于这款设计精妙的“水彩机器人”时,设计者正好从楼中出来设置下一幅待绘的图画。设计者是一个名叫Sylvia Todd(西尔维娅·托德)的12岁美国小女孩。她在2013年8月创作出这款发明后,便受到了美国很多媒体的关注。此时她正在UCSD的校园里讲解、展示她的作品呢!我情不自禁询问尚未踏入大学校园的她,如何能将许多专业的学科理论应用到实际,实现自己新奇的想法呢?她说,网络上有那么多学习资源,不懂的就学呗!比如一开始对于编写机器人的程序无从下手,可以在网络上找到很多相似应用的开源代码。从模仿到创造,一边学习一边进步,遇到困难可以向网友求助,与不认识的人在线探讨、解决共同的技术难题,这是一个快乐的过程!西尔维娅无形中利用了互联网时代的无限的数据资源,巧妙地融合了各个学科的知识,发明出为自己绘画的新“画家”。

互联网爆炸式发展的当下,我们大学生的学习途径从课本、图书馆拓宽到了网络平台。对于大数据的有效利用,甚至可以将我们所学的不同学科的知识进行融合,创作出新的发明发现。我在UCSD交流学习期间,对此感触颇深。

游戏设备与医学难题

西尔维娅利用看起来毫不相干的学科知识实现了她的娱乐发明,我却利用一项娱乐产品拓展了其在医疗上的应用。整个2013年暑假,我都在UCSD视频处理实验室(Video Processing Lab)进行科学研究。当时UCSD电子电脑工程学院(Electrical and Computer Engineering Department)的副主任,也是该实验室的主任,Professor Truong Nguyen(阮·纽彦教授)分配给我的一个交叉学科的科研项目,是利用视觉技术鉴别帕金森疾病。

刚刚接到研究任务,我苦思冥想,觉得直接利用普通摄像机拍摄病人再分析图像、设计模式识别的算法,工程量太过庞大。我家里有微软公司发行的体感游戏设备KINECT XBOX,功能之一就是能够鉴别玩家的舞蹈动作,为何不借助它现有的技术辅助我的科研项目呢?于是我找到了微软官方网站提供的KINECT的两个程序包OpenNi+Nite.2和Windows SDK,研究它提供的部分开源代码。钻研过程中,我惊喜地发现我逐渐揭开了这款游戏设备背后神秘的技术面纱。

为什么游戏玩家在KINECT的摄像头前做出任意的动作,KIENCT都好像记在“心”里,并且能跟屏幕上标准的舞蹈动作相比较,看看匹配的程度有多高,以此打分呢?又为什么游戏玩家挥手指示“开启”、“关闭”等命令,KINECT就聪明地理解了指令,打开新的菜单栏或关闭当前的游戏项目?原来,KINECT的软件系统中,有图像处理、模式识别的算法。它先通过深度摄像机提取出游戏玩家的深度图像数据轮廓。一个图像有基本的彩色数据,我们称之为标准RGB图像,比如我们看到的由红、绿、蓝三原色组成的五颜六色的海报、照片。图像的深度数据则仅仅含有摄像头与物体之间的距离信息。KINECT提取的玩家的深度图像仅有单原色比如蓝色。但是用户身体各个部位距离摄像头有细微的空间差异,所以我们看到的是一个大致的轮廓剪影,剪影中的浅蓝、深蓝反映了身体不同部位和摄像头之间的距离。接下来,经过图像去噪等预处理步骤,不必要的干扰被去除,KINECT估计出由剪影代表的玩家头部、肩膀、脊椎、臀部、膝盖、手脚等关键点的位置。那就是人体骨架!

半个月后,我提取出了含有15个身体关节点的人体骨架。尽管图像的轮廓看起来十分粗糙,提取出的骨架的部分人体关节点随时间的运动并不稳定,但我在摄像头前较为缓慢地做出一些基本动作,如抬腿、抬脚、大步小步走、转身等等,软件系统仍能识别出来。我把这一初步结果展示给自己的教授,他十分欣喜,带着我一同去参加和医学博士、运动学专家、生物医学系的教授们的组会。但是在组会上,几乎所有的专家都坚持研究接触式的传感技术。这情有可原,因为如今美国其他研究机构都在使用该技术鉴别、治疗运动类医学疾病。该技术的主要思想是让病人在身体的某些部位戴上或安装不同的传感器,病人在进行身体活动时,这些传感器便将检测到的行为通过数据线输送到电脑,电脑再进行后续分析。但是,这种成本十分高昂,按照医学博士的话说“说真的,我可不想再在一个病人身上安装一百个传感器了!”鉴别一个病人的病症就需要如此复杂、高额的方法,所以想要在美国各大医院大规模低成本地鉴别帕金森综合症可能性极低。这也是我们这个交叉学科项目组想寻求技术突破的地方。

在那次组会上,我甚至都没来得及展示自己阶段性的成果,骨架识别帕金森疾病的科研方向就被打入冷宫。我还清楚地记得当时其他人都离开了会议室,我还一个人孤单地坐在转椅上,心情十分低落。

但是我并没有放弃自己选择的研究方向,我只想进一步论证我的想法,希望在一个半月后下一次正式会议时说服大家,确定下全组“利用视觉技术鉴别帕金森疾病”的大体科研方向。我自己的力量如此渺小,一个半月的研究时间并不宽裕,我如何能同时实现科研上的进展以及一鸣惊人的科研展示效果?我发现当前的问题在于,首先我提取出的骨架在手肘、膝盖、脚踝等位置的关节点并不十分稳定,尤其当用户做快速运动的时候;其次,我只展示出了深度图像的人体骨架。

UCSD图书馆内自然藏有不少关于图像处理、模式识别的经典书籍。我在从头学起的同时,却发现所接触的知识太过宽泛,对我当前科研项目的针对性并不强。UCSD早已为学生购买了IEEE Xplore等免费的数据库,国内也有最大的程序员平台CSDN,为什么不加以利用?于是我经过精确的搜索,找到了专门研究人体步态识别、帕金森疾病的行为症状以及KINECT工作原理的专业论文。

仔细阅读后,受益良多。对于帕金森综合症,我着眼于抖动(Tremor)、运动缓慢(Bradykinesia)、僵硬(Rigidity)、身体失衡(Postural Instability)等四个最为显著的行为症状。从模式识别中人体行为研究的分支出发,结合KINECT的硬件构造、识别算法,我重点研究了关节点处抖动平滑处理方法。也就是在每一个关节点都设置一个微小的活动半径。用户在运动时,关节点也在运动。如果这个关节点的运动处在这个预估半径之内,那么把它“拉回”该预估圆的圆心;如果关节点超出了半径范围,则视为新的点,说明该关节在做一个新的、甚至大幅度的运动。并且,我从KINECT深度摄像机和彩色RGB摄像机中,分别提取了深度图像数据流和彩色图像数据流,希望人体骨架可以在两种数据流中显示。

正式组会前的一周,我终于提取出了更为完善、稳定,增加了脚踝、手腕、臀部中心这5个点的20个点的人体骨架,并且可以让人体骨架分别显示在深度图像和RGB标准(红、绿、蓝色彩模式)图像里面!这样一来,展示效果更加清晰、贴近生活。在这一过程中,我甚至钻研出通过肤色匹配、曲率比较等方法大体实现部分肢体如手、脚的识别。

科研目标完成,剩下一周时间,我便潜心准备报告展示技巧的训练。擅长演讲的美国白人小伙伴们向我推荐了加州大学系统的一系列网络演讲训练资源,曾经一起在CSDN程序员论坛上探讨过技术难题、却远在美国东部上学的朋友甚至帮助我改进了报告的PPT。在这一周,借助YouTube上TED的视频资源、加州大学系统数据库中关于口语提升的资源,我克服了自己作为一个刚到美国半年的中国学生的胆怯,努力地适应、学习了白人“包装”的技术,提高了自己的语言展示能力。

最终,在正式的组会上,短短的十分钟内,我自信、高效、清晰、准确地做了我的科研成果报告,并且现场试验了骨架检测的效果。UCSD运动紊乱研究中心(Movement Disorder Center)的主任Irene Litvan博士和步态实验室(EPARC LAB)的主任David Wing十分惊喜,直呼:“That's definitely beautiful and efficient!(这真是漂亮又高效!)”也就是在这次组会后,我们全组最终确定下了视觉技术鉴别帕金森疾病的大致科研方向。我的实验室导师还给我买了一台笔记本电脑作为奖励,实验室的博士师兄们告诉我,这还从来没有过!导师和Litvan博士鼓励我主笔项目经费申请书,向美国医疗健康研究资金委员会(Health Science Research Grant Committee)申请项目资金。

可以说,我通过自己的努力让坚持的想法变成了现实。但是在这过程中,我清楚这并不是完完全全靠我一个人的努力。如果我不联想到游戏设备KINECT在生物医疗上的潜在应用,也许我会漫无目的而丧失明确的科研切入点;如果我不懂得利用现有的数据库、专业论坛,只是一个人天天在实验室里闷头捣鼓,也许我的进展会十分缓慢甚至钻入错误的牛角尖,人也变得更加灰心;如果我没有借助优秀的网络平台,提升我的英文科研表达能力,即使我有实际的科研成果也不能将它良好地展示出来。我清楚地意识到,把观点执行成现实,甚至让不了解你的美国专家尊重并接受你的观点,需要坚持、勇敢、独立、勤奋,更离不开日新月异的大数据资源,它让我明白了我永远不是一个人在奋斗。

美国方言原来可以这样解读

我在UCSD学习专业课程、进行视觉技术研究的同时,也没有放弃对人文学科的关注。在秋季学期快结束时听了一个语言学研究者利用Twitter研究美国方言分布的报告,感觉十分有趣。

UCSD语言学院的语言学博士Gabriel Doyle(加布里埃尔·多伊尔),对美国方言的地区分布及地域传播进行了长时间的研究。即使是美国的标准语言美式英语,在不同的地域和不同时期都有特定的说法。他目前的研究方向,是借助社交媒体上来自美国各个区域的人们的表达方式,利用数据库自动地绘制出方言随时间、地域变化的分布图。通过实地考察、文字记录变化等旧的人工方法需要3~5年才能绘制出粗略的方言分布图。而他巧妙地利用Twitter上用户的个人地域信息及他们的推文建立了庞大的数据库,并对同一个词语的不同方言进行了分类总结,用时极短。举个例子,“你们”这一称呼在美国是常用语,出现在了大量用户的推文中,Gabriel用了五天时间借助电脑搜索、统计软件的搜集、整理分类,发现美国北部的人倾向于说“You guys”,中部的居民会说“You”,而南部的居民则大多说“Y'all”。三种方言出现的数量、频率被以数据形式保存在Gabriel的数据库中,并转化成密度分布图。Gabriel把自己的这一发现同传统的研究数据进行对比,发现相似度高达80%,自己的新图更呈现了旧图不具备的近年来的方言地域传播和变化趋势。

另一个例子是“高速公路”,最普遍的用词是“Highways”,这一说法贯穿美国东西各大洲。美国西南地区的人们则倾向于说“Freeways”,而加利福尼亚州北部地区的学生则有另一个特别的称呼“Hella”。这是Gabriel通过Twitter获取的方言研究的一个新发现。这一以精确详细的密度图表呈现的发现和语言学相关的报道完全吻合!他的这项借助Twitter研究美国方言分布的新科研方向,在UCSD的大数据研究中心进行了展示。

更加广泛的应用又何止方言?Gabriel还尝试了利用Twitter进行了美国地域降雨量的估计。他汇集了一段时间内Twitter用户推文中关于“雨”的信息,也许是用户对于雨量的客观描述、几句抱怨或期待。他也将数据结果呈现在一张地域分布图上面,这和雷达所获取的精确信息在误差范围的允许内吻合。不过在研究的过程中,他还是发现了利用大数据平台进行相关研究的问题。首先,他只能获得Twitter使用频繁地区的有效数据,例如互联网普及的大城市。对于Twitter用户很少的欠发达地区则缺乏有效数据。另一个问题是在获得的原数据推文的处理上面,Gabriel使用了现有的高斯函数消除误差,但这一定是最准确的纠正函数吗?他期待着更加完备的数据处理函数出现,消除不必要的信息以及错误数据。

Gabriel的展示会场,观众频频发出会心的笑声。也许大家都和我一样,觉得自己看似毫无重要信息的推文,和千百万用户的推文汇聚到一起,竟然“创作”了这样新奇有趣的科研工作吧!

责任编辑:张婷

猜你喜欢
关节点图像研究
改进的LapSRN遥感图像超分辨重建
FMS与YBT相关性的实证研究
辽代千人邑研究述论
基于深度学习和视觉检测的地铁违规行为预警系统研究与应用
关节点连接历史图与卷积神经网络结合的双人交互动作识别
有趣的图像诗
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
搞好新形势下军营美术活动需把握的关节点
RGBD人体行为识别中的自适应特征选择方法