卿胜蓝
在警匪片中我们经常看到这样的场景:从监控录像中发现一闪而过的不法分子后,镜头定格于人像,警察紧紧盯着电脑屏幕说:“放大,增强。”接着,技术人员一通儿敲打键盘,经过神奇的图像处理加工,电脑屏幕上呈现出一张清晰的面部特写。
然而在现实生活中,用低像素摄像机拍出的人像,一经放大,呈现出的并不是分明的五官,而是一团模糊的图像。如果是在黑夜里拍摄,图像情况会更糟。
在光线作为信号产生图像的过程中,比较粗糙的部分是噪点,光线暗的环境下收录的噪点较多,信噪比低。用信号处理的方法提高图像的分辨率是比较普遍的方法,比如直接通过电脑计算提高图像信噪比。这种技术常被用在有线电视、数码相机等呈现图像的媒介中,它可以提高图像的质量,但还不足以还原被“马赛克”覆盖的图片。
不过几家大型技术公司和研究机构正在把电影中的情节与现实拉近。今年2月初,Google大脑团队就成功运用人工智能技术将只有8×8像素(即8个像素点×8个像素点)的马赛克图片复原到了32×32像素的图片。
在这次研究中,Google尝试恢复了明星人脸和卧室照片两种类别的图片。以明星人脸为例,首先机器需要对大量普通人脸学习。但明星人脸会因上妆效果与普通人脸有些差异,比如眼睛更大、下巴更尖。因此,Google还研究了明星的化妆,特意标注了明星脸上一些有代表性的变量。
“Google的数据库里有大量照片,每张都以类似的方式打上马赛克,拿原图跟马赛克比较,看其相近性。通过这样的方法,让机器学会处理这些图片。百度深度学习实验室主任林元庆对《第一财经周刊》说,大量高清图片形成的数据能产生处理人脸的模板。
在Google的模板中,使用了两种网络:“调节网络”(Conditioning Network)和“优先网络”(Prior Network)。调节网络能将低像素图片与相似的高像素图片有效配对,得到马赛克图片中人脸的大致构架。优先网络则会对马赛克做分析,试着将细节添加到对应的区域中,使图片看上去更加真实。
所以,与其说Google的方法是在还原这些马赛克图片,不如说模拟人脑的计算机在“猜”这些图片最有可能是什么样的。Google所使用的模型其实是在计算一种概率:这张人脸可能长什么样。
既然是“猜”,那么它给出的答案与相同分辨率的原图对比肯定会存在差距。不过在Google的试验中,人类很难从一组32×32像素的图片中,辨认出哪张是真实图片哪张是机器复原的,这意味着机器还原的准确率已经在一个有效的范围内了。
“使用深度学习的方法能更好地解决机器处理模糊图像的问题。”林元庆说。最近,百度也对外展示了利用人工智能技术辨别模糊图像中人脸的能力,但与Google不同的是,百度的这项技术不是修复人脸,只是识别人脸。
在江苏卫视正在热播的综艺节目《最强大脑》中,百度人工智能机器人“小度”曾识别黑暗环境中拍摄的“盗贼”,节目中的三个人分别戴了帽子、墨镜、口罩等遮挡物。对于计算机来说,能否检测到图像中的人脸,难点在于暗光和遮挡物。
在有遮挡物的条件下,百度团队希望计算机能够根据有限的人脸信息,做到准确识别。他们在算法上做了一些设计,在训练机器时,会标注出图像中哪些部分不属于人脸,如帽子、墨镜、口罩,然后把这些无用信息的权重降低,让机器自动完成学习过程。
针对黑暗环境下信噪比较低的情况,百度团队也搜集了真实黑暗环境下拍摄的图片,同时模拟了部分图片。然后,他们将实际数据和模拟数据放入深度学习模型,让计算机能够辨别黑暗环境下的人脸特征。
更精准识别模糊图像里的关键信息,这种人工智能技术无疑在公共安全领域会发挥很大作用。但目前,它还远称不上完善。
数据量是一个问题。比如Google的试验目前就只对房间和明星人脸两类图片做了复原,图片内容包含的信息较少。如果要训练机器复原其他类型的图片,甚至是更加复杂的图片,就需要更多数据和工作量。
另外,人工智能“思考”的方式毕竟和人类大脑有所不同,如何综合双方的优势,降低各自的劣势也是需要考虑的。比如在《最强大脑》“人脸识别”的那场比赛中,机器人“小度”答错的第二个问题,其选出的人脸就与正确的人脸相差非常大:正确的人脸脸型宽大,而“小度”给出的答案脸型较窄。
这个在人类看来会是显而易见的差别,对于计算机来说却没有那么明显。“胖瘦在我们系统里面不是那么重要的一个特征,机器对这一因素确实不敏感,”林元庆说,“我们的人脸识别模型更基于从嘴型这种基础的因素做出判断。”虽然“小度”完全把嫌疑人的脸型搞错了,但它找出的人脸和正确答案的人脸之间嘴型特别像。
去年,康奈尔大学专注于数据隐私研究的教授Vitaly Shmatikov曾表示:“在安全和隱私方面,人们尚未感受到机器学习的威力。”在他看来,至少目前,机器还不具备简简单单就破解图片隐私的能力。