暗号大老爷
这幅图让我很好奇,你们机器人是如何确定一个物体的呢?换句话说,你们有视觉这种东西存在吗?
当然有!机器可以实现多谱段拍摄,能同时从红外光谱和可见光谱里获取信息,你们人类行吗?
那如果这个机器人要炸掉房子,但是不想伤到少年和猫怎么办?
这个操作难度……还是从图像识别说起吧,大概分这么几步,跟把大象装进冰箱差不多:
首先是目标分割,按照摄像头拍到的像素,把猫、人、背景的图层分出来;第二是目标检测,确定猫和人的那堆像素是我们要的目标;第三是目标识别,确定那堆像素在我们的定义里叫做猫和人;最后就可以进行目标追踪了,毕竟猫很容易跑……
完美!那如果我需要把猫和人攥在手里救出来呢?
这就涉及对空间位置的标定了。因为上面所说的只是猫和人在成像中的位置而已,如果需要机器人去干涉,还需要确定摄像头、机械臂跟目标的相对位置、姿态等等。
那岂不是要无数程序员来加班修正手眼齐到的过程?
现在是机器自主学习的时代了。我来打个比方,告诉你那些工业机械臂是怎么熟悉自己的工作的:你晚上把一堆花生米和一個碗放在它面前,然后给它一双筷子,第二天早上起来就会发现它们已经学会了把花生米夹进碗里。晚上发生了什么呢?它们每练习一次“手到眼到”的夹花生米过程,无论成功与否都会记下自己的动作策略,修正自我控制的策略,最后得出一个夹花生米的学习模型。这个过程叫作深度学习,可以说是一种深度人工神经网络。
据说目前实用的深度学习领域,在语音和图像方面进步最大。
因为在生活中接受信息,人们最依赖的就是视觉和听觉。说起来碳基生命的视觉经过几亿年的进化,已经形成了一套自己的体系,不光精确度值得我们AI学习,连一些bug我们也得捎带着学了。
哪有什么bug呀……
就是“视错觉”。人和机器会“看”到相同的东西,但对它的“解释”可能完全不同。比如经典的“两个瓶子之间的空间就像一张人脸”的图,那是只有你们人类才能get的点!因为人类有一个思维习惯是从具体的图像里面提取出抽象的意义,这种不确定性是我们AI目前尚不能理解的。所以,暂时只能分析下猫猫狗狗了。