宋辰
编者按
这一季,大型科学竞技真人秀节目《最强大脑》引入“人机大战”模式,百度研发的人工智能机器人“小度”将作为特别选手参赛,与人类“最强大脑”现场对决。
无论比赛结果如何,百度又是否以娱乐之名行品牌传播之实,通过这样一场比赛,我们看到了人脸识别和“下围棋”之外,人工智能在更广泛领域的应用。
本篇文章,我们将以“庖丁解牛”的方式为您来一一解读“脑王盛典”中的应用到的人工智能技术。
“亲爱的”与人脸识别
嘉宾在40张父母合照中随机挑选一张,选手和小度同时观察该照片,在40位造型一致,身材接近的女生中,找到该父母的亲生女儿,所找出的女儿手中全家福照片与父母合照背面的全家福完全一致,则挑战成功。
AI技术解读——人脸识别
人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术。
隔代识别仍属于图像识别分类中的人脸识别,只是难度更大。其技术原理与人脸识别相同,形成灰度图,分别提取父母面部的特征点和孩子的特征点进行比对。赛前通过多次机器学习,在各种变量中间平衡,提高识别的正确率。
实际上,人脸识别远超人类且可靠性很强,在过去的3场比赛中,人类选手做对了2道题,而机器却做对了5道题,机器识别的准确率远高于人类。
技术应用:
目前,百度的人脸识别技术已经对宝贝回家的人寻家、家寻人两个数据库的6万多条数据进行技术分析,这批数据已经交给警方,警方会对这些寻亲人进行DNA核实认证,目前已经有一例通过了DNA比对。
截至2017年3月,百度与民政部合作推出的基于人脸识别技术的百度寻人平台,已对接民政部全国救助寻亲网27003名走失者的数据。
“沧海桑田”与图像检索
老华侨手中唯一一张老城市的老照片,其中一个很小的细节会遗留在现代城市中,小度和人类选手依据这个小细节中模糊的信息帮助老华侨寻找家乡。舞台上呈现30张城市街景图,嘉宾在30张老照片剥离的30个含有唯一有效信息的碎片中,任意抽取一个碎片。选手双方共同依据这个有效信息的碎片,在30张城市图中寻找匹配。
AI技术解读——图像检索技术
计算机分类和提取出图像的重要特征,并对多余的无用特征加以有效地排除,以此实现对图像的识别。
此外,这局比赛中还用到了语义图像检索,这是一种在互联网上进行图像检索的方法,它是根据图像的逻辑特征和抽象属性进行检索,使计算机检索图像的能力接近人的理解水平的检索技术。
技术应用:
小度在本局比赛中所展现的语义图像检索能力,是基于百度在日常图片搜索技术上的升级,百度利用深度学习的方法,让图像特征抽取的过程更加稳定,不受模糊、噪点等信息的干扰,让搜索结果更精准。这是百度最新的技术,会尽快把这个技术在搜索中落地,让大家可以更快更顺利地在互联网中找到想要的图像。
“永不消逝的电波”与声纹识別
现场30段情景的说话声,与30个笑声相匹配。小度采集完整的30段说话声,随后根据嘉宾随机你挑选的一个笑声,找到对应的说话声。正确找出,挑战成功。
AI技术解读——声纹识别
声纹识别和语音识别一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断。
但不同于语音识别,声纹识别的目的不是识别语音的内容,而是识别说话人的身份。其理论基础就是“每个人的说话特性都具有其独特的特征”,声腔的差异以及发声的操作方式都是声纹识别的独有特征。
声纹识别主要分为声纹确认技术(1:1)和声纹识别技术(1:N)两类。声纹确认技术回答的是两句话到底是不是一个人说的问题,而声纹识别技术回答的则是“给定的一句话属于样本库中谁说的”问题。
技术应用:
目前,百度在声纹识别技术的应用上,已经有了以下的几个方向:金融领域反欺诈(用声纹识别确认用户信息,提高客服和系统反欺诈的能力);客服呼叫中心,快速定位用户身份等;智能硬件的声纹识别能力,让机器人知道自己在和谁对话以及声纹唤醒能力;安全领域的声纹认证,类似于人脸闸机;辅助个性化语音识别和语音合成。