“摇一摇”你摇对了吗？

2016-03-24 10:13

东西南北 2016年3期

告诉大家，这项技术的关键，根本不在于“摇一摇”，而是要归功于里面一项很神秘的核心技术：音频指纹识别。

如果你过年的时候不怕长辈生气，看春晚把电视调成了静音，你就会发现一个无情的事实：手腕摇断了都不会有明星送祝福。因为在开启“摇一摇”这种功能的时候，你要先保证你的手机能“听到”电视发出的声音，这样手机上的麦克风才能采集音频信号，并对音频信号进行一些特征的预处理后，提取到音频的指纹。

音频的“指纹”是什么？音频指纹之于音频就如同指纹之于人，它是每段音频关于音频数据内容的压缩签名。目前比较通用的音频指纹是音频的频谱特征，其好处就在于它可以“透过外在看本质”，收集到的音频信号会先被无情地卸掉伪装，也就是进行数字采样和降噪等预处理，然后再通过加窗的方式分帧，对于每帧音频信号会提取出音频的频谱特征。最后将一系列连续的特征序列拼接成单独一个向量，我们就得到传说中的音频指纹了。

看到这里，大家可能想到了一个发家致富的新思路：要是我把天猫晚会录个音，然后每天在家循环播放边听边摇，我是不是能把马云爸爸抢破产啊？

马云爸爸冷笑一声：我们这个技术是实时互动你知道吗？

残酷的实时也就意味着只有在特定的时刻才会进行匹配。你上传的音频指纹是包含接收音频信号的时间信息的，而数据库中相对应的音频声纹也是有设定好的时间标签。所以只有在特定的时刻才会触发相应的互动活动。想抢钱哪有那么容易？劝你还是在屏幕前乖乖守着直播看表摇手机吧。