告诉大家,这项技术的关键,根本不在于“摇一摇”,而是要归功于里面一项很神秘的核心技术:音频指纹识别。
如果你过年的时候不怕长辈生气,看春晚把电视调成了静音,你就会发现一个无情的事实:手腕摇断了都不会有明星送祝福。因为在开启“摇一摇”这种功能的时候,你要先保证你的手机能“听到”电视发出的声音,这样手机上的麦克风才能采集音频信号,并对音频信号进行一些特征的预处理后,提取到音频的指纹。
音频的“指纹”是什么?音频指纹之于音频就如同指纹之于人,它是每段音频关于音频数据内容的压缩签名。目前比较通用的音频指纹是音频的频谱特征,其好处就在于它可以“透过外在看本质”,收集到的音频信号会先被无情地卸掉伪装,也就是进行数字采样和降噪等预处理,然后再通过加窗的方式分帧,对于每帧音频信号会提取出音频的频谱特征。最后将一系列连续的特征序列拼接成单独一个向量,我们就得到传说中的音频指纹了。
看到这里,大家可能想到了一个发家致富的新思路:要是我把天猫晚会录个音,然后每天在家循环播放边听边摇,我是不是能把马云爸爸抢破产啊?
马云爸爸冷笑一声:我们这个技术是实时互动你知道吗?
残酷的实时也就意味着只有在特定的时刻才会进行匹配。你上传的音频指纹是包含接收音频信号的时间信息的,而数据库中相对应的音频声纹也是有设定好的时间标签。所以只有在特定的时刻才会触发相应的互动活动。想抢钱哪有那么容易?劝你还是在屏幕前乖乖守着直播看表摇手机吧。