文/本刊记者 高茜
树起移动互联网“最后一厘米”的安全门
文/本刊记者 高茜
业界普遍认为,语音将成为继键盘、鼠标、触摸屏等一切基于手的人机交互方式之后的下一代主流人机交互方式。
在上海双创活动周上的公司展位
2017年10月24日,GeekPwn(极棒)2017国际安全极客大赛之“AI仿声验声攻防赛”在上海开场,参赛的五支队伍需要利用机器自主合成技术,模仿评委提供的四段声音,欺骗并通过市面上几款常见手机和智能音箱的声纹锁验证。其中,某最新安卓手机、苹果iPhone8、某品牌智能音箱等智能设备均有挑战选手破解成功。
一时间,智能语音产品的安全性引起社会广泛关注。
同时现场还集结了数十位业界顶级安全专家,组成了一批重量级评委阵容,其中北京得意音通技术有限责任公司董事长郑方就在其中,他同时又是清华大学语音和语言技术中心主任。
“这次的攻防挑战赛中参赛队伍攻击的产品难度系数是分一定等级的,不能说攻击都成功。”郑方讲道,“从攻击的角度,现场参赛的五支队伍用到的攻击手段不外乎三种方法,一种是语音合成,通过合成流畅、自然的语音来试图破解语音密码,这个是‘像音’;第二种是语音转换,模仿发音者的特点,这个是‘像人’,并且已经瞄准了攻击的目标;第三个方法是声音拼接法,把使用者本人的话裁剪拼接成声音密码,这种方法更加接近实际的攻击水平和目标。”
上海双创周上展示的声纹技术应用案例
“而从防守方来讲,目前市面上的一些声纹识别的相关产品,可以说没有防范攻击的措施,当黑客入侵时,多数产品方并没有检测声音真伪的手段。所以就参赛情况而言,从攻和守两方面综合来看,目前行业普遍水平依然停留在基础水平上。”郑方说。
其实,在郑方的带领下,得意音通早在几年前就针对上述三种攻破方法研制出了相应的设防对策。我国人工智能界泰斗、中国科学院院士张钹先生高度评价得意音通这家高新技术企业:“肯花硬功夫去掌握关键技术。”
“声纹识别”听上去有些陌生,其实这项技术最早诞生于上世纪 40 年代末的贝尔实验室。同已经广泛应用的指纹识别技术一样,它是通过对语音信号的特征分析达到“说话人辨认”和“说话人确认”的两种目的,前者是判断某段语音是哪一个人所说,后者则是用以确认某段语音是否是指定的某个人所说。
依托清华大学语音团队近40年的技术积累,15年前创立了北京得意音通技术有限责任公司,围绕自动语音识别、声纹识别、自然语言处理三大核心技术开展工程化研究和产品化开发,其中产品化方面做得最好、应用最成熟的就是声纹识别技术,现已获得十多项国内发明专利和1项国际发明专利。
在2017全国双创活动周上海主会场上,得意音通重点展示了声纹识别技术在社保生存认证、移动金融和门禁系统等中的应用。7天的展期内,共引来近万人次观众前来参观体验。
建设银行使用声纹交易次数破亿
参观者正在试验声纹门锁
郑方董事长担任极棒国际安全极客大赛评委
据了解,“声密保”方案是通过对动态密码语音中的密码内容及支付申请人身份的双重识别,实现对移动支付合法性的双重验证,具有安全、方便、快捷、防止录音假冒等优点。
最新数据显示,截至2017年11月3日,中国建设银行声纹总交易次数已突破1.5亿次。2016年6月18日,中国建设银行手机银行采用得意“声密保”专利技术用于身份认证的功能对普通用户正式开放,主要应用在登陆、取款、转账、支付等场景。
还有最受年轻人欢迎的“声纹门禁”,这个缩小版的真实防盗门自从7月31日在清华大学亮相后,就成了小“网红”,受到不少媒体的追捧。声纹门禁利用声音来控制门的出入权限,每个人用自己的声音做钥匙,利用声纹识别技术实现身份识别,进而控制门或锁的开启。
对声纹识别技术而言,探寻语音背后“说话人”的微妙态度和真实意图,非常重要,否则“智能语音”的“智能”就只能打引号。这就需要用到说话人情感状态的识别技术,当然,情感识别技术很难掌握。
“难了不会,会了不难。经过我们多年研究、积累,在很多方面有了积累。比如说,丧礼中演奏的哀乐,当你把哀乐节奏加快,你会发现这首曲子其实是很欢快活泼的,当节奏慢下来,放在丧礼这些特定环境中,就会产生悲伤的气氛。所以说语音中是有情感信息的,只看内容并不准确。情感识别其实是综合利用了说话时长、音高、声调等很多因素的综合体,需要在研究中逐一对这些因素进行分析才有可能攻破这一难题。”郑方讲道。
在2017年7月31日举办的“人工智能与信息安全”清华前沿论坛上,得意音通信息技术研究院正式揭牌成立,此前2015年,已成立清华-得意音通声纹处理联合实验室。作为清华大学知识产权入股的高科技企业,得意音通已成为业界产学研结合的成功范例。
“产学研应该是‘化合态’,而不是‘混合态’。”既是清华大学教授又是得意音通公司董事长的郑方对产学研这条发展路径有着独到的见解。“产学研如何紧密结合是重要而必要的关键一环。目前有很多企业与高校合作,合作方式大体分两种,一种是高校科研团队有相关的成型项目成果,企业有需要才会进行合作;另一种是企业自身在发展的某个阶段需要科研团队做支撑,从而进行合作。这些都有一定短时性,没有建立长期合作的机制。”
得意音通与建设银行合作之初,就面临建设银行提出的疑问——如果使用录音是否会将声纹识别技术攻破?郑方介绍说,当时的确不能保证绝对的安全性,但当市场提出要求时,他们的科研团队选择去学习相关原理、制定解决方案,然后进行一次次的尝试,最后在成功通过线上测试后给客户交上了一份满意的答案。
“时变”即声音随时间、年龄增长而发生变化,这对行业来说是需要解决的一个难题。由于前期需要搜集大量数据、建立数据库,并且是对同一对象、同一内容进行长时间的语音数据收集,然后进行实验对比,才能找到解决方法。很多人是不愿意去涉足的,因为无法看到最后能否达到预期。
当时得意音通科研团队决定以清华大学的部分在校学生为对象进行实验。每间隔一周或者一个月进行声纹采集,经过几年时间采集到一个声纹时变数据库,然后在此基础上研究人的声纹中的变量与恒量,解决了声音随年龄变化的问题。
“当有明确的市场需求时,我们有强大的研发团队做支撑;当需求还不明显或者短期内看不到结果时,我们就按照战略定位在多个方向上开展拓展探索和技术储备,这对人才也是很好的锻炼。这才是我们理解的产学研结合。”郑方总结说。
信息安全包括很多层面,包含存储、传输和计算安全等多个方面,这些都已经取得了不错的效果;但最关键的一步“访问控制安全”目前还不令人满意。打个比方,用钢筋水泥建造的一栋房子,墙壁虽然很坚固,但是一旦房子的钥匙落入他人之手,别人就可以轻易进入,房子牢固又怎么样?主人失去了进入房子的唯一性,安全性也大打折扣。同样在互联网领域,很多场景下现在都要求有实名认证,但是多数情况下,用户信息受到多方面不安全因素的威胁,极不安全。
那要怎么确保是本人进行访问并且拥有访问的唯一性呢?郑方博士给出了他的答案:“要想做到访问控制安全,首先要保证‘钥匙’的唯一性,独个人所有;第二,这把‘钥匙’要具有防攻击性,抵御黑客入侵;最后重要的一点是要在自愿的前提下进行访问,要代表自己的主观意志,这样才能减少诈骗事件的发生。这在国家战略信息安全方面具有十分重要的意义。”
在保护民族生物特征信息方面,指纹、人脸、虹膜等这些生理特征具有不可撤销性,一旦丢失就可能被随意非法使用。
前不久发布的iPhone 8以及iPhone 6及以上机型,都可以采用Apple Pay来操作手机支付功能,据了解,2016年2月,Apple Pay登陆中国,通过Apple touch来实现指纹支付,已有至少19家银行支持此项业务。
郑方讲到他的忧虑:“苹果公司在中国推广的Apple Pay具有一定的安全隐患,再加上马上要推出的刷脸,所有金融相关的用户信息极易被苹果公司获得,这从国家、民族的层面讲,是很危险的。国家一定要有高层战略保护的意识保护用户的隐私数据。声纹属于行为特征,声音是可交互的、可随意变换的,使用以声纹为主、多生物特征融合的措施来应对不法人员获取用户信息,可有效保护国家和个人的利益安全。”