面向电子商务的新一代验证码系统分析

2018-01-20 13:33任俊玲王兴芬王承权
网络空间安全 2017年12期
关键词:机器学习电子商务

任俊玲+王兴芬+王承权

摘 要:验证码是互联网业务的安全基础设施之一,也是目前保障电子商务业务安全的重要环节之一。论文从电子商务业务的验证码安全诉求和传统验证码技术的特点出发,对电子商务业务新一代验证码技术产生的必要性进行了阐述;通过对新一代验证码系统的具体实践示例的分析,论述了电商业务中新一代验证码技术的基本原理;最后,对新一代验证码技术在电子商务中的价值进行了分析。

关键词:电子商务;验证码;机器学习

中图分类号: TP309 文献标识码:A

Analysis of A New Generation CAPTCHA System Focused on E-Commerce

Ren Jun-ling1, Wang Xing-fen1, Wang Cheng-quan2

(1.School of Information Management, Beijing Information Science & Technology University, Beijing 100192;

2. Information Work Center, Political Work Department of Peoples Republic of China Central Military Commission, Beijing 100120)

Abstract: CAPTCHA technology is one of the security infrastructures of internet business, and it is one of the important steps to safeguard the e-commerce business security. The necessary of the new generation CAPTCHA technology related to e-commerce business is formulated from the beginning of e-commerce business appeal on CAPTCHA and the features of the traditional CAPTCHA technology. And the fundamental principle of the new generation CAPTCHA technology in e-commerce business is discussed by analyzing one of its practice examples. Finally, the value of the new generation CAPTCHA technology is analyzed.

Key words: E-Commerce; CAPTCHA; Machine Learning

1 引言

验证码(CAPTCHA:Completely Automated Public Turing Test to Tell Computers and Humans Apart)指全自动区分计算机和人类的图灵测试,是一种区分用户是计算机和人的公共全自动程序[1]。安全的验证码需要作为服务器的计算机自动生成一个用于用户回答的问题,但该问题只有人类才能解答,以此来防止用计算机生成的自动程序进行恶意攻击,以达到进行人机区分的目的。验证码目前已被广泛用作保护用户账号和密码安全的一种技术,也成为各类互联网业务的基础安全设施之一。

电子商务(E-Commerce)主要指依托互联网开展的交易活动,包括买卖实物、虚拟产品及服务。作为一种互联网业务,验证码技术也是其基础安全设施之一;作为一种商务活动,其安全诉求又有不同于其他互联网业务的特点,因此对验证码技术的要求也有其特殊之处。

基于上述研究背景,本文结合电子商务业务的安全诉求,以及传统验证码系统的特点,对新一代验证码技术及其在电子商务中的具体应用和价值进行研究。

2 传统验证码技术分析

根据学术界的分类,传统验证码生成技术通常有三种实现方案[2]:基于OCR(Optical Character Recognition,光学字符识别技术)的可视化方案、非OCR的可视化方案和非可视化方案。

2.1 基于 OCR 的可视化验证码

基于 OCR 的可视化验证码主要是文本图像验证码两种,它们一般是把文字信息以扭曲、变形或加干扰处理后的图像形式显示给用户,要求用户判定出正确的文本作为验证码的输入[3]。这些验证码是根据 OCR技术难以识别扭曲和与背景交叠粘连的弱点设计的。基于 OCR 的平面静态可视化验证码早期以其在安全性与易用性方面的优势,成为最常用的验证码技术[4]。

2.2 非 OCR 可视化验证码

由于许多基于OCR的字符图像验证码在近些年被攻破,研究人员提出了非OCR可视化验证码。该类验证码生成技术的研究结合了计算机图形学、计算机视觉、图像处理等许多学科的理论和成果,主要分为基于图像库的验证码[5]和交互式验证码[6]以及三层动态验证码[7]等。

2.3 非可视化的验证码

非可视化的验证码主要是语音验证码[8-10],该技术通过浏览器内建了一个语音输入API,用戶通过听力获取验证码的有效信息,将正确的信息反馈给服务器,以便通过测试。

在上述验证码技术中,基于OCR的可视化验证码很流行,但随着OCR技术的发展以及该模式不断被研究,它们中的大多数都已被攻破,使得该类验证码几乎不具有阻拦恶意攻击的能力。同时,为了抵抗OCR识别,往往会加大验证码的复杂度,从而也给人类的识别带来空前的困难,大大降低了用户体验。非OCR的可视化方案的实现虽然方式多样,但一部分方法受到信息库维护困难的限制,另一部分技术则最终还是要归结到OCR问题,因此实用性不够强,除了部分研究性的网站使用外,商业网站很少使用。非可视化的 CAPTCHA方案则主要是针对特殊场合和特殊使用群体进行研究设计,其应用范围具有很大的限定性。因此,迫切需要一种应用范围广,鲁棒性高的验证码。endprint

3 电子商务业务的验证码安全诉求

3.1 账户体系安全诉求

账户体系安全保障需求既需要对电子商务中的账户进行鉴别,同时又体现在防止恶意注册和暴力破解两方面。恶意注册主要指通过程序产生大量无效用户账号,因为是机器自动化操作的,不是真正的用户,所以这些账号不能直接给电子商务交易平台带来收益却在一定程度上提升运营成本,因此这类数据都是垃圾数据,为此需要防止机器自动操作,从而起到防止恶意注册的目的。在没有安全措施的情况下,黑客很容易通过反复尝试对密码发起暴力破解,无论是哪种暴力破解方法,都将会增加服务器负担,消耗系统资源,导致真正需要登录的用户登录不畅。

3.2 交易体系安全诉求

交易体系安全诉求来自于电商实际交易场景下,由“羊毛党”或问题商家等利用交易体系中存在的漏洞,制造虚拟交易、进行信息作弊及针对各类活动场景发起攻击而产生。

来自问题商家的交易威胁常见的有刷单和刷排名等。刷单是业务数据造假的一种方式,通过虚假的交易来增大商家的交易量,进而提升商家的可信度。刷排名,则为商家通过某些手段,保持其各类商品名目都排在销量靠前位置,搜索推荐都是这类店铺的行为,也是提升商家可信度的一种方法。

“羊毛党”指那些专门选择互联网公司的营销活动,以低成本甚至零成本换取高额奖励的人。他们往往会针对各种活动场景进行攻击。如在电商类网站在“双十一”之类的各种特殊节日,平台或商家会推出大量类似送优惠券的活动,攻击者可直接通过自动模拟点击刷活动,从而减少正常消费者获取的活动优惠,对于一些免单活动,还会直接导致商家销售产品存在大量恶意退货、退款,这些不仅使商家达不到推广的目的,还降低了用户对商家的信任度,对于商家投资成本带来的回报与预期也有较大出入。

3.3 支付体系安全诉求

支付体系是电子商务交易过程业务安全最重要的环节。在支付过程中,验签不严的情况下,极有可能产生数据篡改伪造,从而引起交易相关数据的变化,扰乱正常的商务活动,使交易双方蒙受损失或引起交易纠纷。同时在支付确认阶段,也需要相应的安全机制帮助商家确定支付是否发生于账户真实主人。

3.4 电商评论安全诉求

在电子商务中,交易平台允许用户在网上对交易的各个方面发表评论,评论既是平台对商家评级的重要来源,也是购买者进行购买的主要参考,因此,保证评论的安全和真实也是电子商务中的主要诉求。这就需要对在电商网站存在的推送垃圾评论、广告和钓鱼链接的现象以及通过系统漏洞或机器自动刷票产生的信息作弊等现象进行防范。

可见,电子商务中的验证码安全诉求包含:(1)与传统验证码功能相同,对消费者、商品经营者(商家)、支付和物流服务经营者等多类主体进行身份验证;(2)防止自动刷单、自动刷票等行为,即在进行人机识别的基础上,更需要能够判别出不同形式的机器多次自动操作行为,因此,需要更强大的功能支持;(3)电子商务作为基于互联网的商务活动,用户体验在整个过程中起很关键的作用,用户体验差则可能直接导致用户放弃购买,而传统的验证码技术往往随着人机识别能力的提高,用户体验逐步变差。由此可见,电子商务也迫切需要功能强大、用户体验好的新的验证码技术。

4 基于人工智能的验证码识别系统

2014年12月Google发表了一篇名为“Are you a robot? Introducing ‘No CAPTCHA reCAPTCHA”的文章[11],文章指出传统验证码的方式令“真正的人类”头疼,且研究表明当时的人工智能技术已经能够破解99.8%的验证码,因此传统的验证码形式可能已不是一个可靠的方法。Google在文中提出了新的被称作没有验证码的验证码技术,即“No CAPTCHA reCAPTCHA”,如图1(a)所示,用户只需要在方框内简单的打钩,就可以确认该用户是真实用户而非恶意机器人,操作非常简单。如果noCAPTCHA认为你是真人,用户则无需再输入验证码。如果noCAPTCHA认为你不是真人操作,才会要求用户填入传统的CAPTCHA字符串或更先进的字符串,如图1(b)所示,以此对用户进行进一步人机识别。

NoCAPTCHA在用户勾选复选框时,利用服务器中的风险分析引擎进行人机判定,其基本原理是通过收集用户的操作行为特征与当前设备的设备信息等,通过人工智能技术对用户参与情况进行分析,最终给出是否是真实人类的判定。对于真实人类,极大地提高了用户体验,而人工智能技术和二级验证形式,为人机识别准确度提供了保证。

5 面向电子商务的新一代验证码系统分析——以滑动验证码服务系统为例

5.1 滑动验证码服务系统架构

以阿里巴巴滑动验证码系统为例,系统界面如图2所示[12]。该系统基于Google的No-Captcha技术,并且结合阿里云机器学习和人工智能的方式,突破传统验证码的最新人机识别产品,采用先进的风险分析引擎来区分人类和机器人。其具体架构和工作流程如图3所示。

滑动验证码系统基本工作流程:用户向服务器端提交滑动行为,服務器则会采集客户的相关信息,运用所采集的信息通过服务器的风险评估系统对客户行为进行评估,将评估结果返回风险决策系统,生成决策信息,进而返回给客户端,作为对用户滑动行为的反馈。

5.2 客户信息采集系统

客户信息采集,主要指对用户终端的可用信息进行采集。常用的采集信息分为设备软硬件信息、用户环境信息、用户交互行为数据、用户历史信息和用户业务数据等几类。

(1)设备软硬件信息指用户操作系统版本、CPU和浏览器版本、屏幕分辨率、屏幕尺寸、屏幕色彩等客户端设备固有信息,用户往往都在固定的设备上进行业务操作,因此可以通过对采集的设备信息进行加密,作为对用户的唯一标识符,即设备指纹,往往作为服务器标识用户行为的基础。endprint

(2)用户环境信息包括如浏览器安装的插件、浏览器语言、浏览器支持的字体、用户的IP信息、Cookie 信息、每个浏览器针对不同方法的处理特性等客户端运行环境的相关信息。这些信息与设备软硬件信息相比有其灵活性,但与其他类信息相比又相对稳定,可以作为服务器标识用户的辅助信息。

(3)用户交互行为数据主要针对人与客户端的交互数据,人的正常行为具有相对随机性且难以预测,机器要模拟正常人非常困难。交互行为数据的采集主要采集正常人的动作,如鼠标移动、鼠标点击、鼠标释放、触摸板动作、键盘操作等数据,比如采集鼠标在某个区域内的连续坐标变化及时间点、键盘操作的时间点及键值等,与正常人的交互行为数据进行比对。

(4)用户历史信息包括历史行为信息,例如交易、支付、登录等信息,可以作为对用户进行验证的辅助信息。

(5)用户业务数据则视具体业务情况而定,比如针对用户身份的CardID、手机号、电子信箱等。

5.3 风险评估系统

风险评估系统的核心是风险分析引擎。风险分析引擎是根据历史采集的大量有标注的样本信息,建立用户操作是人为操作或是机器操作的模型,从而形成人机鉴别的判定方法。

风险评估过程即将采集的用户信息输入风险分析引擎,由风险分析引擎进行数据分析,对用户的整体操作行為进行人机属性风险评估,往往通过风险值描述其人机判定的结果。比如风险评估系统对采集的各类信息逐次进行判定,设备指纹与账户对应情况,用户环境变动的情况,用户的行为分析比如分析鼠标移动的频繁、坐标在某个区域或某个操作下的动作速度、是否为直线等,结合用户历史行为的估值等,最终给出风险值或风险级别,作为后续风险决策的依据。

5.4 风险决策系统

风险决策系统根据风险评估系统给出的风险判定进行后续操作控制的环节,后续操作包括认可该操作,进行二次判断或直接阻断等。

阿里巴巴滑动验证码系统给出三种决策机制。

(1)正常用户:风险评估为低危级别,验证直接通过,如图4所示,直接进行业务操作。

(2)可疑用户:风险评估为中危级别,滑动后,会进入二次验证,用户Web端出现传统验证码形式,用户输入成功,才会通过验证,如图5所示。

(3)风险用户:风险评估为高危级别,滑动后则被直接阻断,无法进入业务环境进行操作,如图6所示。

5.5 新一代验证码技术价值分析

截至2016年Q2数据显示,淘宝天猫共拥有近6亿注册用户数,每天有超过8000万的固定访客,同时每天的在线商品数已经超过了10亿件,平均每分钟售出4.8万件商品。为服务好6亿淘宝用户,淘宝需要通过人机识别验证码技术,防止300万恶意用户注册、每天承受2亿次的密码暴力破解。在2016年的“双11”中,天猫全天交易额为912.17亿元,最高峰时候的每秒订单是14万笔/s。

在新一代人机识别验证码的帮助下阿里集团每年节省30亿元营销费用的支出;阿里电商每年“双11”都会联合1000万商家投入巨资进行营销活动,采用新一代人机识别的验证码技术后,降低了30%以上活动券的恶意领用;官方数据统计,在“双11”这一天识别的恶意领用达数百万次;人机识别技术为阿里每年“双11”降低了60%的营销推广费用,直接节约营销推广费用数十亿元,如图7所示。可见,新一代验证码技术发挥了重要作用,也满足了电子商务行业对于验证码技术的需求。

6 结束语

验证码技术最早被作为解决门户网站恶意用户注册的基本安全设施引入,之后逐步解决了不同时期业务安全和用户体验均衡问题。但随着互联网的发展,传统的验证码技术也无法满足现有电子商务业务中用户体验和安全性的要求,人工智能技术的成熟为传统验证码的改进提供了解决方案,基于人工智能的验证码技术应运而生。本文从新一代基于人工智能的验证码系统的出现背景出发,对该技术的基本架构和实现流程进行阐述,并对其在电子商务中的已有价值进行分析。

基金项目:

1.2014年度中共北京市委组织部优秀人才培养资助项目(项目编号:2014000020124G101,项目名称:面向流程的图像信息隐藏性能评价方法的研究);

2.北京市教育委员会2014年度科技计划重点项目(项目编号:KZ201411232036,项目名称:电子商务平台交易纠纷规避的若干支撑技术研究);

3.2015年度国家自然科学基金面上项目(项目编号:71571021,项目名称:网络零售交易风险动态评估及预警研究)。

参考文献

[1] 王静,熊育婷,钟安鸣,付宇.面向工程实践的计算机病毒课程教学方法研究[J].信息安全与技术, 2014,(6):67-69.

[1] L.von Ahn, M.Blum, and J. Langford. Telling humans and computers apart automatically[J].Communications of the ACM, February 2004, 47(2): 56–60.

[2] 李雪雁.反光学字符识别的可视化交互式验证码生成机制研究[D].北京信息科技大学,2011.

[3] Mohammad Shirali-Shahreza, Sajad Shirali-Shahreza. CAPTCHA for Blind People[C].Signal Processing and Information Technology, 2007: 995~998.

[4] Ahn L, Blum M, Hopper N, et al. CAPTCHA:Using Hard AI Problems for Security[J].Lecture Notes in Computer Science, 2003, 2656 (9): 294~311.endprint

[5] M. Shirali-Shahreza, S. Shirali-Shahreza, Motion CAPTCHA[C], Conference on Human System Interactions, 2008, pp.1042-1044.

[6] Rich Gossweiler, Maryam Kamvar, Shumeet Baluja, Whats Up CAPTCHA? A CAPTCHA Based on Image Orientation[C], oceedings of WWW'2009, pp.841-850.

[7] JingSong Cui, WuZhou Zhang, A 3-layer Dynamic CAPTCHA Implementation[C], Second International Workshop on Education Technology and Computer Science, 2010, pp.23-26.

[8] Luis von Ahn, Benjamin Maurer, Colin McMillen et al. ReCAPTCHA: Human-Based Character Recognition via Web Security Measures[C], Science, 2008(321), pp.1465-1468.

[9] Goole. reCAPTCHA[EB/OL]. http://recaptcha.net/. Accessed in Feb 2010.

[10] Yannis Soupionis, Dimitris Gritzalis. Audio CAPTCHA: Existing solutions assessment and a new implementation for VoIP telephony [J]. Computers &Security, 2012(29), pp.603-618.

[11] http://googleonlinesecurity.blogspot.co.uk/2014/12/are-you-robot-introducing-no-captcha.html.

[12] https://help.aliyun.com/document_detail/28310.html?spm=5176.7843120.6.539.NjmmIn.endprint

猜你喜欢
机器学习电子商务
小微企业电子商务平台的开发与应用
O2O电子商务信任问题分析
O2O电子商务信任问题分析
辽宁大拇哥农业电子商务有限公司
电子商务法草案首审
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用