揭秘黑科技:如何将假货拦在“网”外

2018-02-01 17:32王元元
瞭望东方周刊 2018年4期
关键词:售假假货图像识别

王元元

主动删除的疑似侵权链接中,97%一上线即被封杀;24万个淘宝疑似侵权店铺被关;协助司法机关抓捕制假售假涉案人员1606名,捣毁窝点1328个;全平台的知识产权侵权投诉量下降了42%。

这是2017年阿里巴巴集团在知识产权保护方面交出的成绩单。

“假货及侵权处罚时间缩短、权利人投诉量下降、网络售假问题得到显著遏制。”阿里巴巴集團首席平台治理官郑俊芳在接受《瞭望东方周刊》采访时说。

“借助数据技术,阿里巴巴既能对疑似假货或者侵权链接、售假人员及团伙进行识别,又能在售假者开店、商品发布等环节实施拦截,还能对每天发布在平台上的大量商品作风险判定并由此作出相应处理。”郑俊芳告诉本刊记者。

而这背后是数年来阿里巴巴在技术方面的持续投入。

“我刚来的时候,负责打假技术研发的工程师还比较少,现在这个团队已有数百人。”阿里巴巴集团(以下简称阿里巴巴)平台治理部总监徐骏对《瞭望东方周刊》说。

每秒“看”501本《康熙字典》

“众所周知,阿里巴巴是一家技术驱动型公司,一直都非常注重技术研发,我们在打假中应用的很多技术就是来源于本身的技术积累,并非独创。”郑俊芳告诉本刊记者,最具代表性的就是图像识别技术。

起初,图像识别技术多用在“同款聚合”功能上,即通过识别图片信息的相似度为用户推荐同类型的消费商品,定制个性化的消费页面。

但一些售假者却通过盗用品牌商的图片给自己的假货作宣传,吸引消费者。于是,阿里巴巴平台治理部的技术团队开始针对打假的特定场景对原有的图像识别技术进行改造,让后者具备辨别真假的能力。

从2013年起,阿里巴巴逐步建立起了全球最专业的图片侵权假货识别系统,通过检测图片中的局部logo,来识别图片中商品的品牌,进而判断该商品是否为假货,识别能力甚至超过了国外同类图片侦测软件Google Goggles。

然而,售假者为了躲避平台的侦测,不再在商品描述中植入品牌信息,而把一些违法信息或联系方式在图片上进行标注。

如此一来,仅靠识别logo的技术就不够了。技术团队的解决方案是,引入OCR光学字符识别技术,进一步扩大图像识别涵盖的范围。

OCR的最大特点是能够实时读取图片中包含的文字信息,每秒可扫描2354万多个图片文字,相当于501本《康熙字典》的字量,且能保证高达97.6%的识别准确率。

“即便售假者故意将图片中的文字模糊化处理,OCR技术也能精准识别。”徐骏告诉本刊记者。

目前OCR已广泛应用到打假中,而其背后的图像识别技术更因每日识别约6亿张商品图片被视为阿里巴巴的“火眼金睛”。

不过,认出图片中的文字只是第一步,还需让后台的监控系统知道这些文字所代表的含义,以此来判断产品是否真的侵权,这便催生了语义识别算法。语义识别算法是在OCR识别文字的基础之上,对文字进行语法和词法分析,提取出语义要点,读出文字代表的真正含义。

以手机为例,一些手机经销商会刻意在图片中打出“运行速度堪比苹果”“待机时间远超苹果”等字样吸引用户,语义识别算法通过复杂的语言比对,能辨别出这些词句并不代表产品造假,只是一种宣传用语。

“这就起到了过滤作用,排除了无关商品的造假嫌疑,极大地降低了系统的误判率,使我们能够更为精准地找到并拦截售假者。”徐骏说。

全天候监控20亿件商品

但在阿里巴巴平台治理部资深总监钱磊看来,这还远远不够,“无论图像识别还是语义识别,针对的仅仅是平台商品的某一特征,阿里巴巴需要在更广、更深的纬度实现对售假店铺以及假货的全面管控。”

因此,在图像识别技术和语义识别算法的基础上,建立一个类似人脑运作模式的高度智能化“商品大脑”成为技术团队的最终选择。在钱磊的构想中,这个“商品大脑”会囊括多种单项技术、覆盖尽可能丰富的产品信息,作出自主判断。

“人类大脑是基于长期的知识积累形成经验和认知后,据此对不同事物作出不同的反应。‘商品大脑也是如此,首先要具备丰富的知识储备,才能对商品进行真假识别。”钱磊告诉《瞭望东方周刊》。

自成立起,阿里巴巴便通过后台复杂、严密的管理系统掌握了店铺和商品的信息,经过18年的沉淀,已形成了体量庞大的商品数据库。

即便如此,“商品大脑”要准确记住数以亿计的繁杂信息也并非易事。

阿里巴巴找到的突破口是分类记忆——先让机器掌握结构化的知识点,如商品的类目、条码、品牌、价格等,然后再尝试补充用户的使用评价、社交媒体的评论等非结构化信息。

“商品大脑”还需记忆商品的关联信息。比如LV,“商品大脑”在知道正确的商品名称外,还要牢记售假者惯用的“绿牌”“驴牌”等品牌名称的同音词或同义词。

“如果‘商品大脑只记忆了单一的商品信息是很难识破这种骗术的,必须掌握更多的关联信息才能作出正确判断。”徐骏说,单个知识点只有相互联系起来才能为商品的真假判别提供更大借鉴意义。

这样一来,“商品大脑”便能由浅入深,更为快速、高效地掌握尽可能全面的商品信息,并且具备一定的学习能力,源源不断地吸收新知识,保证不被售假者超越。

目前阿里巴巴“商品大脑”内容的丰富度已达到百万亿条实体信息加上百万亿条关联信息。这些多维度的产品信息搭配上图像识别、语义识别等前端科技,“商品大脑”便可像人脑一样自动对阿里巴巴平台上近20亿件商品进行全天候、无死角的扫描,一旦发现售假就会即时对店铺作出关店、下架产品等处理。

“‘商品大脑构筑了一面强大的防护网,让那些售假者进入不了阿里巴巴的平台,只要露面就会被一网打尽。”钱磊说。

预知哪些品牌会被假冒

“其实,图片识别、语义识别乃至于‘商品大腦都只代表了科技打假的一部分,并非全部。”钱磊说,阿里巴巴每年都要投入数百名工程师,数亿元资金用于打假技术的研发,目前已构建了多种技术手段相结合的打假技术体系。

这个体系除了上述三种打假“黑科技”外,还包括生物实人认证、政企数据协同平台、大数据抽检模型等,管控范围覆盖商品上架、售卖、下架的全过程,可做到实时扫描每一件新发布的商品。

严密的防控让品牌商们松了一口气。康宝莱(中国)保健品有限公司合规部高级总监舒亚杰告诉《瞭望东方周刊》,康宝莱在阿里巴巴的帮助下,借助其打假科技,仅用一个月便完成了两个省的打假行动,协助警方抓捕了26人。

对身处打假第一线的警务人员来说,阿里巴巴打假技术带来的影响更大。

“以往警方收集制假售假线索只能一条条收集,耗时费力,现在一个月之内,通过技术研判就可批量产出几百条线索,还能对涉假行业的网店实行数据溯源。” 浙江省公安厅经侦总队知识产权保护副支队长陈竞凯对本刊记者说。

不过,无论徐骏还是钱磊都坦承,技术打假并非万无一失,也存在些许误差,“技术手段多通过大量的数据对比来找出并拦截假货,但对比结果不可能保证100%准确。”

阿里巴巴为此在技术后端设计了二次审核。对那些疑似售假的店铺,打假团队会立刻进行更为细致的审查,接受卖家的申述,如果审查后发现店铺并未涉假,便会解除其店铺屏蔽。

“我们的原则是不放过任何一个售假的店铺,也不冤枉任何一个守法的店铺。”徐骏说,这就要求阿里巴巴必须根据自身掌握的售假信息对打假技术进行动态调整。

实际上,阿里巴巴对技术的调整时刻都在进行,不仅要打磨适用于不同场景的通用技术,还要集合执法机关的研判知识和消费者的反馈,深耕专有打假场景,作特有技术的优化。

据了解,阿里巴巴未来会将资源投入到更具前瞻性的领域,例如构建假货风险预警系统,提前预知哪些品牌、商品会被假冒,然后制定相应的拦截策略。

“阿里巴巴在打假上的终极目标是无假可打,这就代表着打假科技的演进也将相伴而行,直到假货无迹可寻。”郑俊芳表示。

猜你喜欢
售假假货图像识别
基于计算机视觉的图像识别技术研究
人工智能背景下图像识别技术浅析
像治理酒驾一样治理假货有必要吗?
假货地图
基于字典学习的正则化鲁棒稀疏表示肿瘤细胞图像识别
图像识别交互系统
奢侈品假货是正品的6倍
网购假货现象调查四成用户对假货“忍了”
把老妈整成“不知道”