麻策 唐煜
马蜂窝“数据造假”这事,在社交媒体洪流中,眼看着就要翻篇了。对吃瓜群众来说,这次事件就好像一个成绩优异的学长被一个不谙世事的小学弟举报了考试作弊,他得先琢磨:我这是招谁惹谁了?
很多人也这么想。
考试作弊这种事儿在学校里其实不是什么秘密,被逮到初犯最多也就是批评几句,下不为例。但被这么逐条拎出来,在社交媒体上传播,之前还真没有。
事情经过大致是这样:上周六晚上,一个叫“小声比比”的公众号发布了一篇题为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章,揭露在马蜂窝2100万条点评数据中,有1800万条是用机器人从大众点评和携程等竞争对手那里抄袭来的,还发现了7454个抄袭账号。随后“小声比比”又发文质疑马蜂窝游记和问答版块水军泛滥。
马蜂窝则发表声明,称对文中“歪曲事实的言论,和已被查证的有组织攻击行为”,将采取法律手段,并随后将作者和背后的数据报告提供方乎睿数据告上法庭。但“小声比比”又发布第三篇文章,用数据反驳了马蜂窝声明中的质疑,并称做好了应战准备。
本次事件的双方,一方是由3名年轻海归组成不足1年、名不见经传的乎睿数据,一方是据传估值已高达25亿美元、新一轮融资接近尾声的明星独角兽公司。一个认为自己铁证如山,一个咬定“明显抹黑”。一来一回,事闹得不小。
唯独,“受害者”——被“抄袭”了数据的携程、去哪儿等企业陷入集体沉默。
走上司法程序,往往是一个热点事件在吃瓜群众中开始退温的标志。何况,对见多识广的人们来说,这类事情早已是见怪不怪。
10月23日,事发第三天,马蜂窝副总裁于卓在澳门出席活动表示,此次事件不会影响公司正常运营,希望未来两三年内完成IPO。让这一切看起来似乎真不叫啥大事。
马蜂窝在这波舆论中似乎处于被动。但营销界资深人士、费芮互动创始人&CEO蒋美兰对《财经天下》周刊说:“你有没有觉得在互联网行业,不管是好话题還是坏话题,总好过没话题。”
消费降级巨头拼多多,以及下沉收割人头的趣头条已经证明了“话题”的重要性,而且它们都可以说是“坏话题”的受益者。
马蜂窝正经历的只是一场公关危机吗?一位接近马蜂窝的投资人认为,还可能是一次升级的机会。
但对于这次事件本身,仍有很多细节值得追问与反思。
在融资最关键的节点被“捅”,马蜂窝有理由认为这是有组织的抹黑行为。
据36氪报道,数据丑闻爆发的时候,马蜂窝本轮由腾讯领投的3亿美元融资“就差临门一脚”。其援引一位投行人士的说法,“基本close,只是股权认购协议还没签。”祸从天降,马蜂窝团队肯定郁闷。
实际上,马蜂窝创始人、CEO陈罡也在回应里一定程度上承认了“数据方面存在的问题”,也就不难理解为什么其回应会显得有些苍白。一些吃瓜群众说它偷换概念,把乎睿团队质疑抄袭的1800万条数据的“条数”,换成了数据“大小”,百分比因此变成了2.91%;而对乎睿团队提及的“一会是老公、一会是女友”的用户大变身,也完全不做解释。
反而乎睿方是愈战愈勇,公众号“小声比比”3篇文章,都被认为出拳直抵面门。
大数据从业者澳鹏公司中国业务拓展副总裁段杨认为,“这3位年轻人的做法让公众知道,以前靠内部爆料方式,现在通过一些公开信息,也可以分析得出一些结论。虽然这个结论可能不是权威的,但它从一个看着比较科学的角度来分析,让大家觉得更可信。”
2018年6月28日,四川成都,马蜂窝旅游网与商家共同打造的“网红墙”。
事发后,马蜂窝火速奔赴了朝阳法院,寄望通过法律维护公司名誉。
人工智能算法程序员惹上了官司,行业人士似乎变得茫然。不过,在法务人士眼里,这事有规矩。“民事诉讼中,谁主张谁举证”,知名法律自媒体“Legal观察”主笔人、诉讼法学博士后李斌对《财经天下》周刊说。
“马蜂窝说乎睿有诋毁行为,就要拿出乎睿伪造证据的事实,还要证明他们这么做是有恶意的。”她进一步解释道,如果当事人没有恶意,只是出于公益,也不构成诋毁。
马蜂窝作为本案的原告,最坏的结果是它的诉请不成立,被法院驳回。对于马蜂窝未来可能面临的法律风险,多位律师都是这么说的:这要看受侵害的平台告不告它。如果没有受害平台主张自己的权利,法院也不能主动审理。
而在审理中,即使这些人工智能模型是个新事物,“如果没有法定标准,也可以通过正常人的生活经验来加以判断,同时允许反证。”李斌进一步补充。
在该案件中,一个关键的争议点在于,点评类内容所有权究竟属于谁?
北京市京师律师事务所律师钟兰安告诉《财经天下》周刊,只要是用户自己写的一段文字,符合一定的标准,表达完整的意思,按照《著作权法》规定,这个作品显然是属于作者所有,只不过是利用平台把作品发表出来。
“确实有平台会设置一些个人条款,但是这些条款在法律上是无效的。平台作为一个机构,之所以提供这样的渠道,显然是想要增加自己的市场黏度,平台对这些作品有使用权。”他进一步说明,“如果把别人的客户评论扒来放在自己的平台上(商业化运营),这显然是违法的。”
钟律师一连用了3个显然,那显然这个问题很明确了。
一方面,内容的作者是用户,发表在平台上就构成了平台的一部分。大量使用其他平台未获授权的内容,而且还有竞争关系,就构成了对其他平台的侵害,这违反了《反不正当竞争法》的第二条:经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。
另一方面,发布大量虚假信息,误导消费者,又违反了《消费者权益保护法》中关于消费者知情权的规定。按照钟兰安的说法,该权益在一般情况下可由消费者协会或者是工商管理部门来代替消费者行使,可以依据相关规定对企业进行查处。
“如果这个侵权行为确实存在,消费者可以要求3倍赔偿。”但实际上,这个维权流程既复杂,举证难度又大,获得法院支持的不多。你比如,消费者要告平台误导他们去了一个不好吃、评论夸大了的餐馆,这个怎么界定呢?
无论如何,司法界人士认为,马蜂窝诉乎睿数据的案子具有典型意义:现在数据已经越来越是生产力了,大家对数据的争夺开始剑拔弩张。类似的事件过去已有判例可寻,你能发现司法判决的要旨。
2016年一审宣判的“大众点评诉百度案”最为典型,大众点评以百度公司大量抄袭、复制自己点评信息的不正当竞争行为,向上海浦东新区法院提起诉讼。
根据判决书,法院在百度行为是否具有不正当性的分析中提到,点评信息是核心资源之一,具有商业价值。“百度未对大众点评网中的点评信息作出贡献,却在百度地图和百度知道中大量使用,其行为具有明显的‘搭便车、‘不劳而获的特点。”
最终判定结果,如你所料,大众点评胜诉,百度违反公认的商业道德和诚实信用原则,给大众点评造成了实质损害,构成不正当竞争。2017年,百度的上诉被驳回,维持了原判。
你能看出,虽然爬取数据在互联网世界早已是常见现象,互联网上也有一个一致的观点:爬取公开数据肯定没有问题,否则搜索引擎就不存在了,还诞生了Robots协议,也被称为爬虫协议,网站可以通过Robots协议告诉搜索引擎,哪些页面你能抓取,哪些页面你不能抓,但常见现象不代表其具有合法性。
“大多数数据虽然展示给公众,但是其本身的民事权利(著作权、使用权、财产收益权等)往往属于平台或采集方,爬取虽不一定被追究,但是仍不是合法的,如需要使用他人数据,应求得权利人准许。”北京致知律师事务所律师张伟对《财经天下》周刊分析说。
“以不正当行为做大自己的市值,做大体量 ,但这些提高肯定是(利用了)从别人身上割下来的肉,是偷来的。”张伟称。
在这件事情上,“受害者们”的集体沉默,成了一个有趣的现象。有分析认为,这可能是因为行业潜规则而有苦难言。
“都不出声,很可能是(业内)公开的秘密被拿出来说了。”运营出身的陈艳说。
陈艳的爱好是旅游和逛吃。她是马蜂窝的资深用户,空闲时在上面写写游记。“我用马蜂窝主要是看精选游记,然后到当地后用LBS定位附近,看路线怎么走,寻找新奇的东西。”她还特别强调,“我也是运营出身,懂里面的套路。”
电商平台的刷单问题,早就人尽皆知。2016年移动直播兴起,曾有直播室中聚集了“13亿”的直播观众,媒体对机器人账号造假的报道也是一波接一波。人称“独角兽猎手”的金沙江创投合伙人朱啸虎公开力挺直播公司时,曾说:“(在直播间里添加)机器人是鼓励新主播,激励他们直播的运营方式而已。”
的确,数据造假已成为一种普遍的运营策略。哪怕是一篇文章,也存在刷量的可能。
前携程反爬团队人士卓超看来,能称为潜规则的事,都很难杜绝。“就像永远不可能杜绝大街上有小偷或强盗一样。”
卓超每天需要面对的是“数以百千记”的攻击和网络爬虫。“每天爬取我们数据的公司和团队,绝对不止一家。”反爬工程师是一个非常累的活,“敌人”经常会在凌晨两三点,专挑你特别不想去应付的时候,改变策略,疯狂吸血。
他和团队的工作是终日与那些临时的IP地址和不断变幻的攻击策略作斗争。技术上来说,爬虫行为很难防御,就像矛和盾的关系,没有一家公司能做到100%的防御能力。
卓超深知,旅游行业内容的重要性。旅游作为一个低频、高客单价的行业,用户做决策的时候很大程度上依赖别人的评价。UGC(用户生产内容)的内容可以说是旅游企业的核心资产。
在反爬虫和反反爬虫的对抗上,永远有意想不到的状况。让卓超理解不了的是,“一些和旅游没有任何关系的行业,你都想象不出它爬这个东西干嘛。”
為什么搬运别人的内容,会堂而皇之地成为互联网上的潜规则?
一位数据分析行业从业者对《财经天下》周刊分析说:“像UGC内容型的平台,它从零开始启动基本都需要人为地把内容先搬上去,你没有内容,就没有人来读,没有用户也就没有闭环。”在这个过程中,一些搬运让冷启动变快。这在中外都不鲜见。
当然谁都希望自己做内容,内容是核心,但有时候实现起来很难。尤其是点评,现在有些滴滴司机都已经被逼到提前结束行程,然后面带笑容,回身盯着坐在后排位置的你,一步一步帮他完成5星好评。这可不敢瞎说,有亲身经历过的《财经天下》周刊记者作证。
更何况要建立一个独特的内容社区,是一个苦活、累活。“UGC平台的发展曲线时间跨度比较长,一般5到10年,内容在早期生产量是很低的。”前Pinterest增长负责人Casey Winters说,你要耐得住寂寞。
但马蜂窝已经运营了十年,成为了出行游记最大的社区,它还用得着在点评数据上造假吗?正如有人分析的那样,也许涉及估值,也许与估值无关,是一种长期形成的习惯。
那么,为什么一个涉及行业潜规则的事情会突然在网络上搞得这么大?
“那个时间点,似乎没有什么大事件。而马蜂窝原来是一个颇为文青、低调的社区,可最近两年突然变得高调,商业变现加速,一旦用户感觉社区失去了原来的味道,他们的反应能不大吗?”一位资深媒体人分析说。
去年11月,马蜂窝曾对外介绍,“2017 旅游电商业务交易额预计突破 90 亿元人民币”,这是很多人不曾想到的,颇为文青、低调的马蜂窝,原来已经做得很大了。
而这个销售额是基于当时用户每月13万篇游记 ,超过 1.8 亿条点评,1.2 亿独立用户数变现而来的,马蜂窝通过游记、攻略、问答、嗡嗡,给用户提供决策和线路定制。
危机突如其来,以致于你马上会猜测,它是否会给马蜂窝的融资带来变数。
对此,36氪特意去做了个调研,得出的结论是觉得影响不大的居多。我们也去找了一些投资人,他们以ABC的化名畅所欲言:
A:“点评数据本身跟估值并不是线性的对照关系,很难说到底多少个点评值200亿元,最终还是要看企业的财务表现,收入利润才是核心。
“数据造假是这个时代的通病,既然是平台那就没有动力去做‘存真的工作,表面繁花锦簇就足够了。只能说商业就是一个递进的过程,没有谁好谁坏,那个时代大多数人需要的就是好的。”
B:“几年前尽调一家爆红的公司,用反作弊相关算法测出来全是机器人用户,后来这家公司上市了。互联网行业绝大部分创业公司还是很不错的,但是确实投资圈集体焦虑,太着急了。”
C:“并不是所有的投资公司都有很强的尽调能力,很早期的项目,说‘投资就是投人一定程度也是合理的,但是发展到一定规模,看人这事就不那么靠谱了。”
“我尽调碰到的最开放的公司基本都是国外的,有一家公司后台代码都给我们看了。国内的很多公司并不会给你开放太多东西,明星公司就更强势了,可能连技术团队都没有太多时间跟你交流。”
“这三人做的对行业来说是个好事情。即便是受雇于投资公司对一家公司做尽职调查,只要本身合法合规,而且最后的结论是正确的,那也没有关系啊。他拿了酬劳,也做了一件有意义的事情。”
坦白说,多数投资人看的还是公司能否持续增长,毕竟在中国任何企业都没有到“商誉受损,就没有人再理”的地步,创业者就更不用一涉及数据隐私,就像扎克伯格一样全球巡回道歉。大部分时候,消费者嘴上骂完,回头还是得用,那它就还是会继续增长。
如果不用马蜂窝,你还有第二选择吗?可能有,他们会举出携程、穷游。但这毕竟不像选咖啡馆,不去星巴克,还有漫咖啡、Costa,那么多的可替代性。当被问到这次马蜂窝的负面事件,一位马蜂窝资深用户说对自己“没有影响”,轻描淡写的语气让人印象深刻。不出意外,马蜂窝会继续增长,营收会更高。
“我们大家骂完它,却没有人能取代,这反而让大家更加关注它了。毕竟有人会很认真地再写,你还会去看。所以这两件事情红了他们两个团队。我们消费者也没有什么取代的,还是继续用它。”蒋美兰说。
但这件事让很多人开始了思考。
蒋美兰有些疑惑,人工智能算法到底是用来干嘛的?
“以前,一个朋友问我,为什么没有一个地方的评论是100%实在的?我也不知道。是因为太多算法出来以后,爬数据变得很容易,我们就开始用它生出更多评论吗?”
前一阵子,她读了一篇文章,大体表达了这样的意思,“AI还没有改變人,就先改变了舆论”。现在,AI可以瞬间产生1万条评论。“但我们为什么不用算法去把好的评论整理归纳?我们好像把算法都用在了增加数量上,看起来好厉害的样子。”
人工智能算法从业者也有疑惑。社交媒体上流传着一位美国藤校毕业生的困惑,回国实习,组里受过最好教育的一批年轻人,996加班加点地工作,就是每天鼓捣AI技术,分析哪些无脑短视频点击率高,再把类似的短视频推荐给用户。这样的工作有价值吗?“无脑,但互联网就是这样,什么火就做什么......”
诉讼法学博士后李斌也发现,现在,给消费者武装的大数据技术很少。“都是在谈大数据怎么实现精准营销,做用户画像,但是我作为消费者,能不能知道你的信息是不是真的?我们消费者要享受的真实消费权利在哪里?
这是展现在行业人士面前的一个需求。“可能大家从中理出一些鉴别方式,不排除两三年之后,有App集成了人工智能算法,你去网上看产品,跑一下这个App,分析所有评论有多大可信度。”大数据行业人士段杨说。
“海外有专门的领域叫Alternative Data(替代数据),在美国已经很成熟了,不只用于一级市场的尽调,还包括二级市场上市公司的一些投资研判。”海马云产品副总裁赵珅说。
替代数据这种通过公开的数据来分析公司财务运营等情况的方法,正在展现它的价值。这也是做移动数据挖掘的海马云未来的业务方向之一。“这是好事。”赵珅说,“当社会形成这么一股数据监测的力量,它大概能让企业守住一定的底线吧。“
还有一些人士提出了企业的原罪问题。硅谷投资人吴军曾讲述他的观察,“扎克伯格在Facebook上市前后判若两人。在此之前,他倡导公司野蛮生长,在工程技术上,也能借鉴就借鉴。对用户,不注重隐私,并且从来不觉得这算是了不得的事。”尽管Facebook上市后,扎克伯格变成一个做事有原则,一致性非常好的人,但在2018年,Facebook被爆出了之前泄露大量用户数据的丑闻,投资人纷纷要求他辞职,以恢复用户对Facebook的信心。扎克伯格不得不为之前的事情埋单,在美国和欧洲巡回道歉,公司的市值与谷歌、亚马逊差距加大。
原罪迟早要还的。“谁都有原罪,但那是因为新事物的规范还没有,探路人会碰到很多问题。”一位人工智能行业人士说。但现在竞争环境不断恶劣的状况下,过去带着原罪你还可能挺到上市,但现在你还用老一辈的方式做事,撞上枪口的几率就大多了,这甚至会改变公司的发展进程。最近,这种事情尤其多。
(文中陈艳、卓超为化名)