□本刊特约评论员 江坤
2023年7月1日,美国社交媒体平台Twitter宣布为打击猖獗的数据抓取和系统操作行为,将对各种账号的单日阅读推文数量设置临时上限,此举主要为应对数据爬取。目前,经过认证的账号每日阅读上限为10000条,未经认证的账号为1000条,新注册的未认证账号为500条。当前,国内外各大社交媒体平台也都有依据不同技术手段和不同规则制定的“反爬”方案。
毋庸置疑,数据“反爬”在一定程度上有助于保护用户隐私,防止用户数据被个人或机构进行大规模采集,预防用户隐私泄露,更能防止多元化数据采集和交叉分析造成的二次隐私泄露问题,在一定程度上能使用户具有“被遗忘权”和免于被数据“监视”。但是,“反爬”真的能解决用户隐私泄露问题和用户数据滥用的问题吗?恐怕并不能。社交媒体禁止大规模数据采集,但是上述数据仍存储于平台的服务器之中,平台想要分析和利用这些数据是易如反掌。与之相对的是在平台生态之外,用户处在更深的信息黑箱之中,无人能够使用社交媒体数据进行大数据分析,用户将更加无从知晓他们披露的信息可能会产生什么样的交叉分析结果,甚至由于数据分析行为的隐蔽化,使用户产生当前数据高度安全的错觉。从这个角度看,以Twitter为代表的社交媒体做出的“反爬宣言”更像是强化行业壁垒的一种手段,将有效数据保存在平台生态系统之内并禁止外部力量进行用户数据分析,也就确保了数据分析的结果不会外泄。
在当前的信息环境下,高质量的数据库是数字时代的“石油”,是一切生产消费活动顺利开展的前提。对数据的控制可以看作是对信息时代能源资源的一种垄断,不仅使自身在各个行业的竞争、决策中获得先发优势,而且大大提升了后进者进入这一行业的门槛。在此基础上,对用户数据分析有明确需求的行业领域将被迫进入平台生态内部与平台展开合作,进一步扩大平台的商业版图,不断增强垄断优势。
用户隐私保护是当前信息环境下的重要议题,但是这种由平台做出的自发的隐私保护行动,或多或少都会有一些“左手监督右手”的问题,可能带来更深层次、更隐蔽的隐私问题。为此,应当进一步探索提升平台数据采集、数据分析的透明度的可能路径,引入包括国家数据监督机构在内的第三方监管机构,使数据采集、分析、应用为用户所知,使作为数据的生产者的用户也成为数据挖掘分析的受益者,这才是平台数据治理应当达到的理想状态。