大数据杀熟及其对抗技术研究

2024-12-15 00:00:00王彦淇彭焕峰李书阳
电脑知识与技术 2024年35期
关键词:杀熟大数据

摘要:伴随着互联网技术的不断演进,基于电子商务的网络购物平台日益广泛流行。在电子商务的应用过程中,对于不同客户的区别定价行为已经严重损害着用户的实际消费体验。电子商务平台基于自身的平台优势,对个人用户在重复交易中设置高价。这种大数据杀熟使得相同的商品或服务对不同的消费者呈现出不同的价格,这种现象严重违背了公平交易的原则。文章设计了一种基于Python语言的大数据杀熟对抗方法,可以有效避免用户支付过高的商品售价,有助于节约用户开支,优化个人用户的网络购物体验。

关键词:大数据;杀熟;Python

中图分类号:TP393文献标识码:A

文章编号:1009-3044(2024)35-0074-02开放科学(资源服务)标识码(OSID):

0引言

基于电商平台企业的大数据“杀熟”行为不同于传统线下“杀熟”行为,其最大特性在于隐蔽性。与传统差别定价不同,电商平台基于大数据技术的“杀熟”行为并不为消费者所知[1]。消费者渴望公平的消费环境,而大数据杀熟使得相同的商品或服务对不同的消费者呈现出不同的价格,这严重违背了公平交易的原则。当消费者发现自己可能被“杀熟”时,会产生被欺骗的感觉,从而降低对商家的信任度。因此,需要有效的对抗手段来确保每个人都能以合理的价格获得商品和服务,维护消费者的合法权益。

对于普通消费者而言,每一笔消费都需要精打细算。如果因为大数据杀熟而多支付了费用,将会给个人经济带来压力。通过对抗大数据杀熟,可以让消费者更好地掌控自己的消费成本,合理安排支出[2]。消费者的消费选择受到大数据杀熟的影响,当消费者意识到自己可能被区别对待时,会对消费决策产生疑虑。他们可能会花费更多的时间和精力去比较不同平台的价格,或者对某些商家产生抵触情绪,这不仅降低了消费的便利性,也影响了市场的正常竞争秩序。通过对抗大数据杀熟,可以让消费者更加自信地进行消费选择。

1系统分析与设计

大数据杀熟这一行为的本质是:通过大数据分析和预测手段,对于同样的商品和服务,对不同对象收取不同价格的现象[3]。可通过画像伪装、画像模糊和数据保护三个方面来避免大数据杀熟。从画像模糊和画像伪装的角度进行防“杀熟”是本项目的重点方向。对于各个电商,商品浏览均可以先以匿名用户开始。本项目通过用户输入商品名称,弹出商品弹窗,显示商品的名称、图片、价格、电商平台和店主信息。用户点击商品便可以跳转到各个电商平台查看商品。

因此,可以设计如下流程来对抗电商平台的数据杀熟行为:预期通过大数据查找,搜索全网低价,利用电商之间对同一用户的购买方向估算不同而导致价格不同的漏洞,进行防“杀熟”,来保障消费者权益。通过不同消费产品的地址处不同,来降低电商对消费者消费方向的估算,以达到防杀熟的目的。

1.1整体方案的技术路线图

用户信息搜集是大型电子商务平台实施“杀熟”的核心基础。规模较大的电商平台会对用户行为进行跟踪:一方面可以防止匿名用户进入(如爬虫工程师爬取数据采用匿名化用户);另一方面可以搜集用户信息,为其推荐兴趣商品,提高用户购买率[4]。在实际的电子商务平台中,系统设计人员会在具体的网页界面中使用“埋点”技术来搜集用户信息。所谓“埋点”,即隐藏在网页界面中的一段程序。该程序可以观察用户使用网页的习惯,如鼠标点击了哪些超链接、在每一个网页的浏览时长等。这些埋点用于搜集用户信息,包括:单用户的单品访问数、停留时长、页面浏览数等,以及单商品的访客数。这些采集而来的信息可以为“杀熟”提供帮助。电商平台实施区别定价的技术原理如图1所示。

举例来说,当用户A进入网页频繁点击高档数码相机时,电商平台通过以往的交易信息可获知用户的收件地址。如果收件地址周边的房价高昂,系统便可能将产品以更高的溢价售卖给该用户A。为了对抗电子商务平台的这种“杀熟”行为,可以采用多平台比价、模糊个人信息等技术手段来进行对抗。多平台比价可以采用网页爬虫去搜集信息;模糊个人信息则可以通过自己搭建网页(自建网页仅含HTML等信息,去除了电商平台的埋点功能),再跳转到对应的平台下订单完成购物。

1.2基于Python爬虫的商品信息比价模块

商品信息比价功能模块的主要功能需求是用户在确定购物意向后,本系统可以在全网的主要电商平台对同类型的产品信息进行爬取,然后通知需要购物的用户。网络爬虫是一段计算机代码,由开发者按照事先约定的规则编写,能够自动请求网站服务器数据并获取目标数据的程序。网络爬虫技术即模拟人使用浏览器访问互联网资源,并收集服务器返回的数据。面对当前成熟的电子商务平台,大多数电商网站采用HTTPS,而且对网络爬虫具有反爬虫技术来阻止用户使用编程手段搜集信息。本系统拓展了反反爬虫技术:使用requests请求,检验网站是否带有动态cookie;如有,则解析js查找cookie,改写js。对于js动态加载的网页,使用Selenium库模拟浏览器行为并获取通过js加载的数据。同时对于登录要求,使用模拟登录的方法。

针对用户需求,本文采用Python爬虫技术进行购物网站商品的爬取。通过Python爬虫技术可快速爬取商品信息,操作简单,效率高。爬虫代码基于re⁃quests、re、pandas、bs4这四个库,分为四步爬取内容:

1)获取URL,设置请求头User-Agent,Headers的固定参数可以套用在不同网站上,更改cookie、referer和user-agent的数据即可。

2)发送请求,获取响应的网页内容。

3)解析网页内容,提取数据。

4)使用DataFrame保存数据。主要爬取的商品信息包括图片、简介、价格等。

在运用Python爬虫爬取网站时,大多网站会采用反爬手段,诸如:User-Agent识别、Refer检查、IP限制、Cookie等技术手段来避免用户使用程序采集网页信息。为了能够充分进行全网商品比价,本系统针对上述常见的技术手段进行了设计:对于User-Agent识别,可以对即将爬取的网站进行检索,获取User-Agent内容,放入headers;对于Refer检查,则需要甄别路径。Refer判断当前路径是否由上一个路径进入,一般情况下,Refer用作图片防盗链。携带cookie的情况下,大部分情况能够通过Refer检查;IP限制是常见的反爬策略,在爬取网站时,网站会识别IP地址,来防止多次爬虫请求。使用proxy可以掩盖真实的IP;最后一项是常见的cookie限制。在使用爬虫爬取网站信息时,部分网站会使用cookie进行反爬。本设计采取的具体策略是:

在进行网站浏览时,部分网站要求用户登录才能查阅更多信息,而作为爬虫,则采用匿名化访问,绕过登录页面来爬取信息。使用重放请求进行技术验证:如果删除该网站的cookie值后重放该请求仍能获取相同的数据,则表明该网站未设置cookie反爬;如果发现重放获得的数据包大小与正常请求获得的数据包大小不一致,则说明该网站设置了cookie反爬。

在确定每次请求的cookie都不会对固定值进行反爬后,删除cookie中的变化值,即可应用爬虫技术进行信息采集。对于淘宝、京东等大型网站,依然遵守其Robots协议且合法合规地在网站要求下索取数据,通过用户提交的账号密码进行登录,爬取已知信息,再进行多次比较商品信息,由用户自行选购。

1.3隔离用户信息埋点的独立网页交互模块

通过技术埋点是当前主流电子商务平台采集用户信息的重要技术手段。隔离带有用户采集信息的电子商务网页,便可以有效地减少电子商务平台基于用户信息所进行的“杀熟”行为。本系统的主要功能需求包括三大类:第一,用户可以准确找到所需要的商品;第二,用户可以进行下单等基础操作;第三,用户可以及时查看是否下单成功。为了方便用户使用,在对抗大数据杀熟的工程实践中,还必须考虑非功能需求,如:响应时间要尽可能简短,在进行特定条件搜索行为时,用户要在5秒内得到搜索结果;要注意隐私安全,系统会依据程序清除用户浏览网页留下的所有cookies,从而使网页平台无法收集到用户的个人隐私。

2结束语

基于Python的大数据杀熟对抗技术是有针对性地解决电子商务平台对消费者实施价格歧视的有效策略。本文采用在线Web访问的形式,极大地提高了用户的网络购物消费体验。本系统采用基于爬虫的商品信息采集比较的设计方案[5],可以有效地隔离电子商务平台的cookie信息绑定,进而提升了商品真实价格信息的透明化程度,节约了消费者的财务支出,促进了电商平台公平交易的达成。

参考文献:

[1]陈屿涵.平台经济中的“大数据杀熟”现象:算法驱动下消费者的交易公平性问题[J].现代营销(下旬刊),2024(7):10-12.

[2]熊鸿儒,马源“.大数据杀熟”问题实质、治理挑战及对策[J].新经济导刊,2023(9):70-76.

[3]桂雨妍.平台大数据杀熟中个人信息反垄断保护之必要性研究[J].互联网天地,2022(12):47-51.

[4]韦建国,王玉琼.基于网购平台大数据的电子商务用户行为分析与研究[J].湖北理工学院学报,2019,35(3):34-38,57.

[5]邹乐,王丽丽,褚甜甜.基于微信小程序的大数据杀熟比价系统的设计与实现[J].电脑知识与技术,2021,17(36):57-60.

【通联编辑:谢媛媛】

基金项目:南京工程学院大学生创新创业训练计划项目:大数据杀熟及其对对抗技术研究(项目编号:202411276305X);江苏省高等学校大学生创新创业训练计划python虚拟机内存管理研究(项目编号:202011276034Y)

猜你喜欢
杀熟大数据
汤姆“杀熟”
新民周刊(2017年38期)2017-09-28 21:01:14
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
朋友圈“杀熟”,女学霸的“蜗居微整形”
微商“杀熟”之路能走多远