本文首先介绍了大数据时代的主要发展特征,并结合电子商务的发展现状,分析大数据背景下的电商的营销特征和优势。本文分析了大数据的发展误区——大数据不一定是我们需要的,要通过有效数据来定位电子商务企业。提出了大数据发展的方向——解决数据安全的问题。通过对结构化和非结构化的匿名方式的介绍,指出大数据背景下的电商企业在数据安全性上应作出的完善。
【关键词】大数据 电子商务 有效数据 数据安全
早在上个世纪80年代,就有人预测大数据将成为第三次新的科技浪潮。如今,互联网、云计算、电子商务等新兴信息技术蓬勃发展,信息技术的广泛应用,使得全球数据量呈现出爆炸式的增长状态。随之而来的,大数据也逐渐成为全社会的关注热点。最新的数据显示,全球数据增长量已经接近了摩尔定律“每18个月翻一番”的规律。数据量的飞速增长,标志着“大数据”时代的到来。对数据的收集、统计和分析,将会颠覆电子商务、物联网等领域的传统发展模式,为社会发展提供新的捷径。
1 大数据的概念及特征
大数据最初是由美国人提出,Gartner将大数据定义为:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特征在各个领域都有不同的认知和定义。目前,大数据的“4V”特征得到了较为广泛的认可。
1.1 数据总量巨大
目前,全球数字信息总量已经达到ZB级别。我国的网民数量位居全世界之首,每天产生的数据量也位居全世界第一。如淘宝网站的订单数,百度的搜索请求次数,微博、微信等的状态更新,这些都将产生每日TB级别的数据量。除此之外,医疗领域、交通状态、金融业等都会都会有大量的数据生成。由此可见,这些大数据已成为重要的生产要素。
1.2 数据种类繁多
例如互联网的视频库,照片;微博、微信等社交网站的状态;通话录音,监控录像等。而且这一种类还在呈上升趋势。这些数据在大小、类别、形式上各有不同,这也给大数据的分类处理、分析带来了很大的困难。
1.3 数据的价值率低
正是因为现在数据总量大,种类繁多,在浩瀚的数据海洋中找到有效的信息难度越来越大。如何快速准确的找到所需数据成为大数据技术的一个核心问题。例如,监控录像往往24小时都在记录,但是破案的关键点总是会集中在几秒钟;例如谷歌每天有上亿次的搜索请求,但是如果不将搜索的关键词与政府的相关数据进行对比,就无法预测到2009年H1N1的爆发;再比如现在人们所关心的地震、火山等自然灾害的预测,都是通过精准数据的分析得到的。所以,提高数据的价值率,将核心数据进行处理分析才能得到有效的处理方案。
1.4 数据的快速处理能力
基于以上三点,可以了解到,大数据技术若想得到长足的发展,需要有快速的信息处理能力。传统的数据统计,过程过于繁琐复杂、时间周期长,已经不适合于当今社会的需求。大数据时代,需要数据具有及时性和有效性,很多场合下,数据处理不及时,那么先进的收集整理方法也毫无意义,数据也失去了它的意义。这种需求下,IBM提出了“大数据级的流计算”概念,旨在对数据进行及时的分析并得出结果,来提高数据的实用价值。所以说,数据的快速处理并分析能力,是大数据的一个重要特性。
2 电子商务的概念及特征
电子商务从兴起到家喻户晓虽然只发展了短短十几年,但是已经成为国家经济建设和社会发展的一个重要组成部分和发展方向,成为新经济的主流。电子商务不仅改变了传统的商业交易模式,更是一场经济和社会领域的革命;它彻底打破了制造业和商业分离、供应商和消费者信息不对称、买方和卖方对立以及大工业时代传统商品供应链的固有格局,改变了人们日常生活、工作和消费的习惯。
现阶段对电子商务有诸多理解和定义,通常来讲,指的是在利用开放的覆盖全球的互联网,利用现代通信技术进行数据交换和处理,从而实现卖家与买家之间在线各种数字贸易、数据传输、电子支付、交易服务和相关服务活动的一种商业运营模式。借助于互联网与生俱来的全球化优势,廉价、高效、开放、共享等特点也成为电子商务的固有属性。电子商务所涉及到的用户之广、交易形式之多变使其产生的价值远非任何一种传统贸易形式可以比拟。其特征可以概括为以下四点:
2.1 交易效率高
现代的通信手段可以使得商业活动突破时间和距离的限制,缩小了生产、流通、分配、消费之间的距离,大大提高了物流、资金流和信息流的有效传输和处理,从而降低了交易双方的时间和资金成本,来提高交易的效率。大数据、云计算和人工智能等新兴技术的完善更是进一步提高了效率,全球化的加剧使企业和消费者可以随时通过互联网线上交易。
2.2 交易成本低
电子商务打破了传统的交易方式,突破了地域和中间商的障碍,使得买卖双方的交易成本大大降低。其中,距离越远,网络上进行信息传递的成本相对于信件、电话、传真而言就越低。此外,没有了时间和距离的限制也大大降低了信息成本。突破了中间商的障碍,买卖双方直接通过网络进行交易活动,减少了交易所需的环节。同时在线上进行的宣传、产品介绍活动所需的人力、物力成本大大节约了资金;电子商务贸易平台所需的规模大小较之传统店面减少很多,降低了店面的租金。最后,互联网使买卖双方即时沟通供需信息,使无库存生产和无库存销售成为可能,从而使库存成本降为零。
2.3 开放性
开放性是在指目前电子商务发展趋于透明化。电子商务使企业之间的沟通和联系更加便捷,买卖双方从交易的洽谈、签约以及货款的支付、交货通知等整个交易过程都在网络上進行。快捷的信息传输可以保证各种途径的信息之间可以有据可查,能够有效的防止信息伪造。
2.4 更加优化的用户体验
电子商务的大平台提供了企业和用户更多选择。电子商务为消费者的个性化服务提供了条件,使人们购物办公不再受到时间和地点的约束。企业也利用网络追踪和分析每一位消费者的偏好、需求和购物习惯,同时将消费者的需求及时反馈到决策层,促进企业针对消费者而进行的研究和开发活动,使企业对客户的了解和认知更为透彻,更有针对性地为他们提供个性化服务,提高他们的满意度和忠诚度,为企业增加赢利。endprint
3 电子商务跨入大数据时代——电子商务的发展趋势
电子商务与大数据的结合,是互联网时代的必然产物。
大数据能够吸引消费者的核心点在于,能够较大程度上的优化电子商务的用户体验。全球数据量每18个月增长一倍,巨大的信息量使得传统的网络营销方式不能够满足用户“快、准”以及时刻变化的购物需求,大数据的产生,优化了电子商务平台的这一问题。大数据优化的电子商务平台的主要运营模式是——大数据通过对海量数据的统计、分类、总结,将用户和产品进行有机串联,对用户的产品偏好进行个性化定位,为用户提供精准高效的服务。并且通过大数据技术,可以随时根据消费者在网上的浏览情况,及时的更新制定合理的营销方案,从而达到利益最大化。同时,用户可以通过多种渠道(关注度、好评率、店铺等级、信誉积分等等)来锁定自己想要购买的产品,精准全面的营销模式优化了用户体验,提高了用户的忠诚度。
4 电子商务跨入大数据时代——如何发挥大数据“潜能”
4.1 大数据时代,我们还有隐私吗?
数据是一个企业的核心资源,也是企业竞争力的主要体现,加强信息安全对企业的持续发展至关重要。尤其是对于电子商务企业,由于互联网本身就存在安全隐患,其信息容易被盗取利用,所以信息安全和隐私保护一直是电子商务企业的重点问题。大数据时代,网络用户的图片、评论、个人信息、证件信息、兴趣爱好、家庭住址、交易记录等都会被企业记录在案。随着数据总量的大大增多,数据的安全问题逐渐成为广大网民最关心的问题。正如美国计算机专家狄博德说的,在信息时代,计算机内的每一个数据、每一个字节都是构成一个隐私的血肉。信息和数据的组合,对用户隐私的穿透力很多时候是“1+1>2”的。大数据时代,传统的数据保护方法已经不再适用,大数据的安全面临严峻的挑战。
大数据时代,数据的安全问题包含两个方面:一个是个人隐私的保护;一个是个人隐私数据在存放、传输和使用过程中被泄露的风险。随着大数据技术的发展,每个人都希望电子商务平台能够提供个性化的精准服务。这样一来,用户就需要在互联网上提供自己较为详细的信息,有时候在不知不觉间,你的行为也会以数据形式被身边的电子产品记录下来:当你拿着你的iPhone休闲度假的时候,苹果早就通过定位系统把你行程信息收罗到你的数据库中;当你享受这社交网络的便捷和巨大的信息量时,你所发表的言论、你的动态以及你家人朋友的相关信息数据也会被储存起来;当你觉得城市的边边角角布满摄像头十分安全的时候,你的言行举止也会被记录下来;当你享受着各大电商平台的物美价廉的促销时,你的需求和爱好也会被平台所知晓……以往,这些记录并不会对绝大多数的人的生活造成影响,因为数据量巨大,除非有特殊需要,否则每个人的数据库如沧海一粟,找起来十分困难,想要将一个人的数据收集完整也是一个非常庞大的工程。但如今,随着大数据技术的不断进步,一个人的一生仿佛都可以用数据来展现,每个阶段,甚至精确到天、分钟,每个行为都有据可查,大数据不仅能够洞察你以往的行为,甚至还可以准确的预测到你未来的消费行为、你的健康状况等等。
所以在这种情况下,完善的大数据的安全机制变得尤为重要。就结构化数据而言,要有效的实现用户数据安全和隐私保护,数据发布匿名保护技术是核心。数据发布是将数据库中的数据直接展示给用户,在数据交流共享的过程中会有数据暴露出所有者的个人信息,因此现在在数据发布前要对数据进行匿名化处理。匿名化方法是一种安全有效的数据隐私保护方法,它能很好的平衡数据的有效性和隐私性。数据发布匿名化的基本思想是将原始数据进行某种转换,使攻击者不能从转换后的数据中轻易分析出某个元组的敏感属性值,从而不能根据敏感信息来识别到具体的信息所有者,来达到隐藏用户信息的目的。但是,其设定的环境大多是用户一次性、静态地发布的数据,而现实中数据是多变的,数据发布大多是连续、不间断的。所以在大数据复杂的环境下,攻击者可以通过不同的发布点,不同的渠道来获取信息。所以说,数据发布匿名化这项技术在未来还是有很大的发展空间。
对于非结构化数据,比如说社交网络,每日产生的海量数据要想实现用户的安全和隐私保护,尤其是包含了大量用户隐私的非结构化数据(图结构等),可靠的社交网络匿名保护技术就尤为重要。在社交网络的在社交网络模型中,需要匿名保护的主要对象包括:身份隐私、社交关系隐私和属性隐私。在社交网络中,用户的这三类隐私信息之间互相覆盖,关联度较强,环环相扣,所以给社交网络匿名化技术增加了难度。最为典型的方法是基于结构变换的匿名方法。这种方法的特点是对社交网络中的边、节点进行增删减除等变换来时间用户数据的匿名化。一般攻击者都会利用点和边的相关属性,通过分析整合,来鉴定出用户的先关隐私信息。而这种方法的核心思想是尽量的模糊各个关系节点的个性化特征,让部分虚拟节点尽可能相似。典型的度节点方案是通过调整度数相近的节点,进行增加或删除节点相连的边个数,使得每个节点至少与其他K-1个节点的度数相同。
4.2 “大数据?”“有效数据!”
一分钟内,Twitter上新发的数据量超过10万,Facebook的浏览量超过600万,这些数据还是在呈上升的趋势。毋庸置疑,能否利用“大数据”优化和定位企业发展方向已经成为电商企业发展的关键因素。新媒体带来的新的网络运营方式是以“大数据”为坐标的。信息时代的核心价值就是信息,而数据就是测量信息是否被有效传播的标尺,来告诉电子商务企业某种产品信息在多大程度上被消费者接受,并让这些企业分析消费者是否还会再光顾以及不光顾的原因是什么。
然而这种“大数据”分析出来的结论并非每次都能达到预期的效果。2012年8月15日,京东CEO刘强东向苏宁宣战,拉开了京东、苏宁、国美的家电价格战。低价的促销行为使这次价格战被网民抬向高潮,“你敢1元,我就0元”等口号给网民留下深刻印象,这些信息的转发、评论次数成了普通信息难以比拟的数据量。但是很快,检测数据显示,各個商家参与竞争的商品重合度仅有10%,还有超过10万商品的折扣幅度低于10%,过半的低价商品显示“无货”。这一结果使用户的好感度大跌,之前所宣传渲染的“大数据”起到了相反的效果。之前的关注度有多大,现在商家所面临的危机就有多大。及时三个商家进行及时的危机公关处理,但是消费者的品牌忠诚度大大降低了。
作者简介
张涵(1997-),女,河南省新乡市人。大学本科学历。北京邮电大学国际学院学生。主要研究方向为大数据研究。
作者单位
北京邮电大学国际学院 北京市 100876endprint