龚松杰+林婉怡
摘要:在电子商务教学与应用中,很多内容已经在向大数据的方向前进,用大数据进行分析和总结,教学效果可以由大数据分析总结出来。因此,在这个大数据化的时代,不与大数据有一定关联性,很可能会被社会所淘汰。本文研究了在电子商务教学中,大量的微博和微信内容,进行大数据挖掘研究。
关键词:电子商务;大数据;挖掘
1 引言
电子商务已经成为中国战略性新兴产业中的一个重要组成部分,代表了全球信息经济的发展趋势。随着电子商务的发展,出现了基本问题,如支付和分配,双方的信任和声誉,这些已成为了电子商务和电子服务发展的瓶颈。在虚拟市场中,信任的缺失、信任危机和信任状况的恶化等问题越来越严重。
Web2.0技术的应用和发展为表达自己的欲望和感情的用户提供了丰富的渠道和方式。各种各样的人通过网络、网站、博客、微博、微信等发表评价商品,产品和服务的意见。特别是,微博和微信在电子商务的应用领域中,提供了一种人们可以表达各种物品的感情,业务和服务渠道。这种用户评价和微博客评论已成为一种形式,所有的用户都可以发布、关注、评价、评论和分享信息。用户微博客的信息和数据和电子商务的意见和评价不仅包括结构化、半结构化和非结构化的数据,还包括文本、链接、图片、音频和视频内容,电子商务发展迅猛。信息和数据的快速膨胀。通过数天和数月的时间逐渐形成了大量的数据,大容量和复杂的结构,还有各种类型的大数据。
2 微博和微信
微博起源于新浪媒体,是一个社会媒体平台,微信是一个社交平台。吴军先生在《浪潮之顶》中提到的企业基因,认为新浪是一个网络媒体,而腾讯是社交软件和聊天工具,所以它也决定了两种产品的方向。微博客是社会媒体的核心,还具有社会功能;社交工具的本质,还有一些媒体的功能。微博作为一种媒体工具,关系主要建立在兴趣上,关系质量薄弱,更多的是单向传播,更多的是注重传播速度和内容的公开,这些信息很快就能在微博上传播。微信是一个社交工具,是在社会关系的恢复,关系主要在社交上,关系质量强大,更多的是双向的关系,关注的是私人之间的交换和互动内容,信息传播的速度不是很快,但观众的消化率很高。
举一个例子,同样的内容,在微信上的评论和回复要比在微博多很多,一个可见的关系,在你的生活中有很多的关系,微博客是单向的或更多一些的人之间的关系,看到和接受的信息,是不愿意花时间复习和反馈的,因为是一个单向的关系。
微博和微信这两种产品的优劣长短,在核心业务上没有直接的冲突。就像在互联网时代之前,你也得看电视,或者打个电话。微博要做的是媒体,主要是卖广告;社会和销售增值服务平台。虽然微博也有很多做平台的行动:微博支付等等,但是,更多的是有关媒体的。吴军的企业基因决定论中,认为新浪的基因是深的,而腾讯的基因则更纯,在未来联想微信产品方面有更多的空间。
3大数据关联规则挖掘
关联规则挖掘的过程主要包括两个阶段:第一阶段必须从数据集合中找出所有的高频项目组,第二阶段是从这些高频项目组中生成关联规则。关联规则挖掘的第一阶段必须从原始数据集中找出所有的高频项目。高频意味着一个项目组的频率相对于所有的记录必须在一定的水平。
关联规则挖掘的第二阶段是生成关联规则。从高频项目组产生关联规则,将产生高频率的项目的规则,在最小置信度阈值的条件下,所得到的规律和最小的可靠性就是关联规则。
首先,我们必须设置最小支持度和最小信任度两个阈值。因此,满足超市的要求的关联规则将在同一时间满足上述两个条件。如果在挖掘过程中发现的关联规则符合下列条件,可接受生成关联规则。
1 Apriori算法
Apriori算法是一种最具影响力的挖掘布尔关联规则的算法。核心是一个在递归算法的基础上的两个阶段的频率集理论。关联规则属于一维,一层,布尔关联规则。在此,所有的支持度都大于最小支持度。
该算法的基本思想是找出所有的频率集,就是相同的最小支持度。然后,通过频率集,产生关联规则,它必须满足最小支持度和最小置信度。然后,第一步是用找到所需的规则所产生的所有规则,其中只包含一组条款,只有一个在这里使用的每一个规则的权利之一。一旦生成这些规则,只有那些大于用户给定的最小信任度的规则被留下。为了生成所有的频率集,使用递归的方法。可能会产生大量的候选集,以及可能需要重复扫描数据库,这是Apriori算法的主要缺点。
2 频集算法
虽然Apriori的算法有缺陷,但Han J.提出了不产生候选频繁项集挖掘的方法:FP树算法采用分而治之的策略,在首次扫描数据库时,将频率集压缩成一个FP树(树),与他们相关的信息分化为条件FP树库,再将每个库的频率设定到长度为1。条件为开采基地,当原始数据量大时,也可以结合划分的方法,使FP-tree可以放入内存。实验表明,和Apriori算法进行比较,FP增长有不同长度的规则,适应性好,具有良好的效率。
3.划分算法
划分算法是一个基于分区的算法。该算法首先将数据库逻辑上划分为几个不相交的块,每个块单独考虑它生成所有的频繁集,然后将产生的频率集,用于生成所有可能的频率集,最后计算项集。块大小的选择在这里可以使每个块被放入到主存储器中,每个阶段只是一个扫描。并且该算法至少保证在一个块的频率集的正确性。该算法可以是高度并行的,而且每个块可以被分配到一个处理器,然后产生频率集。在生成集的每个周期后,处理器与处理器通信会产生一个全局候选项集。通常通信过程是算法执行时间的主要瓶颈,而另一方面,每个处理器的时间也是一个瓶颈。
4 结束语
在这个大数据时代,如果没有和大数据有一定的相关性,很有可能会被社会淘汰。本文是对电子商务教学以及大量的微博和微信内容,开展了大数据挖掘研究。
参考文献:
[1] 高海建.基于大数据视角的电子商务产业研究[D].首都经济贸易大学,2015.
[2] 韦伟.大数据背景下的微博在高校管理中的作用[J].高教学刊,2015(24):147-148.
[3] 时妍婧,张丽.大数据时代微信营销的创新方式探析[J].电子商务,2015(8):31-32.
[4] 沈志荣.基于大数据的社会化媒体营销研究[D].北京化工大学,2015.
[5] 孟肖虎.大数据技术在新媒体产业中的应用[J].科技视界,2015(5):383-383.