吴红
(首都经济贸易大学,北京 100070)
基于移动互联网的数据挖掘概述
吴红
(首都经济贸易大学,北京 100070)
随着移动互联网的不断发展,海量移动互联网数据不断涌现,由于数据本身的价值,针对移动互联网数据的挖掘更为重要。分析了移动互联网信息价值,介绍了数据挖掘以及LBS在数据挖掘中的应用,最后从数据量、安全性和数据质量三方面对移动互联网数据存在的问题进行了阐述。
移动互联网 数据挖掘 信息价值 LBS
随着各种移动设备、物联网和云存储等技术的发展,人和物的所有轨迹都可以被记录。与互联网不同的是,在移动互联网中的核心网络节点是人,不再是网页。随着数据大爆炸时代的到来,怎样挖掘这些数据,同样面临着技术与商业的双重挑战。对于数据挖掘来说,移动互联网的特殊性首先在于它能够锁定一个特定用户,其次在于它能够获取用户地理位置信息,再次是在于移动互联网上的时空信息等多样化的数据种类。而因为这三点,导致移动互联网上的数据数量会比传统互联网更大,形式也比传统互联网更加丰富,从而也有更高的价值。
2.1 移动互联网数据形式
移动互联网数据形式多种多样,在互联网上存在的各种数据类型只是移动互联网上的一个子集。同样的互联网信息,在移动端访问的方式也使内容变得更加丰满。同样是都是图片,但是在移动设备中存在的与位置相关的图片要比单存在于互联网上的图片价值高很多,或者说同样都是一句评论,但是有场景的评论和场景的评论相比前者更有挖掘的价值。
与传统互联网的数据不同的是,在移动互联网的数据中,文字以外的其他信息占到更加重要的比例。从数据的属性上来讲,移动互联网上的数据比传统互联网更加复杂,其中一个原因是这些数据包含了大量的时间和空间的信息,也就是需要把数据挖掘延伸到时空数据挖掘的领域(Spatio-temporal Data Mining)。因为多了一个维度,时空数据挖掘的复杂度比一般的数据挖掘又深了一层,虽然说研究方法和算法还是类似的。
2.2 移动用户价值
从本质上,在移动互联网上的挖掘的目的和传统互联网数据挖掘的目的是一样的:都是为了从原始数据上找出有用的信息,进而转化成可用的知识。但移动互联网有其特殊性,即移动互联网的某一个终端通常是由同一个个体使用的,所以用户在移动终端上的所有行为是具有一定延续性的,通过收集用户信息,可以建立用户档案(Profile)。
在移动互联网上,即使没有Cookie,依然可以锁定用户,即使因为隐私和用户规则等原因,我们不主动获取用户的个人信息资料,但至少可以知道用户是否和之前的某个访客是同一个个体。这样能够通过移动互联网应用获取用户当前的位置信息和参加活动的一些信息,并把这些信息记录收集下来,从而积累成关于某个用户的丰富档案信息。这些信息积累将是一大笔财富,从一些位置信息中可以分析出用户的大概活动范围,经常出差还是常住,甚至可以预测用户此刻需要什么。
2.3 移动互联网地理位置信息价值
通过分析移动互联网的数据,可以真正实现用户的行为定向,通过用户使用各种应用的习惯与场景,还原用户属性,了解用户兴趣和喜好,预测用户消费习惯和消费意图,实现真正的精准定向。基于移动互联网地理位置信息,可以推荐针对某一人群的服务,比如可以再节假日之前提供北京往返机票和优惠礼品券,在平时提供商务人员需要的个性化产品等。
LBS(Location-Based Service)是与位置相关的软件服务的英文缩写,指的是一类利用和控制与位置与时间相关的计算机软件服务。LBS通常是在移动终端实现的,现在很多原本只是在互联网上的应用都有了LBS服务。基于位置的数据挖掘非常具有挑战力,如帮助用户寻找他所在地附近可能有用的商业地点,并按照一定的规则排序,实现并不那么容易。
任何与位置相关的数据挖掘的工作必不可少的第一步就是搜集关于地点的可靠数据。在这个过程中,常会面对多个不同的数据源,有些来自互联网,而有些来自于线下,所以第一步面临的常常就是数据的整合与清理。与位置相关的数据量常是在GB字节上下,对于这个量级的数据频繁的整理、提取、集成和存储都有一定的难度,但目前有一些框架和应用工具解决此问题,如Hadhoop和HBase等。各个地点之间的关联性是需要通过数据挖掘才能完成的任务。每个地点都有多种属性,而地点之间的关联度是根据他们各自的属性匹配所得到的。目前有一些相关挖掘领域及算法,如利用PU(Learning from Positive and Unlabeled examples)学习算法做文本挖掘,利用相似匹配算法做地点挖掘等。
LBS应用最有价值的地方在于藉此能够对用户做精准的地域定向,这样的广告价值相对要高很多。如一家餐馆可以对它周围1公里的用户发送折扣券,一个搬家公司可以选择对它周围10公里的用户发送广告,等等。
移动互联网有它的特殊性,而移动互联网上的数据除了它的特殊价值之外,也有和传统互联网不完全相同的问题。下面从数据量、安全性和数据质量三方面分别介绍了移动互联网数据存在的问题。
4.1 数据量
移动互联网可能产生的数据量是一个需要考虑的问题。据统计,在中国,2012年约有不到6亿移动互联网用户,其中有约1.8亿是手机应用商店的使用者,而且这个数字正在飞速增长之中。每个用户产生的所有数据,包括即时的位置信息、路径信息、访问信息等都需要实时分析,那么处理数据过程的负担就加大。
4.2 安全性
互联网安全性一直是关注的热点,那么移动互联网上的安全因素也需要考虑和解决。在移动互联网上有很多恶意的应用程序,这些应用程序侵入用户的移动设备来窃取个人信息。另外,移动终端和个人身份信息密切相关,在移动互联网上更加要重视个人隐私问题。
4.3 数据质量
移动互联网的数据价值显而易见,但数据质量却令人担忧。移动互联网行业结构目前并不明朗,盈利模式也不清晰。大量的移动应用通过刷量来冲击移动互联网应用排行榜以追求投资人的青睐。大量移动互联网公司付费给水军来给自己的移动应用发五星好评,给竞争对手的应用打一星差评。这些数据所占据的比例过高,已经严重干扰了数据的准确性,而这些行为实际上大大降低了移动互联网数据的整体价值。所以提高数据质量问题不容忽视。
移动互联网不断发展,从而产生大量数据,海量数据中包含着重要信息,对各行业都有不可估量的价值。本文分析了移动互联网信息价值,介绍了数据挖掘以及LBS在数据挖掘中的应用,最后从数据量、安全性和数据质量三方面对移动互联网数据存在的问题进行了阐述。基于移动互联网的数据挖掘意义重大,本文希望能为以后在移动互联网方面针对数据挖掘的研究打下一定的基础。
[1]Goh,Jen and Taniar,David.An Efficient Mobile Data Mining Model:Parallel and Distributed Processing and Applications. Springer Berlin,2005.
[2]赵占纯,李涛,戚帅.移动互联网信息挖掘的实现及应用浅析[J].邮电设计技术.2012(8).
[3]Nafiseh Shabib,John Krogstie.The use of data mining techniques in location-based recommender system.in Processing WIMS’11 Proceedings of the International Conference on Web Intelliengence,Mining and Semantics,2011.
[4]梁晓音.2012年中国移动互联网应用趋势预测[J].硅谷,2012(16).
[5]蔡梓铧.2012年移动互联网初探[J].软件工程师,2012(Z1).