乔阳
手机在数字化时代成为人们生活中必不可少的工具,而手机移动设备的功能就体现在手机的各类应用系统上。本文根据数据挖掘技术对手机应用起到的作用进行分析,为手机应用市场的开发提出了一些具体的建议,并且在综合分析各类应用的基础上,设计手机应用的推荐系统,希望能够为用户提供更高质量并且符合用户需求的应用。
一、当今大数据技术发展状况
在数字化时代发展的今天,各种手机、iPad等互联网应用设备如雨后春笋,始終保持着快速发展的势头,使人们的生活走上“互联网+”的时代。在手机数据决策和管理中,数据仓库主要是面向主题数据集合、集成数据集合和与时间相关的数据集合。相对于普通关系型数据库来说,数据仓库的重点不再是实时修改存储数据,而是能够根据不同的主题和角度进行查询和分析。目前市场上很多公司不仅拥有自己的数据库产品,而且还可以在已经拥有的产品基础上创建数据仓库,并进行讨论和研究。如有具备可视化操作的数据仓库产品,不仅降低了产品的使用难度,更是提升了产品的展示效果。
二、手机应用市场情况浅析
(一)应用属性的相关度对比
手机应用市场的一些普遍规律和重点,可以通过分析应用属性的关联程度获得。这里主要强调四个数值属性的关联程度,它们是应用评分、评论数量、应用大小和安装数量,可以利用Excel表格中的函数计算应用,将其两两对比不难发现,关联程度最大的是评论数量和安装数量,关联程度较小的是应用评分与其他三个属性。大多数用户在使用该应用后,对关联程度大的应用进行了及时的反馈,这就有利于我们全面客观分析各个应用的综合质量。
(二)应用评分与安装数量
根据当前市场的需求,我们将应用进行分门别类,主要有教育、活动、艺术、图书、育儿、游戏、美妆、健康等类别,根据不同的人群我们可以看出,应用种类的不一样,受欢迎的程度也不同。我们希望能够安装那种应用人数比较多,但是平均分却很低的应用,这可以通过分析统计后获得。这样我们就可以提升有价值和市场潜力的安装数高、评分值低的应用了。
我们可以通过应用Excel中的分类统计功能给应用种类进行排序,把应用种类作为分类项目进行统计,然后得出不同种类应用的平均评分和平均安装数量。例如聊天类的应用是安装数量最高的应用,但是聊天类的平均得分低于所有应用的平均得分。聊天类的手机应用由于其具备较高的商业价值,所以,在性能上还有很大的开发潜力和提升空间。其他相类似的手机应用还有视频类和旅游类的,也具备开发和提升的潜力。但是一些安装数量极大,同时评分也高的手机应用,比如游戏和社交类的,在市场中基本处于饱和状态,因此我们不建议继续开发此类应用。
(三)应用评分和版本更新情况
随着时代的变化和人们需求的不断增加,手机应用也要根据市场需求做出相应的调整。旧的手机应用版本由于存在或多或少的问题,用户的需求不能得到满足,所以很多用户都喜欢用版本较新的手机应用,可以有更好的使用体验。这种安装数量多、更新时间早、版本较低类型的手机应用由于存在较大的提升空间,所以开发者可以根据市场需求进行更新,提高手机应用的综合水平。我们可以使用Excel中种类分类进行汇总,将同一种类的应用个数进行计数,然后通过过滤的功能,保留应用样本中年份小于或者是等于2018年的应用样本,然后再进行分类和汇总,就会计算出不同种类应用的更新年份在2018年之前的个数总和,然后算出这个种类的应用总数的百分比,如果这个百分比的数值大,说明这个种类应用版本就是有较低的占比,从而说明这个手机应用总体更新不到位。通过这种分析我们可以得出聊天类应用和游戏类的应用安装数量极大,然而这两种用户的用户群体数量庞大,所以说综合来看还是更新的不够及时,并且可以说明这些应用在开发出来之后仍然可以保持较长时间的热度。经过验证可以得出,这些应用如果想达到最佳状态就可以通过更新的方式,开发者可以通过两种形式,一是开发全新的应用,一是继续更新原有的应用。当然也有一些应用的实用性较强,比如说饮食类的应用和娱乐类的应用,安装数量较少,但是更新的比较及时。这些类型的应用需要根据客户的需求不断更新和变化,才能满足客户的需求。因此大量地投入和开发新的应用是我们不赞成的,我们应该多注重平时应用功能嗯更新和优化。
三、手机应用推荐系统
在众多相同的手机应用中,用户一般会根据应用市场给出的评分来进行选择,当然也有一些虽然评分较高的应用反而没有较高的安装数量,所以只是根据安装数量还不能客观反映这个手机应用的综合水平。这就需要我们寻找在同一类的手机应用中,应用版本比较新的就成为更多用户的需求。所以我们在设计手机应用推荐系统的过程中,考虑的主要是以下几种因素:所属受众人群来计算各应用间的相似度、种类、应用大小、是否付费、受众人群等。首先通过计算相似度筛选应用,主要是根据用户所给应用的次种类、是否付费、应用大小和受众人群来计算相似度。其次是计算应用的综合质量,并对应进行排序,这主要是根据评分、安装数量、评价情绪和客观程度来计算出各应用的综合质量,推荐给用户综合质量排名前三名的应用。
(一)手机应用推荐系统的关键技术
1. Hadoop框架介绍
Hadoop分布式系统是一个可以用来处理海量数据的大数据平台。它具备的优点是,不需要通过识别系统底层细节,就可以开发出能够处理大数据的程序。这个Hadoop包含两个设计核心,一个是HDFS,是分布式文件系统,特点是具有很高的容错功能,不需要额外购买价格昂贵的硬件就可以直接建构在服务器上,这样就可以通过增加服务器数量的方式提升集群的处理能力;另外一个是Map Reduce是为大数据计算提供解决方案的,它的优点是可以在不采用分布式编程的情况下,把程序运行在分布式的系统上。
2. Spark计算框架
Spark计算框架也是以HDFS为文件存储系统的底层来计算大数据的计算框架,但是它的计算速度比Hadoop和Map Reduce都快很多。它的计算核心内存模型叫弹性分布式数据集,是处理大数据最底层的一个抽象概念。Spark计算框架在处理这些数据时会把这些数据先转化为RDD。RDD转换操作的种类更加多样,既可以进行transform的数据转换,也可以进行action操作,对转换后的数据操作产生结果。
3. HBase 数据库
HBase数据库的底层仍然使用的是HDFS,是一个非关系型面向列存储的数据库。随着大数据时代的到来,人们更关心的焦点问题是如何存储如此庞大的不规范的、半结构化或者是非结构化的数据。虽然在HBase出现之前就已经使用了一些策略和方法,但是还有些关键的问题没有得到解决,比如大数据。一些开发商只是想扩充数据库,但是只是通过简单复制和分区的方法还是存在很多问题的,比如在安装和维护的时候就会比较繁琐。另外,这种传统方法还无法实现在思路上解决大数据存储问题,也会影响到数据库的一些功能,比如链接、视图、外键约束等。传统存储数据的方法会给数据库的升级带来很多困难,甚至会因为昂贵的价格而无法实现。
4. 用户标签系统简述
用户标签是指为了获取用户的兴趣爱好和使用倾向,通过记录用户的行为、操作、观点等方式来统计、分析、挖掘、收集原始信息。然后根据不同的用户群进行标注、区分。建立用户标签的优点是可以更好地表示或者还原用户,这样的用户模型是建立在真实有效的数据基础上和算法分析基础上的,开发者可以通过日常的行为积累,持续使用标签,就可以进行更精准化的市场营销,选取更符合特征的用户群体。
四、结语
本文基于数据挖掘技术对手机应用市场存在的问题进行了分析,并提出了一些建议和解决办法。根据用户使用记录,也就是市场调查研究,对手机应用进行具体分析,完善手机应用推荐系统,为用户提供更好的推荐内容和质量高的手机应用。