黄国贤
摘要 在大数据的获取、分析与应用的时代,运用移动互联网APP进行开发用户的企业和个人不断增多。对APP用户的行为和需求分析是成败的关键所在,因此,创建移动互联网APP数据仓库成为必然的选择。本文对于移动互联网APP数据仓库的应用实践进行了探讨和研究。
关键词 移动互联网APP;数据仓库;应用;研究
中图分类号TP3
文献标识码A
文章编号1674-6708(2016)156-0067-01
在互联网快速发展的今天,数据仓库作为数据挖掘与储存的支撑平台得到了广泛的运用。在数据仓库中人们的行为数据都将被记录积累下来,为分析者提供了良好的信息渠道和数据支撑。移动互联网APP具有用户流量较小、变化迅速、数据杂乱等特点,因此,使用市面上已有的大型数据仓库并不合适,可为其开发小型数据仓库,对移动互联网APP的用户进行有效的数据积累与分析。
1 移动互联网APP数据仓库的应用需求
对于移动互联网APP数据的记录与挖掘,需要结合APP自身以及其用户使用规律的特点。首先,移动互联网APP自身数据规模较小,因此,其数据仓库也需要具备小巧、灵活的特点,不需要太大的存储空间,但能及时对数据进行灵活的反映。其次,移动互联网APP的数据规律并不稳定,需要数据库及时频繁上传数据,能够对当日的数据尽快做出分析,让APP的开发者有充足的时间对数据的变化做出反应。最后,数据仓库的可靠性和有效性不可忽视,不能遗失有效数据,同时保证所上传给APP开发者的数据与前端数据在数量、参数和信息维度上保持高度一致,确保数据的及时准确有效。
2 移动互联网APP数据仓库的设计思路分析
对于移动互联网APP的数据仓库设计思路结合了APP用户的使用特点和数据规律。首先,用户使用APP过程中所展现的信息状态,表现为关系型的数据联系,包括:用户个人信息,粉丝数目,与其他用户的互动,登录时间的规律规则等。因此,对于数据的统计和整理工作,需要利用它们之间的兼容性以及数据库的主从关系,将数据自动地同步到所建立的数据仓库中。其次,在APP用户的使用过程中,每当用户进行一次操作,便会在服务器端产生一条用户的行为日志。它们往往以日志文件的方式存储下来,规模较大、随意性较强。因此,对于这类数据,需要每间隔一个特定的时间便将他们录入到数据仓库中。在数据转化过程中,注意数据的整齐性和有效性,以及改变格式的失真风险。此外,对于在客户端产生的数据,其数据存在形式往往具有无规则、随机性强的特点,但这样的数据形式可以用来展现用户对APP的使用全貌。对于此类数据,需要将其完整地体现出来,可用于分析用户的使用规则,摸索用户体验的实际操作。最后,在前端数据录入数据仓库后,还需要对其进行检验,包括检验数据的一致性,是否存在多余参数和无效格式等。
3 数据仓库在投入使用中的应用实践
3.1 移动互联网APP数据仓库收集到的数据情况
在移动互联网APP数据仓库的投入使用过程中,经过数据迁移,原始数据主要形成了以下3种数据形式:1)同步到集成前端数据库中的数据。这一部分的数据,是没有经过加工直接同步到位的数据。它们是即时性的,具有自动同步功能,在任何时刻进行查询都可以获取实时数据资料。但由于经过的整理较少,因此,这个数据库中的数据,并不利于整体信息的收录和分析,更适合即时性的资料查询。2)来自服务器的集成数据。这些数据是经过格式化的,收录在数据仓库中提前建好的格式匹配的数据表中。由于用户的资料和行为日志是不断地生成并更新的,因此,这部分的数据资料是每隔一段时间(通常由自己设定)自动收集上来的。在收录这部分资料前,系统会对于之前的信息进行切断式的总结,以防止丢失必要的数据资料。格式化的服务器日志数据,比直接集成的数据资料所占空间更大,因此,这部分数据库的规模,比集成前端的数据库规模大十倍左右。同时,因为其采用截断式的数据收集方式,为了避免前端数据被影响,数据的导入时间一般设定在服务器较为空闲的时刻。3)来自客户端的集成日志。来自客户端的操作日志,具备有序性、不完整性,它们是非格式化的数据。为保证其完整和规范,需要在导入到数据仓库前,集中对其进行格式化的操作。首先,需要进行数据清理和补齐。因为这部分数据在收录过程中会收录到系统自动生成的日志或者机器人操作产生的日志,因此,需要根据APP自身的特点,进行数据清理。而部分数据会有缺失字段的现象,通过设置,可以对发生字段缺失的数据进行补齐。然后,对数据进行格式化处理,将所有字段进行整理,形成统一完整的文本。最后,在数据仓库中建立好与格式相匹配的数据表,将格式化后的数据信息导入到数据仓库中。
3.2 数据仓库对于数据的存储管理情况
移动互联网APP数据仓库对于数据的存储和管理方式决定了其对外表现数据的形式,这部分正是数据仓库运行的关键。APP数据仓库的组织管理方式主要表现在以下3个方面:1)利用关系数据库系统。对于大规模的数据存储,保证其有序性及可操作性的关键在于关系数据库系统对数据的管理,随着时间的积累,数据也不断增多,关系数据库系统仍可以保持数据仓库的稳定性和有效性。2)并发操作技术的运用。由于用户访问系统数据短小密集,数据与数据之间多处于并行状态,这时需要并行操作,使用户的需求得以均匀分担,不会造成数据堵车。除此之外,对于整体信息数据,并行操作系统还能做到对所查询的信息进行分解并行,对查询数据进行分割处理,使数据信息得以有效利用。3)优化决策支持查询。移动互联网APP数据仓库的关系数据库系统对于决策支持查询有所欠缺,但结合优化查询器、数据库索引机制、数据连接策略等多部分的使用,决策支持查询逐步得到优化。从基础的通用查询到决策优化查询,移动互联网APP数据仓库的管理功能正在逐渐强化,并逐步向支持多维度分析查询进步发展。
3.3 移动互联网APP数据仓库的数据表现
数据仓库最根本的功能便是对于数据的表现,通过其反映的数据状况,开发者才能采取相应的应对措施。现存的移动互联网APP数据仓库对于数据的表现形式主要集中在:多项数据的挖掘、数理统计与分析以及数据行为多维分析等方面。在数据仓库的应用当中,多维分析起到的作用最为强大,可以有效帮助开发者进行多角度的比较;数理统计的应用最为广泛,有效利用即可获取十分可观的效益。
4 结论
综上所述,移动互联网APP数据仓库的使用可以为开发者提供有效的参考信息。数据仓库在数据的挖掘和表现中都具备强大的性能和使用价值,并且其投入较小,是性价比较高的辅助系统。在数据挖掘与分析方面,移动互联网APP也有很大的进步空间,需要研发者对其进行不断的创新,使其充分发挥潜能,提供更有价值的信息。