基于Spark和改进的TF—IDF算法的用户特征分析

2016-05-30 10:48张舒雅王占刚
软件工程 2016年10期
关键词:贝叶斯分类

张舒雅 王占刚

摘 要:使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更好。

关键词:Spark;用户特征;贝叶斯;分类;TF-IDF

中图分类号:TP391 文献标识码:A

1 引言(Introduction)

随着互联网的快速发展,用户的数量飞速增加,用户属性更加多元化,大数据的应用与创新成为一个重要的关注点。通过用户的网络行为,分析用户的特征,无论在理论研究中还是实际应用中,都是一个热门话题。大数据用户特征分析,整合海量用户数据,将用户标签化,使得计算机能够程序化处理与人相关的信息,通过机器学习算法、模型能够“理解”人。深度分析用户特征,在理论研究上可以更好地挖掘事件关联及预测事件;对于企业而言,无论是搜索引擎、推荐系统、广告投放等各种应用领域,都可以进一步提高获取信息的精准度和效率。

而Spark作为一种基于内存计算的分布式计算框架,正受到越来越多大数据研究者的关注。它提供了一个更快、更通用的数据处理平台,通过将大量数据集计算任务分配到多台计算机上,并且将中间过程的输出结果保存在内存中,不再需要读取和写入HDFS,以提供高效内存计算,因此Spark可以更好的应用于大数据挖掘和机器学习等算法[1-3]。同时Spark引入了弹性分布式数据集(RDD,Resilient Distributed Dataset)。RDD是不可变的、容错的、分布式对象集合,用户可以利用RDD的操作函数并行地操作该集合,以提高计算速度。

目前国内用户特征分析的研究主要是对社交网络、微博评论、日志数据等进行特征分析,少部分人则对视频数据进行分析。张岩峰等人通过用户在微博上的言论、行为和社交圈等公开数据信息,提出了对该用户的个性化维度进行分类分析的方法[4];张宏鑫等人从海量移动终端日志数据中挖掘用户特征,提出了一种基于日志数据的用户特征分析方法[5];李冰利用用户观看新闻类视频数据,并通过用户行为分析和建模处理,挖掘用户在类别、国别、年代、热度值、评分等维度的兴趣偏好[6];冯婷婷通过用户浏览视频的行为,利用支持向量机、逻辑回归等分类器进行性别推理[7]。

国际上,Das S等人通过终端用户的特征标签,提出了基于权重的逻辑回归算法的监督和半监督学习的用户特征分析[8];Kim H L等人提出通过分析用户标签,实现以用户兴趣为中心的聚类[9];Gulsen E等人利用网络日志数据,使用url、DMOZ和文本内容三个特征数据集,预测性别[10]。

目前利用用户观看视频信息分析用户特征的研究成果还比较少。本研究利用用户观看视频及次数信息,基于朴素贝叶斯分类算法[11-15]和Spark内存计算框架,训练用户性别与年龄区间的分类模型,其中年龄区间分为19岁以下、19—30岁、31—40岁、41—50岁和50岁以上,通过计算每个特征项在各个类别中的权重优化模型,提高分类结果的正确率。

4 结论(Conclusion)

本文利用用户观看视频的数据,将朴素贝叶斯分类算法应用到Spark计算框架,训练用户的性别和年龄区间的分类模型、加载模型,对测试样本进行分类,比较分类结果与标注标签,分析模型性能,整个过程耗时大约三分钟。在实验过程中,未考虑特征项权重的分类效果不是很理想;在朴素贝叶斯分类算法中加入传统的TF-IDF权重计算方法,分类效果仅有小幅度提升;其原因是TF-IDF权重考虑的是特征项与整个样本集的相关性,并没有考虑到特征项与类别的相关性,给出的特征项权重并不准确,因此文本提出了一种改进的基于特征项与类别间相关性的TFC-IDFC权重计算方法。该算法的思想是某个特征项在各个类别间出现的越不均匀,则区分类别的能力越强,权重越大,也就意味着每个特征项在各个类别中的权重在很大程度上影响了朴素贝叶斯分类算法的分类能力;另外,通过实验也证明改进的TFC-IDFC权重计算方法,增加对类别重要程度较大的特征项的权重,有利于提高分类模型的质量和分类结果的正确率,分类效果有了明显的提高。

大数据背景下的用户特征分析是当前的研究热点,用户的一切网络行为都是值得挖掘的对象。在最短的时间内,能够对用户更加准确分析是我们的研究目标。采用更多维度、更大量级的数据信息,对用户更多特征的分析将是下一步的研究重点。

参考文献(References)

[1] Zhang F,et al.A Distributed Frequent Itemset Mining Algorithm Using Spark for Big Data Analytics[J].Cluster Computing,2015,18(4):1493-1501.

[2] Semberecki P,Maciejewski H.Distributed Classification of Text Documents on Apache Spark Platform[C].International Conference on Artificial Intelligence and Soft Computing.Springer International Publishing,2016:621-630.

[3] Meng X,et al.Mllib:Machine Learning in Apache Spark[J].JMLR,2016,17(34):1-7.

[4] ZHANG Yanfeng,et al.A Micro-Blog User Personality Classification Analysis[J].Computer Engineering and Science,2015,37(2):402-409.

[5] ZHANG Hongxin,et al.Visualization of Crowd Characteristics Based on Mobile terminal log data[J].Journal of Software,2016,27(5):1230-1245.

[6] LI Bing.Design and Implementation of Personalized Video Recommendation System based on Hadoop[D].Beijing University of Technology,2015.

[7] Feng T,et al.Tags and Titles of Videos you Watched Tell Your Gender[C].ICC 2014 IEEE International Conference on Communications,2014:1837-1842.

[8] Das S,et al.End-User Feature Labeling: Supervised and Semi-supervised Approaches Based on Locally-Weighted Logistic Regression[J].Artificial Intelligence,2013,204(9):56-74.

[9] Kim H L,et al.Mining and Representing User Interests:The Case of Tagging Practices[J].Systems Man & Cybernetics Part A Systems & Humans IEEE Transactions on,2011,41(4):683-692.

[10] Gulsen E,et al.Big Data Feature Selection and Projection for Gender Prediction Based on User Web Behaviour[C].Signal Processing and Communications Applications Conference (SIU),2015 23th.IEEE,2015:1545-1548.

[11] Luo X,et al.Improvement of Automatic Chinese Text Classification by Combining Multiple Features[J].IEEJ Transactions on Electrical and Electronic Engineering,2015,10(2):166-174.

[12] Lee C H.A Gradient Approach for Value Weighted Classification Learning in Naive Bayes[J].Knowledge-Based Systems,2015,85(C):71-79.

[13] Bi W,Kwok J T.Bayes-Optimal Hierarchical Multilabel Classification[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(11):2907-2918.

[14] Kim H K,Kim M.Model-Induced Term-Weighting Schemes for Text Classification[J].Applied Intelligence,2016:1-14.

[15] Vicente M,Batista F,Carvalho J P.Twitter Gender Classification Using User Unstructured Information[C].Fuzzy Systems(FUZZ-IEEE),2015 IEEE International Conference on.IEEE,2015:1-7.

[16] McCallum A,Nigam K.A Comparison of Event Models for Naive Bayes Text Classification[C].AAAI-98 Workshop on Learning for Text Categorization,1998,752:41-48.

[17] Peralta D,et al.Evolutionary Feature Selection for Big Data Classification:A MapReduce Approach[J].Mathematical Problems in Engineering,2015,12(05):301-305.

[18] LIANG Hong,XU Nanshan,LU Lingang.Sina Micro-blog Users Characteristics Analysis[J].Computer Engineering and Applications,2015,51(7):141-148.

[19] Bozkurt O O,Taygi Z C.Audio-Based Gender and Age Identification[C].Signal Processing and Communications Applications Conference,2014:1371-1374.

[20] Pentreath N.Machine Learning with Spark:Create Scalable Machine Learning Applications to Power a Modern Data-Driven Business Using Spark[M].Packt Publishing,2015.

[21] Hu W,et al.Tagpref:User Preference Modeling by Social Tagging[C].Proceedings of the 2013 IEEE 10th International Conference on Ubiquitous Intelligence & Computing and 2013 IEEE 10th International Conference on Autonomic & Trusted Computing.IEEE Computer Society,2013:111-118.

[22] Sun X,Lin H.Topical Community Detection from Mining User Tagging Behavior and Interest[J].Journal of the American Society for Information Science & Technology,2013,64(2):321-333.

[23] Wang Z,et al.Analysis of User Behaviors by Mining Large Network Data Sets[J].Future Generation Computer Systems,2014,37(7):429-437.

[24] Han Y,Xia K.Data Preprocessing Method Based on User Characteristic of Interests for Web Log Mining[C].Instrumentation and Measurement, Computer,Communication and Control(IMCCC),2014 Fourth International Conference on.IEEE,2014:867-872.

[25] Bai S,et al.Predicting Big Five Personality Traits of Microblog Users[C].2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence(WI)and Intelligent Agent Technologies(IAT).IEEE Computer Society,2013:501-508.

作者简介:

张舒雅(1989-),女,硕士生.研究领域:大数据挖掘.

王占刚(1975-),男,博士,副教授.研究领域:大数据,计算

机检测应用,计算机网络安全.

猜你喜欢
贝叶斯分类
分类算一算
垃圾分类的困惑你有吗
基于贝叶斯解释回应被告人讲述的故事
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法