邹序焱,蒋利娜
(宜宾学院人工智能与大数据学部,四川宜宾 644000)
在日常生活与工作中可以通过个人行为习惯来了解其个性,一个人喜好的文学作品和影视作品也能反映一个人的性格特征[1],管理方即可针对不同性格群体作出不同的决策.如王红等人[2]通过馆藏图书分类和流通数据,探索受众与图书流通之间的隐含规律,发现受众特征与馆藏流通之间的关联关系,建立线性回归模型,通过模型拟合与预测,为图书馆智慧管理提供技术与手段的支持.陶相荣[3]以图书馆现刊阅览室的受众和期刊种类为研究对象,对所收集的原始资料进行非条件逻辑回归分析,得出影响期刊受众的主要因素为高年级、男性、偏远地区等,为图书馆的征订工作提供了帮助.武同雁等[4]针对高校图书馆逐步向社会开放的现状,提出通过分析社会受众群体特征和阅读需求来评价开放效果,从而不断增强图书馆服务社会的能力,为社会受众提供更加优质的服务,也为其他高校图书馆面向社会开放提供工作思路.郑云涛等人[5]利用52万余条有效的纸质图书借阅记录,分析受众借阅图书的内在需求,对受众借阅行为信息进行挖掘,从而为更好服务受众提供决策帮助.
本文通过问卷调查收集受众的个性特征数据、受众喜好的文学作品数据及影视作品数据,然后进行整理、分析以及量化,建立基于受众个性特征的模糊聚类分析模型,把受众群进行分类,并对每类受众群的性格进行分析,提炼出每类受众群主要的性格特点,得到每类受众群喜欢的文学作品及影视作品.为了能够通过每位受众个体喜好的作品了解受众的个性,本文将聚类分析的结果作为监督学习的标记值,建立受众阅读作品喜好程度的多分类SVM模型,由此判别出未知受众群的性格种类.
为了能系统地了解各受众的性格,除受众的基本信息外,还从性格的四个纬度(即力量型、完美型、宽容型、自我型4类人格)设计了16个关于受众个性的问题(即受众性格的感性、乐观、主动、倔强程度,谨慎、低调、注重原则、追求完美程度,冷静、接纳他人、懦弱、注重效率程度,同理心、自我、稳定、分裂程度),通过调查问卷,获取不同年龄阶段的142位调查对象的性格特征数据、所喜好的文学作品数据、受众喜欢的角色数据以及影视作品数据.
通过在微信、QQ发放调查问卷以及线下发放纸质问卷,共收集到142份有效数据.其中男性占54.93%,女性占45.07%,年龄段分布集中在21-30岁,如图1、图2所示.
图1 性别分布
图2 年龄阶段
关于调查对象的性格特征设置的16个问题中,每个问题的答案包含“几乎不”“稍微”“一般”“非常”四个偏向程度指标选项,并进行量化处理,其量化标准如表1所示.
表1 受众性格偏向程度定义
记142位受众分别为X1,X2,...,X142,利用上述量化标准,得到142位受众性格特征数据,结果如表2所示.
表2 受众性格偏向程度定义表
本文主要采用模糊聚类算法[6-8]对受众进行聚类.为了方便进行数值验证,在聚类分析过程中只选择142位调查对象中的前122个受众数据进行计算,剩余的20个受众数据则用于验证算法的准确性.分析调查问卷的收集结果可得,聚类分析的样本数据为D={X1,X2,...,X122},其中Xi=(xi1,xi2,...,xi16)代表第i个受众,每一个受众都是由16个不同的属性值构成,即:xi1代表第i个受众性格的感性程度,xi2代表第i个受众性格的乐观程度,xi3代表第i个受众性格的主动程度等,具体属性见表2.
聚类分析是利用受众性格特征的相似度对受众进行的聚类,也就是同一类别下的受众性格特征相似.假设将142位调查对象中的前122个受众分为c个簇类,即C1,C2,...,Cc.在模糊聚类中,样本与簇的关系不再是非此即彼,而是每个样本按照一个隶属度属于某个簇.设Xi属于簇Cj的隶属度为αij,其中αij∈[0,1]且
从而得到模糊聚类算法的优化函数为:
其中uj为簇Cj的聚类中心,p为控制隶属度的影响参数,通常取2.整理得到优化模型为:
模型(3)是一个带约束条件的优化模型,可以利用拉格朗日数乘法将约束优化问题转化为无约束优化问题,即:
从而得到模糊聚类算法的步骤为:
在算法1中,设置簇数c为5,参数p为1.5,利用Python编写程序,得到5个聚类中心为:
第一种聚类中心为:L1=(0.6258,0.7077,0.6193,0.6340,0.6819,0.6777,0.7720,0.6169,0.6336,0.7122,0.4518,0.7460,0.7473,0.3807,0.6939,0.4176),其包含17个个体.通过对样本属性的特征分析可知,该类为宽容型,体现在为人宽容大度,对自己和身边的人都较为友好,接纳性强,情感丰富但善于控制,自我认知清晰目标明确,这类人具有主见但不自我,原则性很强,更适于管理他人.
第二种聚类中心为:L2=(0.6206,0.6966,0.6094,0.6363,0.6740,0.6754,0.7593,0.6134,0.6279,0.7083,0.4732,0.7350,0.7364,0.4210,0.6835,0.4539),其包含4个个体.通过对样本属性的特征分析可知,该类为善解人意型,体现在为人同理心强,往往善解人意,更在乎他人而非自我,做事注重效率,行动力强但情感力量较为缺乏,此类人群往往需要有一个能被他们所接受的人来督促他们的进步,是需要引领的潜力股.
第三种聚类中心为:L3=(0.6314,0.7044,0.6593,0.6901,0.6901,0.7059,0.7353,0.6755,0.6757,0.7224,0.6399,0.7011,0.7310,0.6425,0.6919,0.6670),其包含51个个体.通过对样本属性的特征分析可知,该类为矛盾型,体现在自我认知明确,行事低调性格内敛,性格更为复杂多元,较为矛盾分裂,具有多面性且各方面较为平衡,具有一定程度的双重性格,往往使人感到神秘.他们是现实生活中最为普遍的性格类型,感性与理性程度持平,较为乐观勇敢,情绪稳定,无论是其自身还是身边人往往都能受到此类人群的力量感染,因此能够拥有较为和谐的社交关系和较强的工作执行力.
第四种聚类中心为:L4=(0.6175,0.6899,0.6033,0.6320,0.6686,0.6717,0.7558,0.6081,0.6258,0.7052,0.4772,0.7303,0.7298,0.4282,0.6794,0.4524),其包含12个个体.通过对样本属性的特征分析可知,该类为倔强认真型,体现在倔强认真,同时善于听取他人意见与建议,关心他人,也关注自己,温和但有底线,有锋芒而不外露,思考力相对缺乏,性格温和,较为被动,自律性相对较低.
第五种聚类中心为:L5=(0.6307,0.7253,0.6365,0.6336,0.6931,0.6846,0.7866,0.6242,0.6413,0.7186,0.4202,0.7585,0.7640,0.3341,0.7078,0.3855),其包含38个个体.通过对样本属性的特征分析可知,该类为助人型,体现在更具理性思维,积极乐观行为低调,主体性不强,与人交往时往往属于付出方,务实但做事往往更重效率不重结果.
本文收集受众性格特征的同时也收集了受众喜欢的作品类型数据,即让每一受众从20部书籍、20部影视剧及20个经典角色人物中按喜爱程度选择前5部文学作品、5部影视剧作品和与5个人物角色.调查共收集了142份有效数据.根据前文对122位受众进行的聚类分析,作为监督学习的标注值,如表3所示.
表3 受众喜欢的作品示例表
本文需要按受众喜欢的作品与人物类型特征对受众进行归类,通过分析受众所喜爱的作品类型和人物角色提炼出各类受众的性格特征.假设作品与人物类型的特征属性向量为Y=(y1,y2,…,y60),其中yi代表受众喜好某一作品或人物的程度,y1至y20依次表示受众对《西游记》《活着》《三国演义》《平凡的世界》《聊斋志异》《水浒传》《阿Q正传》《简·爱》《红楼梦》《边城》《悲伤逆流成河》《追风筝的人》《百年孤独》《麦田里的守望者》《红高粱》《人间失格》《杀死一只知更鸟》《史记》《变形记》《双城记》这20部文学作品的喜爱程度.y21至y40依次表示受众对《我不是药神》《我和我的祖国》《大话西游1:月光宝盒》《你好,李焕英》《大鱼海棠》《请回答1988》《甄嬛传》《星际穿越》《釜山行》《七宗罪》《海贼王》《盗梦空间》《隐秘的角落》《我的前半生》《霸王别姬》《小敏家》《寄生虫》《死寂》《地球最后的夜晚》《暗杀》这20部影视剧作品的喜爱程度.y41至y60依次表示受众对孙悟空、哆啦A梦、诸葛亮、阿Q、简·爱、哈姆莱特、猪八戒、秦风、唐三藏、沙僧、林黛玉、朱朝阳、卡西莫多、格里高尔、王熙凤、潘金莲、鲁侍萍、张东升、康敏、贾宝玉这20个人物角色的喜爱程度.为了便于对数据进行分析,建立如下的量化标准:
为了能够利用受众喜欢的作品与人物类型对受众的性格进行归类,本文采用多分类SVM模型进行分类.SVM[9-11]为一个二分类模型[12],是处理小样本、非线性问题的有力工具.假设数据集D={(X1,y1),(X2,y2),...,(Xn,yn)},其中yi=-1或者1,SVM就是找到一个超平面把正样本和负样本划分开来[6].超平面的数学表达式[13]可表示为
式中:X为超平面上的向量,w为超平面的法向量,b为超平面的截距.求解优化问题,获取w及b的值:
SVM最初是为处理二分类问题而设计的,实际应用中多分类问题更为普遍,所以需要对SVM进行“加工”,让其在多分类问题中也能发挥出色的性能[14].多分类问题可以通过多个SVM的组合来解决,一般有“直接求解”法和“分类-重组”法.“分解-重组”法主要是通过组合多个二分类器来解决实际问题,常用的有一对多SVM分类、一对一SVM分类、有向无环图SVM分类等[15].本文采用一对一SVM分类方法.
利用机器学习库sklearn中的SVM模块编程,对训练集中的122个受众数据进行训练,训练结果与模糊聚类结果如表4所示(表中第二列的Xi代表受众i)
表4 受众性格归类
由表4的结果可知,利用多分类SVM模型可以将受众的性格类型按他们喜欢的作品与人物类型完全区分开来,即在训练数据集上的准确率为1.
为了验证本文多分类SVM模型的准确度,选择在由142位调查对象中的后20位受众构成的测试集上进行.首先利用2.2节的聚类结果计算出该20份样本中受众的性格特征数据到每一个聚类中心的距离,并按距离最短原则进行归类.对第i个样本,其计算公式为:
其中:c代表样本Xi所归类别,Cj代表聚类中心.然后利用多分类SVM模型按照受众喜欢的作品与人物类型的数据对每一个测试集上的样本进行分类.最后,对第i个样本来说,如果通过受众喜好的作品与人物类型进行的分类与聚类分析得到的归类是相同的,则可以看作该受众根据其喜爱的作品与人物类型来判断其性格种类是正确的,相反则判断错误,从而计算出模型的准确度,其计算公式为:其中:Nc代表测试集种样本的个数,Nct代表测试集中判断正确的个数,Nx代表训练集中样本的个数,Nxt代表训练集中判断正确的个数.计算得P1=0.6,P2=0.85,因此,本文所提出的个性判断方法具有较高的准确率,即通过了解受众的阅读喜好可以了解到大部分人群的性格特征.
本文重点通过受众的阅读喜好来了解该受众的性格特征.首先问卷调查收集受众的个性特征数据,其中包含了16个受众的性格特征,如感性、乐观、主动、倔强等;同时收集了受众喜欢的文学作品数据、影视作品及人物角色数据.然后建立了关于人物个性特征的模糊聚类模型,从而对受众进行分类.最后利用模糊聚类的结果,建立了关于受众阅读作品喜好程度的多分类SVM模型,利用多分类SVM模型可以判别未知受众群的性格种类.通过对20名受众的测试可知,利用受众喜爱的作品类型来判别其性格种类的准确度为60%,在全体数据集上的准确率达到了85%.由此可知可以通过受众喜欢的文学作品类型来了解受众的性格特征.