□刘 彬 邓心怡 吴培莎
(华南师范大学数学科学学院 广东 广州 510631)
对城镇居民婚前性行为态度的影响因素分析
□刘 彬 邓心怡 吴培莎
(华南师范大学数学科学学院 广东 广州 510631)
本文通过对中国国家调查数据库的全国家庭综合社会情况数据进行研究,分析影响婚前性行为接受程度的主要因素,预测不同群体的人对婚前性行为接受程度的差异。首先,本文挑选了14个客观指标,并对原始数据进行预处理,通过独立性检验发现14个变量皆与解释变量不互相独立;然后利用随机森林进行因素重要性分析,结合单因素logistic回归分析选取出重要变量作为解释变量,剔除宗教、民族、户口这三个变量;最后,我们通过建立多因素logistic回归模型对变量做进一步的分析发现,随着年龄、收入、父母学历的增长,个体对婚前性行为的接受程度会越高;已婚者比未婚者接受程度更高等结论。
婚前性行为;影响因素;logistic回归
目前,我国对婚前性行为接受程度的研究正处于发展阶段。2014年《小康》曾发布“中国人性健康”报告,与1994年相比,2012年国人婚前性行为的比例提高了30%,达到了71.4%。研究证实,对婚前性行为态度的差异,受出生年代,个体事业发展,个体父母教育,所处区域、社会环境的显著影响。本文比较突出的地方有以下三点:第一,本文数据来源可靠,调查区域、群体都比较广泛;第二,在数据预处理阶段,对于何种插补比较可靠做了一些探讨;第三,本文综合使用单因素和多因素logistic回归对数据进行了多方面分析。
数据来源于国家调查数据库 (CNSDA)2013年度的中国综合社会调查。该调查共收集10724个样本,调查内容包括:个体客观属性,比如性别、年龄、学历、收入等;个体主观属性,比如对社会的认知情况,婚前性行为接受情况,政治参与情况等。本文筛选出调查问卷中比较有可能对个体婚前性行为态度产生影响的客观因素,分别是性别、年龄、宗教、民族、教育程度、收入、健康状态、户口情况、生活方式、工作状态、婚姻情况、父亲学历、母亲学历。其中,因变量“对婚前行为态度”有五个类别,分别是“总是不对的”“大多数情况是不对的”。
1.2.1 异常值处理。首先,由于调查问卷中存在若干负值,不符合原先问卷问答的设定,又因为出现负值的样本只占原始样本的7.56%,比重较小,所以删除这些异常数据。
接着,我们发现年总收入列存在9 999 997~9 999 999这样的异常值,占样本总数的10%,问卷设定中,这些值分别表示年总收入高于100万、不适用、不知道、拒绝回答。由于这些数据并不利于我们分析收入与婚前性生活态度之间的关系,所以先将它们替换为空值,后续将对其进行插补。
计算剩下样本的平均年总收入为24 217,与官方统计2012年全国人均总收入相近。我们绘出收入的箱线图,发现高于平均收入的离群点非常多,这是中国社会贫富差距悬殊的一种体现,所以并不对这些离群点做处理。
1.2.2 类别合并。由于问卷设置要综合考虑答卷者的多种情况,故设置了多个类别。但是有一些类别的样本量比较稀少,一方面不利于我们对稀少做出准确的分析,一方面会使得模型复杂度加大,所以这里我们对稀少类进行合并。
年龄合并成未成年人(<=17 岁),青年(18~45 岁),中年人(46~59 岁),老人(>=60 岁)四类;宗教合并成不信仰宗教,信仰佛教、伊斯兰教、基督教,民间信仰,其他信仰六类;民族合并成汉族,回族,壮族,满族和其他少数民族五类;教育程度合并为初中以下,初中,高中,大学,研究生及以上五类;关于收入,低于插补后平均工资一半即0~11 915元为一类,高于平均工资一半但低于平均工资即11 915~23 830元为一类,高于平均工资三倍即71 490元以上的为一类,剩下23 830~71 590元为一类,共四类;户口合并成农业户口,非农业户口,其他三类;工作状态合并为农民,不受雇与他人者,雇员,其他工作,无工作五类;婚姻状态合并为未婚,已婚,离婚三类。
1.2.3 缺失值插补。由于在异常值处理中,我们将收入为9 999 996~9 999 999的点全部替换成空值,所以需要对其进行缺失值插补。为了比较何种插补方法比较理想,本文先是将收入含缺失值的样本剔除掉,从剩下的样本中随机抽取400个样本替换成空值。接着用均方根误差rmse来衡量插补的误差,综合考虑了年龄有无分段的kNN和随机森林插补的误差。计算得到年龄无分段的随机森林插补的误差是最小的,为29 904.06元,所以采用此方法对988个缺失值进行插补,最终得到收入的均值为23 830元,接近插补之前的收入平均值24 217元。
首先,本文的第一步是做变量的相关性检验。由于相关性分析的常用方法Pearson检验只适用于连续变量,而我们的指标多为多分类变量,所以这里我们采用独立性检验,即交叉列联表的卡方检验。
计算结果显示,这13个变量的独立性检验的p值均接近0,在显著性为0.05的情况下都应该拒绝原假设,即拒绝变量和婚前性行为接受程度的独立性。因此我们没有理由剔除任何变量。
随机森林指的是利用多颗树对样本进行训练并预测的一种分类器。随机森林帮助我们挑选出对婚前性行为态度有重要影响的变量,因为当冗余的特征变量进入决策树时,并不会提高模型的预测精度,甚至可能会降低模型预测的精度。
在用随机森林进行重要性分析之前,需要对数据做进一步的处理。首先将收入单位改成万,以便logistic回归分析中得到一个比较大的系数。由于单因素logistic回归中要求所有变量皆为二分类,所以在这部分删除婚前性行为态度为“说不上对不对”的样本,将婚前性行为态度为“总是不对的”“大多数情况是不对的”归为不支持一类,将“有时是对的”“总是对的”归为支持一类。
利用R语言编码,建立随机森林模型,随机生成了500棵决策树,并计算均方误差和精度。结果显示,无论是从均方误差还是精度的角度,都显示年龄和收入是影响婚前性行为最重要的因素,重要影响因素还包括健康状况、教育程度等,而在这13个变量中,民族、宗教和户口情况是最不重要的影响因素。
表1 logistic多因素分析结果
为了进一步探讨对婚前性行为接受程度的影响因素,并降低混杂因素造成的偏差,先进行logistic单因素分析,再次基础上讲接受程度作为单变量,将单因素分析结果具有统计学意义(p<0.05)的相关变量作为自变量引入logistic回归模型分析。
*logistic单因素分析结果
通过对这13个变量进行logistic单因素回归,我们发现,年龄、教育程度、收入、健康情况、父亲学历、母亲学历、性别、工作状态、婚姻情况、生活方式这些都是在显著水平情况下和对婚前性行为有显著作用的变量,我们将其作为自变量,纳入多元logistic回归里,进行下一部分讨论。
而在单因素logistic回归剔除的宗教、民族、户口情况这三个变量中:
2.3.1 宗教的情况。单因素logistics回归p值为0.062,在5%的显著水平下认为对婚前性行为的接受程度与宗教无关。但是在10%的显著性水平下,我们会发现民间信仰相比无宗教更接受婚前性行为,而伊斯兰教相比无宗教更不接受婚前性行为,这可能跟伊斯兰教的“斋功”有关,“寡欲清心,以近真主”,固然更难以接受婚前性行为。
2.3.2 民族的情况。单因素logistics回归p值为0.098,在5%的显著水平下认为对婚前性行为的接受程度与民族无关。但是在10%的显著性水平下,我们会发现回族相比汉族更不接受婚前性行为,这可能是因为回族主要信奉伊斯兰教,固守传统,遵循教规,自然也难以接受婚前性行为。
2.3.3 户口的情况。单因素logistics回归p值为0.076,在5%的显著水平下认为对婚前性行为的接受程度与户口情况无关。但是在10%的显著性水平下,我们会发现非农户口相比农业户口更接受婚前性行为。
*logistic多因素回归分析结果
通过上一步的logistic单因素分析我们剔除掉了宗教、民族、户口情况等三个变量。我们将剩余变量年龄、教育程度、收入、健康状况、父亲学历、母亲学历、性别、工作状态、婚姻状况和生活方式进行logistics多因素回归。以纳入标准为P<0.05,剔除标准为P>0.10的多因素logistic回归,最终对婚前性行为接受程度的影响因素纳入了性别、年龄、收入、生活方式、婚姻状况以及母亲学历。
由表1中多元logistic回归分析结果可以发现,对婚前性行为接受程度大小受年龄、收入、性别、生活方式、婚姻状况以及母亲学历影响。从结果中,我们可以看出以下结论:
(1)年龄方面,系数为-0.033,表明结果年龄越大对婚前性行为接受程度越低,p值接近0.00,该系数显著。可能的原因是,年龄越大的人所接受的观念越为保守,往往比较抗拒婚前性行为,而年轻一代生长在一个开放的年代,接受着多元化的信息,思想也更开放。综其两者,年龄越大者对婚前性行为接受的程度越低。
(2)收入方面,系数为0.043,表明收入越高对婚前性行为接受程度越高,p值接近0.00,该系数显著。可能是因为收入越高的人群,常是见多识广文化程度较高的,往往有较为成熟的性观念,认为婚前性行为不是一件重要到需要讨论的事情,从而对婚前性行为接受程度较高。
(3)性别方面,以女性为对照组,男性系数为0.387,表明男性比女性对婚前性行为接受程度更高,p值接近0.00,该系数显著。由于东方女性较为含蓄的性格,以及许多家庭教育里对女生的安全教育更为严格,这可能是使得女性对婚前性行为接受程度比男性低的原因。
(4)生活方式方面,以互联网为对照组,电视系数为-0.519,表明以互联网为主要生活方式的人比以电视为主要生活方式的人对婚前性行为接受程度更高,p值接近0.00,该系数显著。在我国,电视比较少涉及有关性知识的话题,即使是涉及到有关的话题,也是相对片面或是传统的,而通过互联网可以搜索到更多更全面的性知识形成更为成熟的性观念,这在一定程度上使得以互联网为主要生活方式的人比以电视为主要生活方式的人更能接受婚前性行为。
(5)婚姻状况方面,以未婚为对照组,已婚系数为-0.251,表明未婚的人群比已婚人群对婚前性行为接受程度更高,p值为0.033,该系数在5%的显著性水平下显著。已婚的人会有较为成熟的观念,相比之下更保守。而不少未婚的人还没意识到后果的严重性,而是抱着新鲜感。
(6)母亲学历方面,系数为0.18,表明母亲学历越高,其对婚前性行为接受程度越高,p值为0.002,该系数显著。母亲的教育对孩子的认知观起到一个塑造的作用。学历越高的母亲对性的认识越为全面,越能向其子女传递全面的性观念,这就使得其子女对婚前性行为接受度较高。
(1)本文在数据处理这块考虑得比较周全,在比较了kNN和随机森林的插补误差后再选择插补方法。在经过数据预处理后,通过卡方检验确保变量之间拒绝独立性后才开始进一步的建模分析。
(2)本文综合随机森林模型和单因素logistics回归分析的结果,共同认为可以剔除民族、宗教和户口情况这三个变量,相互验证之下更具有说服力。
(1)本文直接主要探讨对婚前性行为接受程度的影响因素,可能具体到某个重要变量下不同群体的最重要因素会有差异。
(2)本文采用的数据中,民族、宗教等分类变量的部分类别占比严重失衡,这可能是导致稀少类变量被剔除的部分原因。改进的办法可能是寻找更大的数据库或者有更好的数据处理方法。
[1]朱安新.台湾地区“90后”大学生异性交往观念——以婚前性行为接受度为分析重点[J].青年研究,2014,(06):11-19+91.
[2]任伟伟.非婚性行为的亚文化分析[J].中国性科学,2010,(01):36-39.
1004-7026(2017)16-0029-03
D669
A
10.16675/j.cnki.cn14-1065/f.2017.16.020
刘 彬(1995-),男,汉族,广东省五华县人,华南师范大学数学科学学院,2014级本科生,研究方向:金融数学。
吴培莎(1995-),女,汉族,广东省汕头人,华南师范大学数学科学学院,2014级本科生,研究方向:金融数学。
邓心怡(1996-),女,汉族,广东省惠州人;华南师范大学数学科学学院,2014级本科生,研究方向:金融数学。