徐维艳,林梦云,程 瑞,孙 波
(江苏科技大学 数理学院,江苏 镇江 212003)
随着智能手机日益普及,其功能也日趋多样化.智能手机除了是方便快捷的通讯工具外,还具有听音乐、游戏、摄影等多种娱乐功能,因此很多自制力差的大学生患上了手机依赖症,严重影响了学业.通过调查分析,本文用粗糙集理论来分析大学生对手机依赖的缘由,从而更加准确地指出大学生对手机依赖的影响因素,对指导大学生正确使用手机具有重要的意义.
波兰数学家Pawlak[1-2]提出的粗糙集理论是一种处理不精确信息和模糊信息的新型数学方法,近年来成功应用于医疗诊断、图像处理、模式识别、知识获取、数据挖掘和决策支持等领域.经典粗糙集理论是通过论域U上的不可分辨二元关系(即等价关系)导出的等价类,作为基本的知识颗粒,用一对上下近似集合来逼近数据库中的不精确概念.粗糙集的核心思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[3-7].
关于大学生对手机依赖的因素分析研究,文献[8-10]通过调查问卷的形式,从统计学的角度对在校大学生对手机依赖的各种因素仅进行了定性分析和理论说明,没有建立数学模型定量分析;文献[11]虽然用粗糙集理论作了定量分析,但决策属性值设定偏主观,约简后条件属性的主观分类可信程度没有度量,影响结果对事实的客观反映.为此,本文将粗糙集理论用于对大学生依赖手机因素进行定量分析,通过属性约简算法(思维方式与其互逆)[10]对指标体系进行简化,删除冗余信息,获取影响学生依赖手机的原因规则,并对这些规则的可信度程度进行度量,为学生工作者提供智能决策依据,以指导大学生合理使用手机,学校和家长也可借鉴此规则引导学生,避免学生对手机的过度依赖.
定义1[5]信息系统(information system,记为IS)可定义为一个四元组:IS= 〈U,AT,V,f〉,其中U是一个非空有限对象的集合,又称为论域;AT是非空有限属性集合,∀a∈AT,Va表示属性a的值域;V表示全体属性的值域集合,即V=VAT=∪a∈ATVa;f为信息函数,∀x∈U,a∈AT,定义f(x,a)表示x在属性a上的取值,则有f(x,a)∈Va.如果AT=C∪D,其中C是非空有限条件属性集合,D是非空有限决策属性集合,则〈U,C∪D,V,f〉又被称为决策信息系统(DIS).当D= {d}时,称〈U,C∪ {d},V,f〉为单决策信息系统.
定义2[5]设IS= 〈U,AT,V,f〉,∀A⊆AT,定义A上的不可分辨关系IND(A)= {(x,y)∈U2:∀a∈A,f(x,a)=f(y,a)}.不可分辨关系满足自反性、对称性和传递性,是U上的一个等价关系.由此等价关系可以导出U上的一个划分,记为U/IND(A),∀x∈U,x的等价类记为[x]A,且[x]A= {y∈U:(x,y)∈IND(A)}.
定义3[5]设IS= 〈U,AT,V,f〉,∀X⊆U,A⊆AT,定义X关于属性A的下、上近似,分别记为
序偶〈A(X)(X)〉称为X关于属性A的粗糙集.通过下近似和上近似,可以得到X的正域、边界域负域分别为
在将粗糙集用于决策规则获取的理论中时,隐藏在决策信息系统DIS= 〈U,C∪ {d},V,f〉中的知识将以决策规则的形式被提取出来,通过考察训练样本或待考察的对象x(x∈U),可以得到如下决策规则[6]:
其中des([x]C)是决策规则rx的条件部分,表示对象x在条件属性集C下的描述,即des([x]C)=∧c∈C(c,vc);des([x]d)是决策规则rx的决策部分,表示对象x在决策属性d下的描述,即des([x]d)=∨i∈Vd(d,i),其中i∈Vd,i是类别标签.规则rx为决策者做出判决和分类提供了依据.文献[4-6]对决策规则rx定义了确定性度量因子Cer(rx)来衡量rx的可信度程度:
其中card(X)表示集合X的基数;‖[x]C‖表示x在条件属性集C上描述相同元素构成的集合,记为‖[x]C‖ = {y∈U:f(y,c)=f(x,c),∀c∈C};‖[x]d‖表示x在决策属性d上描述相同元素的集合,记为 ‖[x]d‖ = {y∈U:f(y,d)=f(x,d)}.
令Cer(rx)=α,当α=1时,规则rx:des([x]C)→des([x]d)的决策能力是确定的,此时称之为确定性决策规则;当0<α<1时,规则rx:des([x]C)→des([x]d)的决策能力是不确定的,此时称之为不确定性决策规则,其不确定性的程度由α×100%来度量.
定理1 设DIS= 〈U,C∪ {d},V,f〉,论域U上由决策属性d导出的划分记为U/{d}={D1,D2,…,Di},其中Vd= {1,2,…,i},Di= {x∈U:f(x,d)=i}又被称为决策类,i是类别标签.则对任意x∈U对应决策规则rx:des([x]C)→des([x]d),有下面的命题成立:
(1)若x∈POSC(Di),则规则rx:des([x]C)→des([x]d)是一条确定性决策规则;
(2)若x∈BNDC(Di),则规则rx:des([x]C)→des([x]d)是一条不确定性决策规则.
证明 (1)由x∈POSC(Di)可知,有[x]C≠Ø,[x]C⊆Di成立.由[x]C的定义可知,任何与x在条件属性集C上描述均相同的元素,其决策属性值都取i,即f(x,d)=i,i∈Vd.所以有Cer(rx)=1成立,因此rx是一条确定性决策规则.
(2)证明与(1)类似.
定义4 设DIS= 〈U,C∪ {d},V,f〉,Vd={1,2,…,i,…,r},A⊆C.由决策属性d导出的划分记为U/d= {D1,D2,…,Di,…,Dr},其中Di= {x∈U:f(x,d)=i}.定义
(1)若LOW(A)=LOW(C),则称A是C的一个下近似分布一致协调集;若A是C的一个下近似分布一致协调集,且∀B⊂A,B都不是C的下近似分布一致协调集,则称A是C的下近似分布约简.
(2)若UPP(A)=UPP(C),则称A是C的一个上近似分布一致协调集;若A是C的一个上近似分布一致协调集,且∀B⊂A,B都不是C的上近似分布一致协调集,则称A是C的上近似分布约简.
(3)若LOW(A)= LOW(C),且 UPP(A)=UPP(C),则称A是C的分布一致协调集;若A是C的分布一致协调集,且∀B⊂A,B都不是C的分布协调集,则称A是C的分布约简.
定义5 设IS= 〈U,AT,V,f〉是一个信息系统,C∪ {d}=AT,集合族{D1,D2,…,Dr}是由决策属性d导出的划分,则C对{d}的近似分类质量γC({d})计为
其中γC({d})表示在条件属性集C下能够确切划入决策类U/{d}中的对象占论域中对象总数的比率,表示了决策属性对条件属性的依赖程度;POSC({d})称为{d}的相对于C的正域.
定义6 设IS= 〈U,AT,V,f〉是一个信息系统,C∪ {d}=AT,条件属性ci∈C(i=1,2,…,n),ci对 于 决 策 属 性 的 重 要 性 程 度 为 Sig(ci,C,{d}),其中Sig(ci,C,{d})=γC({d})-γC-{ci}({d}).POSC-{ci}({d})称为{d}相对于C-{ci}的正域,即U中所有根据属性集C-{ci}划分后,仍可准确划分到{d}的等价类中的对象集合.
经过专家打分本文评选出13个影响因素,做了100份的问卷调查,最后所构建的决策信息表如表1所示.
表1 调查问卷设计Table 1 Questionnaire design
表1中用“0,1,2,3”来表示不同的取值.U={u1,u2,…,u100}表示100份问卷的集合,A= {c1,c2,…,c11,d1,d2}表示属性集.其中C= {c1,c2,…,c11}表示条件属性,{c1,c2,…,c11}分别对应属性1~11;D={d1,d2}表示2个决策属性,为便于讨论将{d1,d2}转为单决策属性d,根据领域专家的经验判定d的取值如表2所示,即Vd={不依赖,轻度依赖,非常依赖}= {0,1,2}.
表2 单决策属性表Table 2 Single-decision attribute table
经过上述处理之后可得如表3所示的决策信息系统表.
已知DIS= 〈U,C∪ {d},V,f〉,属 性集C={c1,c2,…,ci},U/d= {D1,D2,…,Di,…,Dr}是由决策属性d导出的覆盖,则条件属性集C的下近似分布约简的步骤如下:
Step 1 令C的下近似分布约简R=Ø;
Step 2 判断LOW(R)=LOW(C)是否成立,若成立则转Setp 4,否则转Setp 3;
Step 3 对任意ai∈ (C-R),取Sig(ai,C,{d})获得最小值时的ai,更新R,使R=R∪ {ai},转Setp 2;
Step 4 最后输出R,则R即为C的下近似分布约简.
表3 决策信息系统Table 3 Decision information system
算法的时间复杂度分析:在Step 2中计算LOW(R)与LOW(C)是否相等的时间复杂度是O(|C||U|2),Step 3的时间复杂度是O(|C|log2|C|),因此该算法的时间复杂度是O(|C||U|2).将Step 2中的判断条件改为 UPP(R)=UPP(C),Step 3的启发信息也做相应调整,即可求得C的上近似分布约简.
通过计算约掉的冗余数据为{c4,c8,c9},最终得到C对 {d}的 相 对 约 简 为 {c1,c2,c3,c5,c6,c7,c10,c11}.因此由表3获取的确定性决策规则如下:
r1:(c1=3)∧ (c2=0)∧ (c3=1)∧ (c5=0)∧ (c6=0)∧ (c7=0)∧ (c10=1)∧ (c11=0)→(d=1),可信度为1;
r2:(c1=2)∧ (c2=0)∧ (c3=1)∧ (c5=0)∧ (c6=1)∧ (c7=0)∧ (c10=1)∧ (c11=0)→(d=1),可信度为1;
r3:(c1=2)∧ (c2=0)∧ (c3=1)∧ (c5=1)∧ (c6=0)∧ (c7=1)∧ (c10=1)∧ (c11=0)→(d=0),可信度为1;
r4:(c1=2)∧ (c2=0)∧ (c3=0)∧ (c5=1)∧ (c6=1)∧ (c7=0)∧ (c10=0)∧ (c11=0)→(d=0),可信度为1;
r5:(c1=1)∧ (c2=0)∧ (c3=1)∧ (c5=1)∧ (c6=1)∧ (c7=0)∧ (c10=0)∧ (c11=0)→(d=1),可信度为1;
r6:(c1=1)∧ (c2=0)∧ (c3=1)∧ (c5=1)∧ (c6=0)∧ (c7=0)∧ (c10=0)∧ (c11=0)→(d=2),可信度为1.
上述确定性规则用通俗语言解释如下:
(1)大学四年级,用手机学习或获取有用信息的时间在2h以下,平时的空余时间在2~8h,拿过奖学金,谈恋爱,注重手机的性价比,老师不禁止学生上课玩手机,觉得大学课程有点困难.具有以上属性的大学生,他们通常对手机依赖,且可信度为1.
(2)大学三年级,用手机学习或获取有用信息的时间在2h以下,平时的空余时间在2~8h,没拿过奖学金,谈恋爱,注重手机的品牌,老师不禁止学生上课玩手机,觉得大学课程有点困难.具有以上属性的大学生,他们通常对手机不依赖,且可信度为1.
(3)大学二年级,用手机学习或获取有用信息的时间在2h以下,平时的空余时间在2~8h,没拿过奖学金,谈恋爱,注重手机的性价比,老师禁止学生上课玩手机,觉得大学课程有点困难.具有以上属性的大学生,他们通常对手机非常依赖,且可信度为1.
注 限于篇幅,其他规则本文不再一一罗列.
本文用粗糙集的知识对大学生手机依赖程度进行数据处理,通过属性约简可以看出,影响大学生对手机产生依赖的主要因素是:① 用手机学习时间较少;② 平时空余时间较多;③ 谈恋爱;④ 老师不约束学生上课玩手机;⑤ 大学课程较难等.所得研究结果比仅从统计学角度作出的定性分析结果更具有客观性,学校和家长可以有针对性地采取有效措施,正确引导大学生合理使用手机,这对高校学生管理工作有一定的参考价值.
[1] PAWLAK Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
[2] PAWLAK Z,SKOWRON A.Rough sets:some extensions[J].Information Sciences,2007,177(1):28-40.
[3] YAO Yiyu.Three-way decisions with probabilistic rough sets[J].Information Sciences,2010,180(3):341-353.
[4] YANG Xibei,XIE Jun,SONG Xiaoning,et al.Credible rules in incomplete decision system based on descriptors[J].Knowledge-Based Systems,2009,22(1):8-17.
[5] 张明,唐振民,杨习贝.可变多粒度粗糙集模型[J].模式识别与人工智能,2012,25(4):709-720.
[6] 徐维艳,魏敏,张明.基于相似关系粗糙集中的否定规则及约简[J].微电子学与计算机,2012,29(11):53-57.
[7] 徐苏平,杨习贝,范霁月,等.基于混合不可分辨关系的粗糙集模型与知识获取[J].淮海工学院学报:自然科学版,2012,21(4):28-32.
[8] 罗玉华,黄彦萍,游敏惠.手机对大学生的影响及对策研究[J].重庆邮电大学学报:社会科学版,2011,23(2):22-26.
[9] 胥鉴霖,王泗通.大学生手机依赖现状调查探究——以HH大学J校区为例[J].电子测试,2013(14):137-139.
[10] 马斌,马潇萌,朱记伟.手机过度使用危害及影响分析——基于大学生群体的实证[J].电子测试,2011(29):184-185.
[11] 高雨菲,林梦云,杜佩珊,等.大学生手机依赖调查和因素分析[J].科技信息,2014(2):95-97.