大学生网络行为方式的模糊分析

2013-11-22 11:43李云先彭敦陆
上海理工大学学报 2013年2期
关键词:特征向量聚类向量

李云先, 彭敦陆

(1.上海工程技术大学 艺术设计学院,上海 201620;2.上海理工大学 光电信息与计算机工程学院,上海 200093)

互联网的崛起为人们塑造了一个全新的数字化、信息化和网络化的社会生活空间,人们的生活已经离不开网络.互联网在给人们生活带来便利的同时,也在改变着人们的行为方式、思考方式和社会关系[1].网络的自由与兼容、交互与开放,为大学生提供了学习求知的新渠道,同时也为他们打开了充满诱惑的窗口.如何通过对大学生的上网行为特点进行科学分析,为高校教育工作者引导大学生合理地运用网络资源、进行积极的网络交往及树立健康的上网理念提供可靠依据,已成为一个亟待研究的焦点问题.在对上海某高校本科学生进行网络问卷调查的基础上,提出了基于模糊聚类的大学生网络行为方式的分析方法.通过分析将大学生的网络行为分为学习主导型、漫无目的型、社交活跃型、热衷网购型及娱乐主导型等类型,并且为每类大学生构建健康向上的网络生活方式提出了相应的指导方法和策略.

1 大学生网络行为方式特征向量空间模型

1.1 大学生网络行为方式的内涵

目前,随着各大高校校园建设的不断完善,互联网已经渗入大学生生活的方方面面,并已成为大学生生活和学习不可或缺的一部分.但由于对网络行为方式内涵的探讨涉及到社会学、传播学、心理学、政治学、经济学及管理学等诸多学科,因此,网络行为方式的准确定义非常复杂,目前也尚未统一.结合前人对网络行为方式的探讨[2-4],本文将大学生网络行为方式定义为:在基于Internet所构建起来的网络化和虚拟化环境下,大学生群体进行人机互动、人际互动及自我互动过程中所表现出来的兴趣、爱好、行为及价值观念等满足自身成长与发展需要的全面活动总和.大学生网络行为方式大致可以从网络学习、网络社交、网络娱乐和网络交易4个方面来概括.每个方面都可以细分为更具体的几个子方面进行描述.例如,网络学习可细分为信息获取、合作分享和网络课件3个子方面;网络社交可以细分为网络交流、网络交友和虚拟社区3个子方面;网络娱乐可以细分为网络音乐、网络影视、网络游戏和网络小说4个子方面;网络交易可以细分为网络购物、网上交换和网上出售3个子方面.这些细分信息,可更加具体地描述大学生网络行为方式.

1.2 大学生网络行为方式特征向量空间

据2012年7月中国互联网信息中心(CNNIC)发布的《第30 次中国互联网络发展状况统计报告》[5]显示,我国网民数量突破5亿,达到5.38亿.其中,18~24岁的网民占绝对优势,超过总人数的一半;在职业分布中,大学生占最多数,这表明,相对传统媒体,互联网对大学生具有更大的吸引力.大学生已成为网民中比例最高、最为活跃的一个群体.互联网在给大学生带来广阔发展空间的同时,也产生了许多新问题.如何通过对大学生上网行为的科学分析来发现大学生网络行为方式中存在的实际问题,对充分发挥网络的教育功能,利用网络帮助大学生健康成长具有重要意义.通常能获得的大学生上网行为信息本身是不精确、不完全或者模糊的,对使用恰当的数据分析方法来处理此类信息提出了挑战,在此引入向量空间模型来描述大学生的上网行为.

向量空间模型(vector space model,简称VSM)是信息检索中经常使用的一种检索模型[6],该模型将文档分割成一系列关键字(简称为项),每一项表示向量空间中的一维.通过将一个文档在不同维上赋予一定值,可将该文档表示成向量空间中的一个向量.

定义1(大学生网络行为特征向量) 设Pk为某大学生行为,那么该大学生网络行为特征向量Pk可表示为

式中,wk,j表示项j在大学生的网络行为Pk中的重要程度,是[0,1]之间的数值,当一个j在Pk中不出现时,其取值为0,j=1,2,…,m;m 为描述大学生网络行为特征的项数.通过收集网络学习、网络社交、网络娱乐和网络交易4个方面共14个特征来描述大学生网络行为特征,这些特征构成的集合,也称为大学生网络行为特征空间.

对于Pk中的每一个分量wk,j,可以通过一段时间内使用某项行为发生的次数与该段时间内使用所有网络发生的总次数之比来表示.

式中,τj表示该生在网络行为j上花费的时间;τ为该学生访问网络的总时间.

1.3 大学生网络行为特征集的选取

在大学生网络行为特征空间中产生一个大学生网络行为向量时,需要在特征集中的每个项上都生成一个维.因此,特征空间中每增加一个特征,对应的大学生网络行为特征空间就增加一维.这表明,特征数目的大小决定了大学生网络行为特征空间的维度,是大学生网络行为特征空间模型的核心.对于规模较大的大学生网络行为集合,如果特征空间选取不合理,很容易造成搜索空间过大,难以保证数据分析计算过程的效率.这里提出一种基于模糊集理论的特征空间剪枝策略,即大学生网络行为模糊集.

定义3(大学生网络行为模糊集) 设T 为描述大学生网络行为的特征集,每个大学生网络行为Pk∈R 均是一个T 上的一个模糊集,记为μPk,它由隶属度函数

来表示,这里wk,j为每个tj∈T 在Pk中的隶属度,通过式(2)计算得到.为了方便,用P′k=μPk/t1+μPk/t2+…+μPk/tm来表示大学生网络行为特征模糊 集μPk,其 中,“+”表 示 并,m 为T 中 的 项数目.

定义3为大学生网络行为提出了一种新的表示方法,但同时提出了特征选取的问题.为避免低信息量的项进入特征集空间,现提出一种l-权重特征选取方法.l为项数.

定 义4(l-权 重 特 征 集) 设Pk(wk,1,wk,2,…,wk,m)是一个大学生网络行为特征向量,按照大学生网络行为特征模糊集的定义,可将一个Pk的模糊集表示为P′k=μPk/t1+μPk/t2+…+μPk/tm.将P′k中的分量按值大小进行排序,取其前i项组成l-维 模 糊 向 量P′k(wk,1,wk,2,…,wk,l),i≤m,对应的模糊集可表示为Pk,l=μPk/t1+μPk/t2+…+μPk/ti.这 里 将Pk,l称 为 大 学 生 网 络 行 为Pk的l-模糊集,对应的项集构成了l-权重特征集,记为Tk,i={tk,1,tk,2,…,tk,l}.这里的tk,l是特征,而不是权重,i=1,2,…,l.

在得到了所有大学生网络行为的l-权重特征集之后,可得到大学生网络行为集的特征空间,其表达式为

计算TR的关键是为每个大学生网络行为求取l-权重特征集.在实际计算中,先将某个大学生网络行为向量Pk中的所有项放入空间TR中,并将Pk各分量按值大小进行排序,然后前l个项放入结果集中,这样就得到Pk的l-权重特征集.对于TR中已存在的特征不重复加入.在将Pk中的前l项特征加入到TR时,将向量Pk中与这l项对应的l-维特征模糊向量也加入到向量空间R中,同时用它替代Pk.

2 大学生网络行为模糊聚类分析算法

由于大学生网络行为是由访问相关网站或使用工具的次数表现出来,不能对大学生的网络行为进行准确的表达.因此,在对大学生网络行为分类时,采用模糊方法将比脆性方法更有效,也更符合大学生网络行为的客观情况.模糊聚类分析大致可分为三大类:分类数不确定时的模糊等价矩阵动态聚类分析法、分类数已知时的模糊C-均值聚类算法和基于摄动的模糊聚类分析[7].这里,以分类数不确定的情况来说明,通过对大学生网络行为模糊等价矩阵的动态聚类来实现大学生网络行为方式分析.在条件具备时,其它模糊聚类方法可参照本文来实现.

利用定义的大学生网络行为模糊集(定义3),可以对大学生网络行为的模糊聚类分析问题进行描述.被分析的大学生网络行为构成对象集R={P1,P2,…,Pn},每个大学生的网络行为都映射成m 维空间中的一个向量,即针对大学生网络行为Pk,其网络行为可用m 维向量Pk(wk,1,wk,2,…,wk,m)来表示,表示TR中的项数.这里,wk,j表示第k个大学生网络行为特征向量中特征j的重要程度(或隶属度),它是由式(3)和定义4来确定的.其它没有在Pk对应的l-权重特征集中出现的项权重为0.这样,R 中所有大学生网络行为对象的特征向量构成矩阵

式中,R*称为特征指标矩阵.

现介绍模糊聚类算法的具体步骤.

第一步 规格化数据.将每一个项的权重统一在同一个数值范围内.在生成大学生网络行为特征向量时,利用式(2)已确保各个项的权重规格化到[0,1]了,因此,这一步可以省略.

第二步 构造模糊相似矩阵.主要用来确定两个大学生网络行为Pi和Pj之间的相似程度,也即向量Pi(wi,1,wi,j,…,wi,m)和Pj(wj,1,wj,2,…,wj,m)之间的相似程度

构造出反映两个大学生网络行为间的相似模糊矩阵

目前,计算si,j的方法有多种.由于不能保证每个大学生网络行为特征向量在每个特征上都有权重(即存在权重为0的情况),所以,这里采用指数相似系数法来计算两个大学生网络行为的相似性

第三步 模糊聚类.采用直接聚类法实现大学生网络行为的模糊划分,基本步骤如下:

a.将模糊相似矩阵S 中的所有不同元素si,j按从大到小的顺序排列,1=λ1>λ2>…>λm.其中,λi表示S 中的一个取值.

b.选取λ1=λa>…>λm,a=1,2,…,m,直接在模糊相似矩阵S 中找出λa水平上相似类,并进行归并,得到λa水平上的等价类.通过设置不同的阈值,可以实现在不同相似度阈值下大学生网络行为的动态聚类.

c.为直观地表达被分类对象之间的相关程度和聚类结果,通常还需要绘制动态聚类图.

3 大学生网络行为方式模糊分析

将大学生网络行为进行模糊聚类的目的是便于引导大学生建立健康向上的网络行为方式.在对大学生网络行为方式进行分析时,需要将大学生按其网络行为映射到不同类别中,具有相似网络行为方式的学生聚集到同类中,才能发现各类大学生网络行为的规律.假定每种类型的网络行为方式都可用一组聚类中心向量来表示,那么,给定一个行为方式类型cb,对于某个网络特征j在cb中的权重为

对cb进行向量化,得到聚类中心向量是cb=(νb,1,νb,2,…,νb,m).其中,wi,j为网络行为特征j在大学生网络行为i中的权重,n是cb中出现的样本大学生行为数目.对于cb中没出现的网络生活行为特征的权重为0.

在实现了对大学生网络行为进行模糊分类后,大学生按其网络行为方式被划分到不同类别中.这样可以清楚地了解到大学生网络行为方式的特征分布,从而有利于引导他们建立健康向上的网络行为方式.另外,通过不同时期的大学生网络行为方式的模糊聚类分析,还可以掌握大学生网络行为方式的发展动态.对各类中的大学生网络行为特点进行归纳,从而得到其共同特征.

为了使上述模糊聚类方法能直接在大学生网络行为数据上聚类,可以将从样本训练得到的网络行为方式向量看作一个大学生网络行为向量的一部分.设A为通过样本训练得到的大学生网络行为方式类别集,将其与要进行分类的大学生网络行为合并在一起组成新的大学生网络行为库Re.为了方便,在Re中,设从n+1个对象开始为大学生网络行为方式向量,即Pn+k=ck及Re={P1,P2,…,Pn,cn+1,cn+k,…,cn+g}.这样,在Re中就有n+g个对象需要进行聚类.然后,采用前面描述的大学生网络行为模糊聚类算法实现Re中对象的模糊聚类.在聚类结果中,如果某个大学生网络行为Pk与网络行为方式cb被划分到同一簇中,就认为大学生网络行为Pk具有cb型的网络行为方式.

4 调查与数据分析

4.1 调查概况

以上海某高校本科学生为研究对象,实际调查样本主要由1~3年级的学生构成,专业兼顾文、理、工、艺术等学科,调研采用网络问卷方式进行.调研从网络学习、网络社交、网络娱乐和网络交易4个方面展开,每个方面均要求学生给出每周大约花费的时间.在其它调研指标中,针对不同调研内容,设计了不同的调研指标.例如,网络交易方式的调研指标有是否有网购习惯、经常在哪些网购平台上进行购物、最常购买的商品、对网购安全的看法以及是否有二手网络交易经历等.表1给出了调研内容和参与人数,由于篇幅限制,这里没有列出所有调研指标.

4.2 数据分析

根据参与调研的大学生登陆系统的用户名,发现有635个大学生回答了调研问卷的所有问题.他们的答案构成了研究本课题的数据集.从这635个大学生中,先选取了95个(占总数据集的15%)作为样本集,通过利用前文所提模糊聚类方法,得到学习主导型、漫无目的型、社交活跃型、热衷网购型及娱乐主导型5种网络行为方式类型,每一聚类中心特征向量值为

表1 大学生网络行为调研内容与参与人数Tab.1 Contents and participants numbers of the college students network behavior investigation

为了便于处理,对不同参数进行了归一化处理.利用模糊聚类方法对调研数据进行了分析.各个聚类中心特征向量中的下划线部分表示该聚类中心的主导网络行为。分类结果显示,学习主导型c1有142人、漫无目的型c2有143人、社交活跃型c3有118人、热衷网购型c4有87人、娱乐主导型c5有145人.通过对每类别中的大学生上网行为作进一步分析,发现各类大学生行为方式具有以下特点:

学习主导型(占22.36%).这类大学生经常利用网络搜索学习资料,使用各类数字图书馆下载电子图书、论文等,并利用课程中心下载或浏览各类课程资料.他们每周花费在网络学习上的时间约占整个上网时间的54%,说明他们的网络行为自控能力较强,能自主合理地利用网络来提高学习效率.

漫无目的型(占22.52%).这类大学生在网络上表现出广泛的“兴趣”,他们在每个调研内容上表现出同等的兴趣度,他们的上网时间几乎均匀地分布于调研的各方面.课题组随机抽取了若干名学生进行了面谈,发现这类学生的一个共同点是每天都访问网络,但不知道应该在网络上做什么,处于漫无目的浏览网页的状态.

社交活跃型(占18.58%).花费近65%的上网时间利用QQ、MSN 等工具进行网络聊天、发表(或浏览)微博及网络交友等.这类大学生认为网络是结交知心好友、展现自我、发表个人观点的最佳平台,他们享受网络中的社交活动.

热衷网购型(占13.70%).没事就到购物网站上溜达,看上合适的就拍或向好友推荐;由于对某种产品的热衷,只要该产品出现新款就进行抢购,是这类大学生对网购的态度.他们认可网络购物的廉价和便利,并且花费近41%的上网时间浏览各大网络购物平台中自己喜欢的商品.

娱乐主导型(占22.83%).这类大学生也花费了近41%的时间来下载音乐、视频,或利用PPTV、百度影音等在线收听、观看音乐和电影电视剧等,甚至把这些时间花费在网络游戏上.

4.3 建议与对策

当前互联网已经在大学生生活、学习、娱乐及社交等方面扮演一个不可或缺的角色.从本次调研数据分析结果来看,互联网对大学生各方面影响具有多样性和复杂性等特点,总体来看具有正负两面性.为了使大学生建立健康的网络行为方式,需要采取有效策略进行引导.现给出的一些建议与对策.

首先,通过调查数据显示,绝大多数(90%以上)的学生是通过校园网完成问卷的.这表明校园网是大学生网络生活的主场所,创建健康、和谐的校园网应用环境是大学生建立健康向上的网络生活的基础.

其次,从调研结果来看,网络已成为大学生一种新的学习、生活和娱乐的方式.高校要引导大学生充分认识到网络的本质,充分利用网络信息资源来促进学习和交流,不断提高自身的信息素养.鼓励教师使用网络方式进行教学,让学生体会网络的正面用途.

最后,按照学生类别对各类学生进行有重点的差别化教育与引导,高校对大学生的网络素质教育将更具有针对性.例如,针对学习主导型学生可引导学生如何更加有效地使用网络促进学习,使他们以更高的效率使用网络,起到锦上添花的作用.针对漫无目的型的学生由于对网络的作用理解不够,因此,无法感受到网络对学习带来的优越性,帮助他们认识到在网上漫游的行为将会消耗大量的时光,对将来职业生涯会带来负面影响,应尽早建立职业规划,并合理利用网络来实现该规划.对于社交活跃型的学生,在鼓励他们在网络中自我表现的同时,加强他们明辨是非、自我控制能力,帮助他们学会理性思考,减少网络社交带来的危险.热衷购物型大学生喜欢“逛”网店,网店上的商品琳琅满目,喜欢的东西数不胜数,但同时也存在大量的欺骗.对这类学生,首先在肯定网购便利的同时,要教育他们认识到网络暗藏危险,学会防止网络欺骗,并引导他们将更多的精力花费到网络其它有益的用途上.对于娱乐主导型大学生,特别是那些过多地集中在网络视频及网络游戏上的大学生,他们多数缺乏自我管理能力,如果任其展发展可能最终会荒废学业.因此,针对这类学生应该加强思想教育,帮助他们认识到过度地进行网络娱乐带来的危害,树立正确的人生目标.

5 结 论

互联网作用已渗透入了大学生生活、学习和娱乐的方方面面.互联网的开放性、信息的大量性和多样性给大学生带来的影响具有多样性和复杂性.对大学生网络行为方式的科学分析,可以帮助高校教育工作者有针对性地引导学生培养正确的网络行为方式.本文首先提出了大学生网络行为向量空间的概念,在此基础上给出了大学生网络行为向量空间模型.由于大学生网络行为向量空间维数过多会造成计算量过大.为此,本文提出了使用l-权重特征集的选取方法对大学生网络行为特征空间进行有效剪枝.除此,本文还给出了一种基于模糊向量空间的大学生网络行为模糊表示方法及一种支持大学生网络行为分析的模糊聚类方法,在此基础上,针对不同网络生活类型的大学生给出了不同的教育引导建议和策略,帮助大学树立健康的网络生活方式.

[1]王飞跃.基于社会计算和平行系统的动态网民群体研究[J].上海理工大学学报,2011,33(1):8-17.

[2]陈创荣,林函,夏静娴.90后大学生网络生活方式调查及对策分析[J].黑龙江教育学院学报,2012,31(4):16-18.

[3]王海波,王文生,刘龙村.当代大学生网络生活方式的现状调查与分析[J].长春理工大学学报,2011,6(10):97-98.

[4]汪秉宏,周涛,周昌松.人类行为、复杂网络及信息挖掘的统计物理研究[J].上海理工大学学报,2012,34(2):103-117.

[5]中国互联网络信息中心.第31次中国互联网络发展状况统计报告[EB/OL].[2012-07-23]http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201207/t20120723_32497.htm.

[6]Ricardo B Y.现代信息检索[M].王知津,贾福新,郑红军,等,译.北京:机械工业出版社,2006.

[7]陈水利,李敬功,王向公.模糊集理论及其应用[M].北京:科学出版社,2005.

猜你喜欢
特征向量聚类向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
向量的分解
克罗内克积的特征向量
聚焦“向量与三角”创新题
基于K-means聚类的车-地无线通信场强研究
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于高斯混合聚类的阵列干涉SAR三维成像
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线