高校大学生社交网络服务使用分析

2012-08-29 01:33姜开达孙强
中国教育网络 2012年12期
关键词:社交数据库用户

文/ 姜开达 孙强

编者按:社交网络无疑是当今大学最为热门的话题,大学生已成为信息前沿最为活跃的群体,如何依托现有的主流社交网站,全面深入分析和了解社交网络对高校大学生群体的影响,利用社交网络和相应产生的大数据,通过数据挖掘的手段分析和研究大学生的网络行为,这些都具有现实的意义,可为高校未来学生管理和个性化服务提供积极的决策参考。本刊从本期起,连载上海交通大学关于大学生社交网络的应用研究和场景分析,作者以独到的视角,通过数据分析和理论计算,构建模型,展现一张虚拟世界的人际关系网。

图1 社交网站用户的年龄分布

出现于上世纪90年代的WWW浏览器带来了互联网的迅速发展,成为了当时的“杀手级应用”。本世纪初起步的Facebook、Twitter、LinkedIn等社交网络服务(SNS)网站带动互联网走进了Web 2.0时代,国内也随后产生了新浪微博、人人网、开心网等本土化应用网站,吸引了大批高校大学生用户。近年来,随着移动互联网的兴起和智能手机的普及,无处不在、无时不在的手机微博、微信在高校大学生群体内广为流行。新的社交网络提供的便捷服务使得用户更具自主性、互动性,用户不再是被动接受信息的媒体受众,而是积极地参与到网络中,成为信息的制作者、发布者、传播者和分享者。

十多年前伴随一代代中国大学生成长的“水木清华”、“一塌糊涂”、“饮水思源”、“日月光华”等传统知名BBS论坛,如今由于各种原因,不是关闭就是存在各种限制注册措施,校园用户逐渐流失,网站运作模式缺乏创新和进步,逐步走向穷途末路。而近年来社交网站成为越来越多的大学生人际活动的重要场所,无论是现实人际关系的延伸还是新的人际关系的建立,社交网站成为了他们获取信息、交流情感、娱乐消遣的重要媒介平台。

对每所高校来说,客观上都需要一种吸引和凝聚大学生的渠道,不少学校也投入了很大精力来建设校内的社区平台,不过效果很难完全令人满意。今天,依托于现有主流社交网站提供的服务,深入全面分析其对高校大学生群体的影响机制和模型,进而参与其中,成为其中的一员并了解和影响其所在大学生群体,为高校思想政治教育提供了新载体和新形式。对高校科研人员来说,社会网络和随之产生的大数据(Big Data)、高性能计算的分析和研究也非常具有吸引力和挑战性。对学校相关学生工作管理部门来说,了解学生最新动态,掌握舆情信息,引导校园网络文化,也都需要有的放矢的进行。从学校信息发布工作来看,如何通过社交网络用最小的代价,在尽可能短的时间内把各类信息以大学生喜闻乐见的形式有效传递到最大的范围也是需要研究的课题。

为进行分析研究,选取了人人网(renren.com)作为初始研究的社交网络平台对象为切入点,主要考虑以下因素:

1.人人网的前身——校内网(xiaonei.com)是集中定位于大学生群体的SNS网站,为广大大学生提供了一个互动交流平台,2009年更名为人人网后主要活跃群体依然以在校大学生和部分中学生为主。据CNNIC发布的《2010 年中国网民社交网站应用研究报告》显示,社交网站用户主体是年龄30岁以下的年轻群体,20-29岁的用户比例最高,达37.4%;其次是年龄在20岁以下的用户,占31.6%。与互联网网民总体相比,社交网站用户的年龄结构更加年轻,年轻群体所占比例非常高,如图1所示。

2.人人网在实名制注册和认证确认控制方面做的较好,其用户身份的真实性相对微博更为可靠,并且其用户的人际关系也比较纯净,大多是双向之间的好友关系,不会出现类似新浪微博上超过千万粉丝的一些明星帐号。人人网官方去年底公布有2.2亿用户,平均每个用户有大约190个好友,并且80%用户在人人网留下了真实资料。根据人类学家罗宾·顿巴(Robin Dunbar)的研究,人类大脑可以维护朋友关系的最大数量为148人。要维护更多的朋友,意味着你需要摊薄本应花在另一部分朋友身上的时间和精力,而每个人的时间和精力都是非常有限和宝贵的。微博营销团队以及大量的刷粉军团、虚假微博红人的出现,使得微博用户数量众多,但是良莠不齐,难以体现真实的人际关系。

图2 上海交通大学用户好友数量分布

3.目前高校大学生最频繁访问的SNS网站就是人人网。根据我们对上海交通大学校园网的不完全统计,全校14%~18%的网站访问请求量都指向了人人网相关网站。我们近期做的统计显示,有52594名人人网用户明确的把自己的身份信息设定为上海交通大学并通过了网站认证核实。图2是分析了其中12721名上海交通大学用户的好友列表得出的统计图。

横坐标是好友列表(以间隔100为一个统计区间)数量,纵坐标是符合条件的区间用户数。统计显示,90%用户的好友数量在100人以上,80%的用户好友数量在600人以下,好友数量在200~400人的区间段的最多,占34%,所有用户的平均好友数量是401名,这个值明显高于之前提到的人人网平均水平,反映出上海交通大学的大学生交际活跃,人际关系网更复杂化。

对人人网社交网络用户的数据搜集和初步分析我们使用了Python语言编程来爬行实现。Python具有直观的语法和优秀且丰富的各类库软件支持,在网页爬虫、数据挖掘、机器学习和自然语言处理等领域得到广泛应用。如果想在短期内获得大量有价值的原始数据,使用Python无疑是最佳选择。

众所周知,SNS网站的存在基础是其用户之间互相交叉联系的各种关系。从一个用户出发,顺着这些关系节点一步步深度爬行会获得海量的人际关系网。在具体爬行过程中,要遍历所有关联节点,并控制爬行深度和方向,同时设定中止条件,避免爬行的范围无休止扩大。同时选取从若干个用户节点出发,采用多线程进行信息搜集,在耐心等待若干时间之后,就可以搜集到想要的信息。在具体实现过程中,要做好用户自动登录、页面内容解析处理、根据需要自动进行翻页、页面出错检测和控制、在对方服务器检测到爬行并采取措施控制之后要进行一段随机时间休眠并重新开始、对爬行的内容要实时保存并做好爬行队列的管理、避免出现同一个用户的重复信息抓取、控制爬行全过程中的内存使用。在若干个爬行线程全部结束之后,要对所有爬行结果进行统一归并,消除重复信息并根据分析需要进行下一步格式转换、存储和分析。

对于每一个用户的个人信息,比如ID、姓名、学校(城市)、头像等结构化信息完全可以使用传统的关系型数据库来存储。我们曾经多次测试过存储两亿条级别类似信息,并进行各种索引的创建(为了加速检索考虑),使用PostgreSQL数据库实际存储空间一般不超过200G Bytes。我们一台单机上跑PostgreSQL数据库里最大的库已接近6 T Bytes,数据条数超过70亿条,一直在线长期稳定运行。不论使用PostgreSQL Cluster,还是Oracle RAC、MySQL Cluster都可以长期高效存储这些结构化信息并提供高性能查询。

对于用户彼此之间的复杂人际关系信息,从分析计算的角度来考虑,更合适的是使用NoSQL非关系型数据库进行存储。在对社交网络的科学研究中,Redis和CouchDB等NoSQL技术都得到了广泛的使用。图数据库(Graph Database)也是NoSQL数据库的一个重要分支。传统的关系型数据库和其他NoSQL数据库不能最优化的存储社会关系数据,一方面每个节点包含的属性有多重,查询时需要大量的表联立查询,使用深度嵌套的SQL导致了较低的性能,无法实现高性能查询;另一方面图数据库针对图算法提供了很多高效的操作特性,这也是它在图计算中表现优异的原因,而社交网络分析正牵涉到大量的图计算。

Neo4j是一个用Java实现、完全兼容ACID的高性能图数据库。数据以一种针对图形网络进行过优化的格式保存,并且提供了广泛使用的REST接口,能够方便地集成到基于PHP、NET和JavaScript等语言环境里。Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。通过围绕图形进行数据建模,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图形的数据量没有任何关系。此外还提供了非常快的图形算法、推荐系统和OLAP风格的分析,在最短路径寻址、N度关系查找都有明显优势,而这一切在目前的RDBMS系统中都是无法实现的。

可以分析社交网络并进行可视化展示的软件目前也有不少,使用较多的有R language、NetMiner、Pajek、Visone、NetworkX、igraph library、Graphviz等。今后我们将会结合上海交通大学人人网用户的人际关系网,进一步探讨更深入的数据挖掘并进行一些有趣的分析,如两节点间最短路径的计算、出入度分析、子图的分析、图的直径计算,并结合实际应用场景,通过理论的计算来进行说明。

猜你喜欢
社交数据库用户
社交牛人症该怎么治
聪明人 往往很少社交
社交距离
你回避社交,真不是因为内向
数据库
关注用户
关注用户
数据库
关注用户
数据库