基于百度贴吧的学习者群体挖掘研究

2019-05-30 03:31金涛丁国栋焦清局
中国教育信息化·高教职教 2019年4期
关键词:聚类

金涛 丁国栋 焦清局

摘   要:随着线上学习者数量的增多,网络学习社区成为众多学习者寻求帮助、共享资源的重要学习平台。虽然向社区中的学习者推荐学习伙伴一定程度上能够解决学习者学习需求,但存在一定的缺陷。文章尝试性地提出了学习群体推荐新思路,并给出了一种可供参考的简便方法。以百度贴吧为例,利用网络爬虫和社会网络分析软件gephi对贴吧中的会员进行了兴趣聚类,发现了该贴吧中存在的兴趣群体,并得到了各群体的兴趣特点,证明此方法的可行性。

关键词:百度贴吧;聚类;学习群体;学习社区;gephi

中图分类号:G434 文献标志码:A 文章编号:1673-8454(2019)07-0057-06

一、引言

有关统计表明,截至2018年6月,我国网民规模已超8亿,在线教育用户规模达到1.72亿,较2017年末增加1668万人,增长率为10.7%。[1]随着网民规模和在线教育用户的扩大,越来越多的人将会选择在线学习,而大多数情况下在线学习是处于一种师生准分离状态,学习者很难独立完成学习任务,网络学习社区无疑成为大多数人的选择。网络学习社区为大家网上学习讨论、寻求帮助、分享学习心得、共享学习资源提供了一个非常重要的学习平台。当网络社区学习者规模较小时,学习者很容易结识社区中兴趣类似的学习伙伴,解决自己在学习过程中遇到的一些问题,来满足自己的学习需求。然而,当社区学习者规模较大时,寻找社区中兴趣相似的学习伙伴问题逐渐凸显。这时,如何帮助学习者发现兴趣相似的学习伙伴成为在线学习研究热点。学习伙伴推荐的研究一定程度上改善了这一问题,但是难免会有缺陷:推荐的学习伙伴能否解决学习者的困惑,推荐多少学习伙伴才能满足学习者的需求,学习者能否相对容易地找到自己所需要的学习伙伴。针对这些问题,文章提出了学习社团推荐方法,即将学习社区成员进行兴趣聚类,向学习者推荐与自己兴趣类似的学习社团,进而更好地满足学习者的在线学习需求。因此如何对网络社区中的学习者进行学习社团划分,逐渐成为一项备受关注的研究问题。而已有的学習社团划分大多过于复杂,操作烦琐,可借鉴性较差,针对这一问题,文章以百度贴吧某个主题吧为例,给出了一种相对简单易操作的学习社团划分方法,尝试为学习社团划分研究提供一种参考思路。

百度贴吧作为最大的中文学习社区,就在线学习而言,有着独特的优势。文章从某个主题贴吧的关注会员入手,将他们关注的贴吧作为其兴趣的代表进行统计,如果两个会员关注的贴吧相似度很高,那么他们的兴趣爱好在很大程度上也是相似的,可以据此将贴吧会员进行兴趣聚类,得到贴吧会员的社团状况以及各自社团的兴趣特点。对贴吧会员进行兴趣聚类,一方面方便新成员选择自己喜欢的学习社团,也可以进行学习社团推荐,另一方面也有助于原有学习者之间的交流讨论,提高在线学习的积极性;同时有助于社区管理员更有针对性地进行学习评价,组织学习活动,进行学习管理,根据不同群体成员的实际情况提供个性化的群体学习指导。

二、研究现状

对国内学习者群体的研究进行文献检索时,发现已有的学习者群体研究主要集中在三个方面:

第一,对学习者群体进行行为分析与建模,比较群体之间的差异,分析学习者群体动机。如江波等利用某国外虚拟仿真实验课程学习过程数据集,采用层次聚类方法,对学习者的行为模式进行了划分,并分析了不同模式群体在学习行为上的差异以及学习行为模式与学习效果的关系,根据学习行为,划分了“顺其自然学习群体”、“积极学习群体”以及“消极学习群体”三类学习行为模式群体;[2]王晓玉以网络学习的主要人群——在校大学生为研究对象,从时间任务管理策略、反思总结策略、合作交流策略三方面对青海省某所大学的在校生进行了问卷调查,通过收集性别、学科、民族等数据分析了大学生群体网络学习策略差异的影响因素;[3]李运福等以Felder-Silverman学习风格为依据,对参与某门课程的学习群体进行问卷调查,收集学习群体学习风格数据,然后利用SPSS对学习风格数据进行K均值聚类,通过单因素方差分析法对具有不同学习风格的学习群体的动力性特征进行了差异分析,最后通过归纳总结得到不同学习群体网络学习动力性的特征。[4]

第二,对学校教育与网络学习现状展开调查,提出新的学习理论。牟智佳等以edX上的一门MOOC课程学习行为数据为分析对象,对学习者行为指标进行聚类分析,基于K均值算法将学习者群体分成了三种类型,即以视频学习和评价为主、以视频学习和文本学习为主、以文本学习和学习评价为主的学习群体。[5]郑星通过对苏州市钢琴学习者群体进行系统的问卷调查,对教学模式、教材选用、教学评价、学生对比赛和考试的参与度予以肯定,指出了学生专业参差不齐、练琴时间安排不合理、钢琴伴奏能力弱等若干问题,最后提出改善钢琴学习群体教育对策;[6]阮高峰等在介绍同侪互助的概念及应用现状的基础上提出同侪辅助学习的思想,基于该思想,在校园网的支持下构建了一个利用网络互助群体促进课堂教学的案例。[7]

第三,分析学习者群体关系,发现或者挖掘学习者群体,这方面的研究内容比较多,例如算法设计、模型设计、技术创新等。如潘理等通过总结社交网络群体研究进展,介绍群体发现时出现的问题,阐述了基于个体和综合属性与结构特征的群体发现方法,从特征选取和检测算法两个方面介绍了自己全新的群体发现方法。[8]曾珂提出了基于数据挖掘的微博用户兴趣群体发现方法与进行聚类分析的数据标准化方法,该方法通过收集新浪微博用户关注的数据来确定用户的兴趣爱好,再使用数据挖掘工具发现用户兴趣之间的关系,试图建立起一种能够反映用户多重兴趣,从而发现用户兴趣群体的方法。[9]

从上述文献综述中尚未发现相对简单、易实施、可借鉴性高的群体发现方案,为此文章尝试提出了使用网络爬虫和社会网络分析软件gephi相结合的方法,以百度贴吧为例进行了实验。结果表明,当学习者群体规模较大时,采用该方法能够发现较多兴趣类似的学习者群体,并得到各自群体的主要兴趣特点,发现效果较好,可以向有类似兴趣的学习者进行推荐。

三、研究设计

1.研究框架

通常社团也可以被称为群、聚类或模块,是网络中一群节点或边的集合,社团内部连接较为紧密,而社团间的连接却相对稀疏。[10]文章提到的群体和社团同义,学习者群体指的是具有共同爱好所联系起来的贴吧会员的集合。度是用来描述和衡量一个节点结构性质的最基本的概念,无项图中一个节点的度定义为这个节点所拥有的边数目。通常意义上,节点的度值越大,则节点在网络中的地位越重要。反之,度值越小的点,对于整个网络的作用和影响越小。[11]文章中所说的节点表示的是贴吧会员ID,边表示会员之间的关系,度则指的是节点之间的边数。

本次研究首先采用网络爬虫来获取所需要的数据,经过Excel软件和python算法处理后,再使用gephi对贴吧群体进行兴趣聚类。贴吧的学习者群体挖掘研究将重点关注两个方面的问题:第一,能否成功将贴吧会员进行兴趣聚类?若能,效果如何?第二,贴吧会员可以分为哪几种类型?每类群体兴趣特征是什么?对这两方面问题的回答,有望提供一种学习者群体聚类研究的新思路。

2.研究对象

研究对象选取的是百度贴吧的“python吧”,该主题吧拥有规模较大的会员数量,且各会员所关注的兴趣贴吧数量与一般主题吧相比明显较多,如图1所示,会员关注的兴趣贴吧达到20个的最多,有3760人,大部分会员关注的贴吧集中在16 至20个之间,占全部会员数量的60.85%,关注贴吧在10个以上的会员达到6925人,占比73.16%。由此可以看出,绝大部分会员的兴趣爱好较为广泛。实际上,由于百度贴吧中仅显示每个成员关注的前20个兴趣贴吧,所以,有理由相信,学习者实际关注的贴吧数量更多。因此,选取“python吧”作为研究对象较符合一般学习者兴趣爱好广泛的特点,也便于对学习者群体进行兴趣聚类。

3.数据的收集与处理

首先通过网络爬虫获取“python吧”会员所喜爱的贴吧,接下来利用Excel软件对数据进行预处理,通过预先编写的算法实现数据存储格式的转换,从而得到gephi所需要的csv类型数据。

(1)数据获取

在“python吧”中找到会员的主页面,点击右侧的“他在百度”就会转到“他在贴吧”一栏,该栏会显示贴吧会员的相关信息。以“python吧”为例,随机选取一位会员,他的页面信息如图2所示,他所喜爱的贴吧便是本次研究需要获取的数据。

在通过网络爬虫获取贴吧中的数据时,有可能出现“网络中断”或者“服务器拒绝访问”等现象,重新获取数据就很有可能出现数据重复或者数据遗漏等问题,针对这一问题本次对网络爬虫进行了分类设计,由于贴吧会员“他在贴吧”页面的链接是固定的,可以先把会员信息页面链接一次性获取,然后再按照所获取的页面链接获得会员所喜爱的贴吧数据。具体实现过程如图3所示,通过爬虫“NetSpider1”获取所有会员所在页面的链接,对链接进行保存和编号,接下来,通过爬虫“NetSpider2”获得对应的贴吧页面数据,并将其保存。由于爬虫“NetSpider2”获取网页数据时间可能较长,一旦出现“网络中断”等问题,这时仅需找到对应的链接编号,从该链接开始重新启动爬虫即可。

图3中考虑到时间和网络原因,在获取数据的过程中没有直接解析出所需要贴吧数据,而是选择先保存到本地,然后再进行数据处理,这样可以避免再次发生网络中断或者服务器拒绝连接情况,效率也将大大提升。获取到的数据导入Excel后如图4所示,以行为单位,每行第一个单元格是会员的昵称,其余为该会员所喜爱的贴吧。

(2)数据预处理

首先需要通过人工的方式将图4表格中程序自动注册的会员进行剔除,之后将每位会员都关注的“python吧”予以剔除,因为这部分数据虽然存在,但实际上是并不需要的,最終共有9465位有效的会员贴吧数据作为研究对象。最后通过python程序将图5右侧的数据转换成左侧的网络存储文本文件。其中Source表示原节点,即贴吧会员编号,Target表示目标节点,即目标会员ID,Weight表示权重,即两个会员之间所关注相同贴吧的数量。由于每位会员都对应着唯一的编号,通过该文本数据很容易发现会员彼此之间的关系。

由于gephi支持以边表格的形式导入边数据,将图5右侧的数据导入Excel后再添加三列id、label、type,分别表示边的ID、边的label和图的类型,最后将数据另存为csv格式文件即可。

四、学习者群体挖掘分析

1.整体网络分析

将csv文件导入gephi0.9中后选择“Openrd”布局算法,运行相关命令后便得到表1所示的整体网络属性。该网络拥有7119个节点、291463条边,就学习社区网络而言,该网络规模相对较大。在网络中模块化数值越大分组越显著,群组发现效果越好,群组结构越清晰。平均路径长度值越小,图中节点之间的联系越紧密。从表1中可以发现,python吧的模块化数值和模块化数量较高,说明python吧群组发现效果较好,群组结构较为清晰。python吧的网络直径为9,表明该社区中任意两个成员之间最多需要9步便可以相互联系,即两个成员之间最大距离是9,网络平均距离为2.964,说明该社区中任意两个成员之间只需要通过3个成员便可以相互认识,该网络具有小世界特性。虽然该网络规模较大,但网络密度0.012明显较低,说明该社区中的成员交流互动比较欠缺,即使存在共同的兴趣,彼此知之甚少,大多处于分散状态。

2.群组发现分析

群组发现,也称作团体发现,是指找到一个整体网络,分析网络中存在多少群组,每个群组是什么关系,群组内部成员之间的关系具有怎样的特点,一个群组成员和另一组成员之间的关系具有怎样的特点等。[12]在gephi中模块化命令是根据图的连接关系对节点进行聚类,类型相同的节点会增加一个字段,[13]用相同的数字表示,可以在图中给各类群体选择一种颜色,以相互区别,提高可视化程度。通过模块化命令并结合“Openrd”布局算法得到如图6左侧所示的python吧学习者群体分布图,以及各类群体的规模、编号及其对应的色块。

由图6可以发现G3(编号3)、G0(编号0)、G1(编号1)的群体规模较大,大量会员都聚集在此三类中,其次是G7、G4、G5、G15、G30等比例较小的群体。实际上,通过模块化命令后,成功将python吧中的会员分为了36类,而前7类占据成员总数的97.85%,能够反映python吧学习者群体的整体情况,故文章选取前7类进行重点分析。

如表2所示,利用gephi对python吧中7119位会员成功进行了聚类,但是仍有2346位会员游离在表2中的36类团体之外。由于百度贴吧拥有海量的主题吧,部分会员没有共同关注的贴吧是极有可能的,存在小部分兴趣特别的会员。由于各类群体中的会员较多,为深入分析群体的兴趣特点,选择规模居于中间的G4类作为研究对象。在gephi中顺序运行“统计->分区->Modularity class(节点)”命令后,可以显示指定部分群体的节点图。当图中节点过多时,可以顺序使用gephi中的“拓扑->度范围”中的过滤命令,过滤掉度值较小的部分节点,保留度值范围较大的部分节点作为分析研究的对象。如图7所示,各节点通过编号唯一的边相连,而边L344992所连接的两个节点与其他节点之间的连接关系显然不同,这说明在G4内部,存在着两种典型兴趣趋向的小群体。

将图7中的数据导出后,结合csv格式文件,得到了各节点之间的关系,如表3所示。总的来说,G4类群体对考研相关的贴吧十分关注,可以推测G4群体中的成员因这一共同话题而聚集在一起。正如图7所示,边“L344992”代表的两位会员与其他成员之间略有差异,娱乐类的网络游戏受到了这两位成员的关注。

类似的对其他群体进行上述分析,如表4所示的G15类,便可得到python吧各群体的共同兴趣,结果证明,通过网络爬虫和gephi相结合的方法,能够在较大的社区中探寻到较多的学习者群体,能够发现各群体的共同兴趣,效果较好。

3.群组特点分析

通过上述群组发现方法,将python吧学习者分成了36个兴趣群体,总的来说,各个群体之间兴趣偏好既存在差别也有一定联系。首先选取前7大类进行综合分析,以进一步了解python吧中主要学习者群体的兴趣特点,然后从宏观上对群体进行分类,以深入了解各兴趣群体之间存在的差异与联系,从而加深对学习群体分布状况以及成员兴趣偏好的认识。

作為会员人数最多的G3类,其共同特点是乐于关注娱乐类信息,如“李毅吧”、“lol吧”等,也显露出了对计算机语言的兴趣,如共同关注的“c语言吧”。虽然G3类学习者数量处于首位,但其共同的兴趣点较少,这在群体内讨论交流时话题引领和深入比较困难。学习者数量居于第二位的G0类群体共同兴趣比较单一,均表现出对计算机语言的热爱,如“php吧”、“Java吧”、“C语言吧”、“c++吧”等。对于计算机语言方面的探讨,该群体内的成员很容易找到共同话题。和G0类不同的是G1类,除了对计算机语言方面比较感兴趣外,也关注计算机硬件方面的信息如“显卡吧”等,这类群体可能对计算机整体性能有较多的关注。虽然G7类群体学习者规模仅居于第四位,但是其共同兴趣呈现出多样化特点,总的来说表现在三方面,即计算机语言、计算机软件、休闲与美食。计算机语言的种类与上述几类相比更加丰富,计算机软件方面偏爱制图与办公软件,如“Office吧”、“Photoshop吧”等,在休闲与美食方面,“电影吧”与“海鲜吧”受到了该群体成员的关注。可见G7类群体兴趣爱好比较广泛,乐于关注不同种类事物的信息。G4类群体的共同兴趣体现在表3中,可以发现该类群体主要热衷于考研相关信息,可以推测该类群体中存在着一定规模的考研群体,他们十分重视考研资料与信息的收集。G5类群体共同兴趣点较集中,热爱机械设计方面的信息,如“solidworks吧”、“机械设计吧”、“机械制图吧”等,可以预测该群体中的成员主要以有关专业的学生群体或者相关工作者为主,他们需要获取专业相关信息作为学习参考或指导工作。前7类中规模最小的为G15类,虽然该群体中仅有46位成员,但该群体共同的兴趣点却是最多的,如表4所示,高校主题贴吧受到了该群体成员的共同关注,但该类群体兴趣种类较为单一,这类群体热衷于高校信息,应为高校中的学生或者媒体中心,也有可能是政府机构或者社会媒体组织。

根据各群体兴趣爱好倾向不同,将python吧主要群体分成了4类,如表5所示。第一类:实用型群体,该类群体的兴趣特点是热衷于专业或者行业信息,G0类、G5类、G15类群体便是典型代表,三类群体中共有1906位成员。第二类:知识型群体,该类群体热衷于获取知识的同时对生活与专业信息也比较感兴趣,包括G1类和G4类群体,两类群体共有1725位成员。第三类:均衡型群体,该类群体兴趣爱好较为广泛,没有特别明显的兴趣偏好,对生活、专业、美食、休闲等多方面均有兴趣,G7类群体很显然属于此类,共有381位成员。第四类:物质型群体,该类群体兴趣爱好偏向休闲娱乐,也关注一些知识方面的信息,G3类群体便属于此类,该类群体中有2954位成员。

如表5所示,就单个群体规模而言,物质型群体居于首位,实用型其次,知识型位列第三,均衡型排在最后。就群体分布而言,实用型群体和均衡型群体共同占据主要地位,这符合一般学习社区的特点,有利于社区营造良好的学习氛围,便于学习者寻求学习信息,获得学习帮助。尽管如此,实用型群体和均衡型群体的单个优势并不明显,物质型群体无论是组成还是规模均优于实用型或者均衡型群体,这对社区学习氛围、话题导向等方面的建设产生一定影响。总体上,该社区中的学习者仍旧是以实用型和知识型为主,物质型其次。然而就推荐学习群体而言,均衡型群体却是不可或缺的,其广泛的兴趣偏好一定程度上能够满足部分学习者信息咨询、交流讨论等需求,而就知识或者专业深度来看,知识型和专业型的优势明显优于均衡型。

参考文献:

[1]CNNIC.第42次《中国互联网络发展状况统计报告》[R].

[2]江波,高明,陈朝阳.建构学习行为模式发现与学习效果关系研究——基于虛拟仿真的学习分析[J].远程教育杂志,2018(4):100-102.

[3]王晓玉.青海大学生网络学习群体差异研究[J].中国现代教育装备,2017(23):95-96.

[4]李运福,傅钢善.网络环境下学习者动力性特征群体差异研究[J].中国远程教育,2014(7):33-36.

[5]牟智佳,武法提.MOOC学习结果预测指标探索与学习群体特征分析[J].现代远程教育研究,2017(3):64-65.

[6]郑星.苏州市钢琴学习群体教育现状与对策研究[D].苏州大学,2016:40-44.

[7]阮高峰,林叶郁.同侪辅助学习模式及网络互助学习群体构建实践[J].中国电化教育,2006(11):34-37.

[8]潘理,吴鹏,黄丹华.在线社交网络群体发现研究进展[J].电子与信息学报,2017(9):2097-2107.

[9]曾珂.基于数据挖掘的微博用户兴趣群体发现与分类[D].华中师范大学,2014:13-23.

[10]叶祺.大规模网络的社团发现与多层次可视化分析[D].北京邮电大学,2011:63-64.

[11]赵延乐.基于复杂网络的链路预测研究[D].河北大学,2014:7-8.

[12]邓君,马晓君,毕强.社会网络分析工具Ucinet和Gephi的比较研究[J].情报理论与实践,2014(8):133-138.

[13]刘勇,杜一.网络数据可视化与分析利器Gephi中文教程[M].北京:电子工业出版社,2017.1:172-175.

(编辑:王天鹏)

猜你喜欢
聚类
基于K-means聚类的车-地无线通信场强研究
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
条纹颜色分离与聚类
基于Spark平台的K-means聚类算法改进及并行化实现
局部子空间聚类
基于最小圆覆盖的海上突发事件空间聚类研究
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
基于熵权和有序聚类的房地产周期分析