聂文苗
(湖南师范大学 教育科学学院,湖南 长沙410081)
随着互联网的迅速发展,网络信息量呈爆炸式增长,各个领域发生重大变化。在教育领域,面对海量、高频、多样化的数据资源,如何利用信息技术克服诸多问题、高效精准地获取目标数据成为人们关注的热点。2014年,教育部为加强教师队伍建设,全面提升教师信息技术应用能力,颁发了《中小学教师信息技术应用能力标准(试行)》(以下简称《能力标准》),该标准指出通过多种途径获取数字教育资源及掌握加工、利用和管理数字教育资源的工具与方法是提高信息技术应用能力的重要内容,也是信息化社会教师必备的专业能力。[1]这充分表明掌握获取教育资源的技术是加强教师信息技术运用能力与专业发展支持力的重要影响因素。网络爬虫提供了多样化信息获取与管理途径,因此,学习利用网络爬虫技术为信息化教育教学提供了条件,适应了教育信息化2.0的行动要求,深化信息技术助推教育教学改革。
目前,以“爬虫”为主题的研究侧重于技术应用,与教育相结合的文献很少,它潜在的教育领域价值没有得到有效发挥,尤其对于教师信息技术能力的提升。本研究旨在使读者理解网络爬虫概念、明确其独特优势、了解多层递阶爬虫工具的使用及对教师信息技术能力的作用,在一定程度上为教师提供了策略参考。
网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web信息采集器,是一种按照一定的规则自动下载网页的计算机程序或自动化脚本,是互联网关键技术之一。按照系统结构和实现细节,可以将网络爬虫分为通用型网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。[2]不同类型爬虫在爬取范围、运算方式等方面各具特色,可以将多种协作方式和不同类型爬虫结合,使其共同发挥作用。本研究中多层递阶工具适用于通用和聚焦爬虫。笔者总结了网络爬虫的优势,体现在以下三方面:
人们获取资源的方式仍停留在依赖传统的搜索引擎阶段。传统的通用搜索引擎作为辅助人们检索获取资源的工具成为用户访问万维网的入口,使用普遍但存在一定的局限性:①不同领域用户搜索后返回的结果往往包含大量无关内容,无法满足检索需求;②通用搜索引擎对结构化、信息密集的数据不敏感;③有限的搜索引擎服务器资源与无限的网络资源之间的矛盾加深。对教师而言,处理好教育资源需求与“滞后”信息技术应用能力之间的矛盾是信息化环境的必然要求。网络爬虫可以通过不同方式定向抓取多样化有效数据,弥补了传统搜索引擎的诸多不足。
由于以往数据资源获取受限,导致只能随机抽样采集数据达到“用最少数据得到最多信息”,而到了大数据时代,小数据时代的随机抽样已经失去了原有的意义,随之而来的“样本=总体”的全数据模式受到广泛认同。[3]教师为适应这种“让数据发声”新模式,必须克服传统观念的局限性,发展“用海量数据得到价值信息”的新思维,拓展其他符合现实性需求的技能。例如利用网络爬虫获取海量数据,使之具有更高使用价值,满足作为基于“技术理性”之上的教学能手的需求。
数据作为一种特殊资产,并不会随着使用而减少,相反,可以被不断处理来增加价值。我们强调生成并不意味着否定预设,教师需要获取某主题数据资源时,必须对爬取任务、数据分析和发现预测有一个清晰、理性的思考和安排,不能割裂相关阶段的连接。在传统教学中,教师已然习惯“拿来数据”,而不是实在地体验或感受数据从哪里来、到哪里去,为改变这种被动状态,避免获取数据同数据分析和预测阶段割裂,掌握多层递阶爬虫工具是一种可行之策。
2011年联合国教科文组织创建了具有影响力的《教师信息和传播技术能力标准》。欧洲组织根据教育发展现状简化了该标准,提出了符合欧洲实际特点的《eTQF教师信息技术能力框架》,包括四个一级指标和十三个二级指标,其中,将教师的技术能力发展水平分为入门工具、基本工具、普适工具、复杂工具四个阶段。[4]这种划分适应了教师能力发展规律,也为各种技术工具的层级分类提供了参照。爬虫工具作为爬虫技术(基于Python)在实践探索中的主要适应性措施,在资源获取与管理中占据着重要地位。结合网络爬虫的实际应用特点,笔者将入门工具、基本工具、普适工具、复杂工具统称为“多层递阶爬虫工具”,体现爬虫技术能力发展的四种层次阶段,具体如图1所示。每层级工具之间过渡特征明显,总体呈梯度上升,又都对教师信息技术能力提升有影响,且影响维度具有一致性。
图1 多层递阶爬虫工具作用模型
在爬虫技术能力发展中,入门工具主要指获取和管理定向规模数据,适合做教师学习入口,属于轻量级的爬虫;基本工具是指教师掌握一定的运用技巧,熟悉各种下载与解析方法的特点,以“通用爬虫框架”为解决问题的利器;普适工具是借助于“已造轮子”——造数等新一代智能云爬虫工具来快速地寻找并获取资源;复杂工具是以重量级爬虫——Scrapy框架为代表,它的应用已到达爬虫技能的高度发展水平,教师能适时适需修改编写各组件内容以适应特殊主题或满足具体情境的需要。各层级爬虫工具的方法指导如表1所示。核心思想都是按照“发送请求—获得页面—解析页面—抽取并存储内容”的流程进行,体现了比较完整的工具链。在由浅入深、由简单到复杂的循序渐进过程中,各级工具之间的过渡特征明显,表现为:①入门到基本工具的通用化,即将解析与翻页的过程抽象成具有特定功能、可重用的函数,以此为通用模板实现代码复用;②基本到普适工具的智能化,即运用已搭建平台持续积累数据资源、智能挖掘结构化数据、关联数据价值;③普适到复杂工具的工程化,即通过各种组件的模块化来增强爬虫性能。当然,具体问题具体分析,比如教师结合性能、使用难度、安装难度三方面特征选择合适的解析方法,Xpath性能快,使用较复杂,安装相对困难,一般通过下载与计算机版本匹配的whl文件形式进行安装,过程虽复杂但不会出现错误。
表1 各层级爬虫工具指导
不同阶段爬虫工具使用难度和实现细节有差异,但都有助于提升教师的信息技术应用能力。从教师工作角度来探讨,其主要体现在教学、学习方式和专业发展三方面,这与《能力标准》中强调的内容相符合。
(1)“内容开发+活动组织”改进课堂教学
在教学方面,爬虫作为一项出现较早但近几年才被广泛熟知的技术,若合理融入到教师的教育工作中,不仅能够通过提高技术摄入量来提升教师的技术素养,它所爬取的优质资源还可作为开发教学内容的重要补充、组织教学活动的基本线索。从生成的角度来讲,教师首先将所获取初始、凌乱、孤立的大规模数据整理分析形成自身的理解,其次对数据分析结果的意义形成自身的解读,再次对爬取数据的分析结论内容重新组合,形成新的知识整体(即具有新的模式或结构的知识)。在这种递进过程中,可以开发挖掘和合理利用丰富的资源成果,着眼知识整体的基础上做适当扩展,从而为学生提供感受不同知识间内在关联的机会和活动情境,使课堂变得生机勃勃,提升了教师教育教学能力。同时,也极易引发知识创新,从而影响教育活动组织,为信息化教学创造无限可能性。
(2)“合作共享+自主探索”创新学习方式
教师作为“自强标兵”,其信息技术应用能力不能仅局限于计算机等硬件设备和一些基础性的简单操作,如Word文档、PPT课件,有必要发展适应性技能。教师根据需要选择合适的爬虫方法,获取杂乱的大规模数据并处理,并转化为个人知识进一步加工,从而由知识的“容器”转变为知识的“发生器”,培养了自主学习能力,并乐于分享加工成果,形成合作共享、自主探索的学习方式。这样既在合作交流中发挥集体智慧、增强凝聚力,又在多元化和全面性中提升自己的信息素养,使教师能够体验到自主学习带来的喜悦和成就感。除此之外,也为学生树立了榜样作用,启迪学生以教师掌握的技术手段为模范,尝试性地进行爬虫技术的应用,逐渐适应自主检索和获取学习资源的过程,使自己的学习方式不再单一,更加灵活方便,促进学习的良性循环。
(3)“群体建设+自我反思”共促专业发展
教师的专业内涵并不是封闭、静态、一劳永逸的,需要经常对专业知识和内容进行动态更新,这就对教师信息技术能力提出了新要求。教师利用爬虫技术手段整合多方资源,经处理与分析后作为知识深化的重要渠道,可以应用于解决现实复杂问题,循序渐进增长专业知识,并在此基础上对专业发展进行再认识、再思考,然后通过反思这种理性智慧,对自己的教育观念和专业内涵进行客观、理性的认识和判断,形成对现象和问题的独立思考和创造性见解。当然,知识的获取与存储不是目的,知识的创新与分享才是目的。单个教师积极寻找新内容和新策略解决所面临的专业问题,分享从爬虫中受益的成果,这容易产生“群体影响”,使教师的角色定位从“知识传授者”向“研究者”转变,进而改善社会形象,有利于建设新型教师队伍,增强主动运用信息技术促进专业发展的意识,从而使教师工作获得生命力,改变职业生存方式,增强职业竞争力。
信息技术能力提升是教师继续学习的重要表现。教师借助多层递阶爬虫工具“玩转数据”,高效获取、加工、管理“个性资源”,促进专业成长和信息技术能力提升。当然,网络爬虫仍然面临着很多的挑战,例如网页链接之间的复杂关系,这就需要在不断发现问题的过程中解决问题,逐步完善爬虫程序和工具,从而为教师提供精准高效的途径,促进教师信息技术应用能力的发展。