为校园网IPv6监测提供服务

2019-10-15 09:02封寒松

中国教育网络 2019年8期

关键词：教育网络爬虫服务器

在IPv6网络推行的初期，用于监控学校的网络状况与网站运行状态。

日前，本刊采访了在第四届下一代互联网技术创新大赛中荣获乙组三等奖的项目团队队长封寒松，针对他们开发的《全国教育行业IPv6资源共享与监测平台》这一项目进行了详细介绍。

《中国教育网络》：请介绍《全国教育行业IPv6资源共享与监测平台》这一项目的基本情况与最新进展？

封寒松:本项目基于分布式架构和自行开发的IPv6爬虫和搜索引擎，实现了对全国各省市/学校的IPv6网站情况持续开展监测。

我们计划逐步开展以下工作，包括对网站的历史爬虫结果的留存与优化，对非HTML数据（如Office文件、PDF文件）的解析，网站前端的可视化效果优化与GEDB数据实现定期同步等。

《中国教育网络》：开展该项目的初衷是什么？目前的应用效果怎样？

封寒松:开展该项目的最初目的是用于统计上海市内高校的IPv6网站的运行情况。作为上海交大网络中心统计工作的数据来源，项目可在IPv6网络推行的初期，用于监控学校的网络状况与网站运行状态，作为即时的监控和分析参考。目前项目运行状况良好，并在持续更新中。

《中国教育网络》：在应用IPv6技术进行该项目时，有何难点？如何解决？

封寒松:难点在于大量的高并发请求，对于服务器性能要求较高。我们在对代码进行优化的同时，也更换了可以满足项目需要的服务器。

具体而言，本平台的技术构建难点包括大量域名的DNS探测、对海量网站的高频存活检测、对海量网站做定期截图、对系统内网站URL抓取/收录/检索、对大量网站的历史快照和DNS解析记录进行统计等。经过多次反复调试，我们进行了以下可行性分析：

1.对于DNS检测：使用自研的DNS反向代理服务器（PunkDNS）。将DNS检测时产生的DNS流量负载均衡到多台后端DNS服务器上，可以解决单台DNS服务器性能不够的问题。

第四届下一代互联网技术创新大赛现场

2.对于大量网站的高频检测：使用自研的抓取引擎。该抓取引擎现负责全国教育系统20万网站的存活检测，已经在线上系统部署，稳定性和扩展性已得到检验。

3.对于大量网站的定期截图：使用对于截图需求优化过的Chromium headless浏览器实现对网站的定期截图。

4.对大量URL的抓取/收录/检索：使用自研爬虫引擎与开源的ElasticSearch实现。经过在实际系统应用，该架构能够解决千万量级的URL的抓取/收录/检索。

《中国教育网络》：团队成员如何分工协作？

封寒松:团队由上海交通大学网络信息中心副主任姜开达与东南大学计算机科学与工程学院讲师杨望带队，分别主持推动了GEDB与IPDB这两大平台的开发和落地使用。团队成员主要有三人，分别负责网站的前后端开发与项目运维，主要包括网站平台开发、新旧功能维护、存入数据管理、服务器嗅探，全国教育类站点的存活监控、对网站进行安全监测等一系列工作。

在GEDB的开发过程中，成员工作内容划分清楚，在姜老师的带领下积极沟通，保证了项目开发的稳定与迅速迭代。同时，团队累计了一系列的知识，目前有自研的高并发爬虫框架、一套较为完备的爬虫、入库、索引体系，一套对定时任务统计、大规模数据存储的解决方案。目前已经完成IPDB与网站后台数据的对接、网站前端的大致设计、GEDB爬虫框架的移植。