教育行业IPv6资源共享与监测的平台设计

2019-10-15 09:02封寒松
中国教育网络 2019年8期
关键词:上海交通大学爬虫搜索引擎

近年来,随着IPv6行动计划方案的出台,我国大力推进IPv6规模部署,力求在未来能够抢占下一代互联网的先机。中国教育和科研计算机网CERNET目前拥有上百万的大规模IPv6用户群体,是我国研究下一代互联网技术、开发重大应用、推动下一代互联网产业发展的重要基础试验设施。

基于CERENT庞大的IPv6用户群体,上海交通大学搭建了CERENT全国教育行业IPv6资源共享与监测平台,在分布式架构和自行开发的IPv6爬虫和搜索引擎的基础上,实现了对全国各省市/学校的IPv6网站情况的持续监测,通过采集各类数据,提供多种数据分析和使用场景。

项目概况

通过该项目,能够实现对全国各省市/学校网站域名的IPv4/IPv6解析动态监测;实现对全国各省市/学校申请IPv6地址段的动态管理;实现对IPv6网站的存活性和访问性能的持续动态监测,形成全国教育系统的IPv6资源目录列表;提供全国教育系统IPv6网站的全文搜索/网页源码快照/网页截图;提供分类和全局的各类IPv6发展指标动态排名;提供分类和全局的各类IPv6发展指标趋势分析;完成对全国教育行业IPv6网站的自动发现和自我增长机制;实现和IPDB(高等教育行业网络信息基础数据库)和GEDB(教育部信息资产管理平台)的数据对接等。

全国教育行业IPv6资源共享与监测平台的总体目标有以下几个方面:

上海交通大学

1.按照一定的时间周期,对十万量级网站进行DNS监测、存活监测与首页采集;2.按照单次检索时间不超过3秒,对千万量级网页的全文检索;3.对十万量级的网页进行周期性截图,每轮时间不超过1天;4.对IPv6的动态排名机制与历史记录统计,提供可选择的、不同粒度的可视化报表;5.对IPDB与GEDB的数据每天进行同步。

技术方案

全国教育行业IPv6资源共享与监测平台共分为四个模块:1.Web前端模块。Web模块使用Vue.js和webpack作为项目的前端框架;2.Web后端模块。Web后端模块使用基于Python的Django框架与Django-Rest-API框架进行开发;3.爬虫模块。爬虫部分使用自研的快速抓取引擎,实现高速抓取;4.搜索引擎模块。使用ElasticSearch集群,配合中文分词进行搜索引擎模块的构建。

项目特色

本项目依托IPDB与GEDB,对全国高校的IPv6网站进行了即时缓存。从宏观视角对教育网IPv6站点普及情况能够做定期检测、统计并形成IPv6趋势变化报表,同时利用上海交通大学的IPv6网络资源与计算资源,对IPv6站点进行数据爬取、数据存储、数据索引,完成了首个关注于教育类IPv6站点的搜索引擎。

项目优势在于IPDB作为中国高等教育行业网络信息基础数据库,具有国内最权威的高校网站数据。同时在GEDB的开发过程中,开发团队积累了对大规模爬虫、大规模数据存储、高并发网络请求的经验,在上海交通大学网络信息中心的支持下顺利完成。

猜你喜欢
上海交通大学爬虫搜索引擎
上海交通大学
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
世界表情符号日
上海交通大学参加机器人比赛
上海交通大学附属第六人民医院胸外科简介
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术
网络搜索引擎亟待规范
基于Lucene搜索引擎的研究