教育行业IPv6资源共享与监测的平台设计

2019-10-15 09:02:32封寒松

中国教育网络 2019年8期

关键词：爬虫上海交通大学搜索引擎

近年来，随着IPv6行动计划方案的出台，我国大力推进IPv6规模部署，力求在未来能够抢占下一代互联网的先机。中国教育和科研计算机网CERNET目前拥有上百万的大规模IPv6用户群体，是我国研究下一代互联网技术、开发重大应用、推动下一代互联网产业发展的重要基础试验设施。

基于CERENT庞大的IPv6用户群体，上海交通大学搭建了CERENT全国教育行业IPv6资源共享与监测平台，在分布式架构和自行开发的IPv6爬虫和搜索引擎的基础上，实现了对全国各省市/学校的IPv6网站情况的持续监测，通过采集各类数据，提供多种数据分析和使用场景。

项目概况

通过该项目，能够实现对全国各省市/学校网站域名的IPv4/IPv6解析动态监测；实现对全国各省市/学校申请IPv6地址段的动态管理；实现对IPv6网站的存活性和访问性能的持续动态监测，形成全国教育系统的IPv6资源目录列表；提供全国教育系统IPv6网站的全文搜索/网页源码快照/网页截图；提供分类和全局的各类IPv6发展指标动态排名；提供分类和全局的各类IPv6发展指标趋势分析；完成对全国教育行业IPv6网站的自动发现和自我增长机制；实现和IPDB（高等教育行业网络信息基础数据库）和GEDB（教育部信息资产管理平台）的数据对接等。

全国教育行业IPv6资源共享与监测平台的总体目标有以下几个方面：

上海交通大学

1.按照一定的时间周期，对十万量级网站进行DNS监测、存活监测与首页采集；2.按照单次检索时间不超过3秒，对千万量级网页的全文检索；3.对十万量级的网页进行周期性截图，每轮时间不超过1天；4.对IPv6的动态排名机制与历史记录统计，提供可选择的、不同粒度的可视化报表；5.对IPDB与GEDB的数据每天进行同步。

技术方案

全国教育行业IPv6资源共享与监测平台共分为四个模块：1.Web前端模块。Web模块使用Vue.js和webpack作为项目的前端框架；2.Web后端模块。Web后端模块使用基于Python的Django框架与Django-Rest-API框架进行开发；3.爬虫模块。爬虫部分使用自研的快速抓取引擎，实现高速抓取；4.搜索引擎模块。使用ElasticSearch集群，配合中文分词进行搜索引擎模块的构建。

项目特色

本项目依托IPDB与GEDB，对全国高校的IPv6网站进行了即时缓存。从宏观视角对教育网IPv6站点普及情况能够做定期检测、统计并形成IPv6趋势变化报表，同时利用上海交通大学的IPv6网络资源与计算资源，对IPv6站点进行数据爬取、数据存储、数据索引，完成了首个关注于教育类IPv6站点的搜索引擎。

项目优势在于IPDB作为中国高等教育行业网络信息基础数据库，具有国内最权威的高校网站数据。同时在GEDB的开发过程中，开发团队积累了对大规模爬虫、大规模数据存储、高并发网络请求的经验，在上海交通大学网络信息中心的支持下顺利完成。

猜你喜欢

爬虫上海交通大学搜索引擎

上海交通大学

电气自动化(2022年2期)2023-01-07 03:51:56

利用网络爬虫技术验证房地产灰犀牛之说

房地产导刊(2022年10期)2022-10-18 08:03:52

基于Python的网络爬虫和反爬虫技术研究

现代信息科技(2021年21期)2021-05-07 02:54:12

上海交通大学参加机器人比赛

新世纪智能(英语备考)(2019年4期)2019-06-26 00:49:08

利用爬虫技术的Geo-Gnutel la VANET流量采集

电子测试(2018年1期)2018-04-18 11:53:04

大数据环境下基于python的网络爬虫技术

电子制作(2017年9期)2017-04-17 03:00:46

网络搜索引擎亟待规范

中国卫生(2015年12期)2015-11-10 05:13:38

基于Nutch的医疗搜索引擎的研究与开发

新疆大学学报(自然科学版)(中英文)(2014年2期)2014-11-06 07:49:12

广告主与搜索引擎的双向博弈分析

技术经济与管理研究(2014年11期)2014-03-11 17:02:44

《疾风图》

人民交通(2012年6期)2012-10-26 05:31:10

中国教育网络2019年8期

中国教育网络的其它文章: 新华三携手西北民族大学构建智慧校园; 区域一体化人工智能教学实践初探; 大数据支撑少数民族信息精细化管理; 北理工“数字迎新”改变的背后; 南京理工大学让“生态化”扎根智慧校园; 西安电子科技大学打造一体化智慧学习服务平台