卢宁
摘要:为了更好地开展数字科学普及教育,下载更多数字科学普及电影的相关信息和影片资源服务于数字科普工作,满足广大青少年对科普知识的渴望.文章基于Python语言以在百度上获取的科普电影片名为文件名新建一个文件夹,以将获取的影片相关资料(如科普电影图片的URL地址)放入新建文件夹为例,介绍了获取科普电影相关信息的思路流程和知识要点,为获取科普电影相关信息奠定理论基础、确定操作流程、提供关键代码,以及为后续的数据分析提供原始资源。
关键词:数字科普;科普电影;数据获取;Python
中图法分类号:TP393 文献标识码:A
1 引言
数字科普电影是为普及科学文化知识而特摄,利用数字电影为传媒以浅显、通俗易懂的表现形式让公众了解自然科学和社会科学,从而推广科技的应用、倡导科学方法、传播科学思想、弘扬科学精神。影片內容在解释自然现象和社会现象时,力求做到深入浅出、形象生动,使观众易于接受。科普电影表现范围极为广泛———自然科学、人文科学均可涉及。数字科普电影常用于科普场馆的科普教育。
2 Python 获取数据的优势
请求模块、解析模块丰富成熟, 有着强大的Scrapy 网络框架,代码简洁,代码量少。数据获取的方法可采用自动索引、模拟程序,按照一定的规则自动抓取万维网信息。该程序或者脚本从万维网上下载网页,是搜索引擎的重要组成。然后通过对数据进行处理,得到有价值的数据,传统算法从一个或若干初始网页的URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL 放入队列,直到满足系统的一定停止条件。
用Python 语言可以实现如下功能:以在百度上获取到的各科普电影片名为文件名新建文件夹,在此文件夹下,以各科普电影片名为文件名、以.txt 为扩展名建立文本文件,将爬取到的与这部电影有关的信息(以获取的此科普电影图片的URL 地址为例)放入此文本文件中。
3 方法
步骤1 导入本程序要用到的模块。
在PyCharm 编辑器中编写程序代码:import csv # csv 文件格式是一种通用的电子表格和数据库导入导出格式,用此文件存放获取到的科普影片片名import os # 包含普遍的操作系统功能import re # 正则表达式用于提取有效的内容import requests #网络访问模块用于得到页面源代码步骤2 获取页面源代码。
在百度搜科普电影,如图1 所示。