刘蜜蜜
[摘 要:随着中国在国际舞台上影响力的提升,中国的对外宣传也愈加重要。政治文本要求翻译忠实、准确,切合时政热点,这也要求翻译工作中大量参考已有翻译。本文重点介绍如何利用Python中的Requests库进行文本的抓取,以及通过在线语料对齐平台进行语料对齐,从而利用网页上的文本信息构建可以为我们所用的语料信息。
关键词:Python;政治文本;翻译;语料库]
“一带一路”倡议之后,国内外关于中国政治的研究越来越多,政治文本翻译也成为了一个强需求。面对如此海量的政治文本,语料库和翻译技术成为一个重要工具。
1政治文本的特点
政务文本主要有两个特点:一是准确性,二是实时性。政治文本直接牵涉到政治立场和观点,所以翻译此类文本应用词准确,避免引起不必要的误解,外宣翻译倾向于完全“忠实”于原文。最行之有效的方式就是找已有的官方译文进行借鉴。除了对于准确性的要求,政治文本的内容往往具有很强的实时性,往往需要结合时事热点,例如,2019年之后外宣文本中出现“绿水青山就是金山银山”的表述,是近些年才被热议的话题。
2信息时代翻译的特点
当今的翻译工作越来越多的受到科技发展的驱使,人工智能、大数据、云的发展,都极大地改变了人们的工作方式和状态。此外,在全球化与本地化加速发展的现在,翻译的需求量加大 ,翻译效率也成为了重中之重。这种情况下,计算机技术也就成为了我们的必然选择。
译员对于信息化的需求主要有3个层面:首先,译员之间需要横向合作,需要翻译协作和大型翻译项目管理软件。其次,还需要借助众多译员的长期双语语料积累,译者之前翻译和求证过的翻译也是重要参考。最后,不同的译员之间需要语料共享。
3利用Python抓取政治文本语料
利用Python手段抓取政治文本语料的过程主要分为4步:
3.1确定目标.由于政治文本对于实时热点的要求比较高,此次任务中选择英语点津网站的新闻播报栏目的内容进行抓取。在爬虫之前,其robots协议(反爬虫规则)显示英语点津网站是没有robots文件的,也就是说不对爬虫加以限制;
3.2页面分析。下一步我们调出开发者工具进行页面分析。从代码中,我们可以看到我们可以知道,版面目录存放在一个 class = “gy_box” 的 div 标签下,每一个 div 表示一个版面,而版面的链接就在 target = “_blank”, class=”gy_box_img”, shape=”rect” 的 a 标签中;
3.3利用requests库获取文本。
3.3.1安装requests库
Requests库是一个Python第三方库,处理URL资源特别方便。在Pycharm中的安装方式是打开 PyCharm,单击“File”(文件)菜单,选择“Setting for New Projects...”命令,选择“Project Interpreter”(项目编译器)命令,确认当前选择的编译器,然后单击右上角的加号,添加Requests库。如果使用Python自带的编辑器,只需要在命令提示符中输入:
pip install requests
3.3.2 用get获取信息
使用Python第三方库requests的get (URL) 方法获取网页信息。
import requests
r=requests.get(“https://language.chinadaily.com.cn/a/202003/03/WS5e5e5121a31012821727c044.html”)
r.status_code
r.text[:100]
得到源文本的代码之后,还需要用正则表达式或者lxml去除网页内容中的特殊字符,得到只有中英文字符的新闻原文。
3.3.3将文本信息存储
使用with open (‘文件名, 方式) as变量名, 对获取的网页文本信息存储到本地txt文件。
3.3.4利用語料商城进行语料对齐
我们还需要将得到的语料制作成符合CAT软件要求的格式。可以利用tmxmall的在线对齐功能进行调整,选择“单语文档对齐”即可很快捷地完成对齐。
4小结
翻译过程中,译员们常常寻求专业网站支持,但是这种简单的搜索还存在着问题。首先,站内搜索效率不高,网页加载对网速有要求,同时打开网页太多也会给电脑带来压力。其次,政治文本的查询需要参考来自多个平台的内容,多次搜索的动作,比较费时费力。
而这种基于Python的方式就可以很好的解决这两个问题,避免了打开多个网页的繁杂的查询过程,可以同时爬取多个页面,提高了查询的效率。此外,这种爬取的方式灵活方便,可以即时添加新的语料信息,保证了语料的实时性。
参考文献
[1]赵振国.基于Python的网络语料获取和文本提取方法探索[J].教育现代化,2019,6(14):188-190.
[2]杨丽,孙昂,刘俐.论个人翻译语料库的建立和使用[J].企业家天地下半月刊(理论版),2007(11):200-201.
[3]庚庚911. python基础-文件读写with open as语句[EB/OL].https://blog.csdn.net/yetugeng/article/details/83870197?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source= distribute.pc_relevant.none- task. 2018-11-08.
浙江大学 浙江 杭州 310058