基于Gecko浏览器内核的谷歌翻译爬虫

2021-08-06 08:25李健

现代计算机 2021年18期

李健

（战略支援部队信息工程大学，洛阳471003）

0 引言

网络爬虫是按照一定规则自动获取Web信息资源的计算机程序[1-2]。根据目标资源的位置不同，网络爬虫可以分为浅层爬虫和深层爬虫。通过超链接能够直接到达的为浅层数据，需要用户登录、提交表单、异步加载等操作才能获得的为深层数据[3-4]。研究发现，Web中的深层数据量远远超过浅层数据[5-6]，因此深层爬虫就显得十分重要。目前，异步加载技术广泛使用，这给网络爬虫的开发带来一些困难。对此，可采用模拟浏览器的方法进行采集——让浏览器内核去处理那些复杂的技术细节，爬虫只需要模拟用户操作，等待目标数据返回[7-9]。在爬取过程中，可通过DOM路径实现对元素的定位和数据的抽取[10-12]。

随着人工智能技术的发展，机器翻译的准确率也不断提高，很多互联网公司（如谷歌、百度、微软等）都提供了在线翻译服务。对于普通用户来说，网页翻译是最主要的服务形式，而且是完全免费的。网页翻译虽然免费，但是往往会限制单次翻译的字数。对于少量翻译任务，我们可将原文复制到翻译页面就可以获取翻译结果；但对于较大规模的翻译任务，若仍采用手动方式（逐段复制粘贴）则显得十分低效。对此，可以采用“多次少取”的方式解决大规模语料的自动翻译问题。本文将设计并实现一个基于Gecko浏览器内核的翻译爬虫——借助“谷歌翻译页面”实现自动批量翻译。

1 相关技术

1.1 浏览器工作原理

网页浏览器（Web Browser）简称浏览器，是一种用于检索并展示万维网信息资源的应用程序。用户所看到的网页都是经过浏览器解析、渲染后呈现出的结果，而并非原始网页数据。浏览器的核心功能就是解析网页，解析对象主要包括HTML、CSS和JavaScript，分别对应网页的内容、样式和行为。浏览器解析网页的基本过程如图1所示[13]。

图1 浏览器解析网页的过程

资源加载后，浏览器会将HTML数据解析成DOM树，将CSS数据解析成CSS规则树，还可以通过执行JavaScript代码对它们进行操作。解析完成以上对象，浏览器引擎通过DOM树和CSS规则树来构造渲染树（Render Tree），结合其他资源最终生成页面展示效果。

1.2 常见浏览器内核

浏览器内核是指浏览器的核心部件，主要包括页面渲染器和JS解析器。页面渲染器负责把数据转换为用户在屏幕所看到的样式，JS解析器负责解释和执行网页中的JS代码[14]。表1列出了常见浏览器内核[15-18]。

表1 常见浏览器内核

Trident是由微软公司开发的浏览器内核，随Internet Explorer 4.0首次发布（也称IE内核）。Trident目前仍然是主流的浏览器内核之一，并被广范应用于其他非IE浏览器。WebKit是由苹果公司开发维护的开源浏览器内核，所包含的WebCore引擎和JSCore引擎都是从自由软件衍生而来。Chrome和Opera浏览器早期也曾采用WebKit内核，由于某些原因Google公司从WebKit中分支出自己的Blink内核，随后Opera公司也宣布将转向Blink内核。Gecko是一个能够跨平台使用开源项目，该内核最早由Netscape公司开发，现在由Mozilla基金会维护[19]。

1.3 使用Gecko内核

GeckoFx是对Gecko内核的.NET封装，提供完善的编程接口，这使得.NET程序员可以在WinForm或WFP程序中方便地使用Gecko内核。在Visual Studio中通过NuGet包管理器可直接安装GeckoFx。

在DOM标准下，HTML文档中的每个成分都是节点：大到整个HTML文档，小到每个HTML标签，甚至底层的纯文本都被看作一个结点[20]。GeckoFx核心类之间的关系如图2所示。其中实线表示继承关系，虚线表示包含关系。

图2 GeckoFx核心类

在GeckoFx框架中，GeckoNode表示所有DOM结点的基类，GeckoDomDocument用于描述DOM文档，GeckoDocument用于描述Html文档，Gecko Element用于描述DOM元素，Gecko Html Element用于描述HTML标签元素。Gecko Web Browser是一个Web浏览器控件（可直接显示在WinForm窗体中），其DomDocument和Document属性分别属于GeckoDomDocument和Gecko Document类型。通过上述对象，可以实现页面的加载和导航，元素的查询和修改。

2 爬虫设计

2.1 系统框架

为了便于描述，我们将任务简化为对中文词表的翻译，每次提交一个词条进行翻译，翻译完成后可导出双语词表。并具体规定如下：中文词表按行存放于文本文件中（对应全部翻译任务），每次提交一行文本进行翻译（对应单次翻译任务），翻译结果以Excel格式导出。翻译爬虫的总体架构如图3所示。

图3 翻译爬虫架构

2.2 工作流程

根据上述思路，爬虫工作流程如图4所示：首先使用浏览器控件加载翻译页面；然后提示用户选择并导入中文词表；每次从待翻译词表中取出一个词条，复制到翻译网页的原文输入框，等待翻译结果返回，从译文输出框读取结果；若翻译任务全部完成则导出结果，否则继续翻译下一词条。

图4 翻译爬虫工作流程

2.3 爬虫界面

爬虫界面如图5所示：使用分隔容器（SplitContain⁃er）将主窗体分为左右两个区域，左侧为用户操作区，包括两个按钮（导入、导出）和一个DataGridView控件；右侧是翻译页面加载区，GeckoWebBrowser控件充满整个区域。

图5 翻译爬虫主界面

3 爬虫实现

我们在.NET平台下使用C#语言编写程序，实现了谷歌翻译爬虫的全部功能。下面将介绍关键模块的实现。

3.1 加载页面

爬虫启动后，首先需要初始化Gecko运行环境，才能使用GeckoWebBrowser控件加载页面。其主要代码如下：

上述代码定义了一个GeckoWebBrowser类型的成员变量（browser），表示Gecko浏览器控件；页面跳转后为浏览器控件添加Document Completed事件，以保证网页加载完毕才能导入词表。

3.2 单次翻译

翻译爬虫的关键步骤就是要模拟用户操作，在浏览器页面中完成原文的输入和译文的读取。通过Firefox开发者工具箱查看页面元素（如图6图所示），可以发现Google翻译页面的原文输入框为一个元素，其id属性值为“source”，通过Gecko Dom Document.Get Element ById（）方法可获取此元素。</p><p><img src="https://img.fx361.cc/images/2022/1120/ecfde3d98d928c6e3fa6c6b07e9da1c35f3c163c.webp"/></p><p>图6 查看网页元素（输入框）</p><p>同理，我们也可以找出“译文输出框”的定位：一个class属性值为“tlid-translation translation”的<span>元素。调用Gecko Dom Document.Get Elements By Class⁃Name（）方法可获取具有该class属性值的元素列表。测试发现：该网页中具有上述class属性值的元素是唯一的（仅表示输入框），这将使程序处理变得简单。“写入原文”和“读取译文”的主要代码如下：</p><p>本研究发现，石河子大学本科生学习动机居中等程度。经过对数据的进一步分析发现，总平均分小于临界的比例相当大，共96人，即有52.17%的大学生学习动机水平不高；总平均分高于4分的（学习动机较强）仅4人，占总人数的2.17%。从总体上看，本研究证实了当今大学生学习动机偏低，只有在能力追求维度上得分接近4分，其余均不到3分。因此，需要在教育教学中重视石河子大学本科生的学习动机。</p><p><img src="https://img.fx361.cc/images/2022/1120/dce97cd46f75a00fc7e645b3f912d0f7f59aa8f4.webp"/></p><p>在上述代码中，Translate函数被声明为async（异步的），并在函数中使用了await语句。借助await语句可采用同步编程风格实现异步功能，当程序执行到await语句时并不会引起中主线程（UI线程）的阻塞，而是将之后的代码动态封装成一个回调函数，待任务结束后自动调用。这样既能控制翻译任务的执行步骤，又不会造成窗体假死（无法响应用户操作）。需要说明的是，网页结构并非固定不变，若谷歌翻译页面改版，则需要重新定位输入、输出框位置。</p><h3>3.3 批量翻译</h3><p>当点击“导入中文词表”按钮时，会提示用户选择词表文件，并将其读入列表中；然后调用BatchTranslate方法完成批量翻译，原文列表将作为参数传入。主要代码如下：</p><p><img src="https://img.fx361.cc/images/2022/1120/89f7b5e84dc6926bb48665c798e530eb10059084.webp"/></p><p><img src="https://img.fx361.cc/images/2022/1120/c226c5f1f9f30989ce8171f9ebe148bb64edfe75.webp"/></p><p>在爬虫程序中，我们借助一个bool类型的变量（stopTag）来控制翻译任务的启停。初始状态下stop⁃Tag默认为false（表示不停止），按钮文本为“导入中文词表”；若此时按下按钮则启动翻译任务，并将按钮文本改变为“停止”，任务完成后文本自动恢复；若用户在任务执行过程中按下“停止”按钮，stopTag将被置为true（表示停止），程序检测到stopTag的变化则停止当前任务。由于在BatchTranslate方法中使用了await语句等待翻译结果，因此该方法也被声明为async。批量翻译的执行过程如图7所示。</p><p><img src="https://img.fx361.cc/images/2022/1120/96162147a691da9e8f535b0ac785151964a0a3b1.webp"/></p><p>图7 程序运行效果</p><p>待全部翻译任务完成后，单击“导出双语词表”按钮可将翻译结果以Excel格式导出，具体实现代码这里不再列出。</p><h2>4 算法改进与分析</h2><h3>4.1 算法改进</h3><p>分析发现，爬虫执行过程中最耗时的步骤就是等待翻译结果，而且每次翻译需要等待的时间并不固定，这受原文长度、网络条件、服务器负载等因素的影响。因此，设置一个适当的等待时间十分重要：若时间太短则翻译尚未完成，若时间太长则影响爬虫效率。此前的程序每次固定等待2秒，一般情况下这个时间足够长但效率偏低。我们希望能够在译文返回后尽快读取结果，在改进方案中采用“轮询检测法”判断翻译结果是否返回。改进后的代码如下：</p><p><img src="https://img.fx361.cc/images/2022/1120/5ad6d7ec4ba20e04451c232be9b309e30fa6754e.webp"/></p><p>上述代码中的Clear Dest Text方法用于清空译文（具体代码从略），在写入原文之前先调用此函数，以避免上次翻译结果干扰到本次判断。为验证“轮询检测法”的性能，我们将其与“定时等待法”进行对比测试。</p><h3>4.2 统计分析</h3><p><img src="https://img.fx361.cc/images/2022/1120/f87429aed6696fe6c98256338a97f201733436e1.webp"/></p><p>图8 “定时等待法”性能统计</p><p>对于“轮询检测法”，我们统计了采用不同“轮询间隔”对程序性能的影响（如图9所示）。统计结果表明：此方法总能保证100%的“采准率”，平均翻译时长也明显优于“定时等待法”。同时，我们发现轮询间隔并非越小越好（设定在0.1秒左右较为合适），因为间隔时间越小就意味着轮询次数越多，而轮询本身也需要消耗系统资源。</p><p><img src="https://img.fx361.cc/images/2022/1120/9aa0b33afe1190cadd673de2c44b02fbc6f9aa78.webp"/></p><p>图9 “间隔轮询法”性能统计</p><p>为了进一步说明“定时等待法”难以兼顾准度和效率，我们采用“间隔轮询”法对同一组词条（共13个）进行5次翻译测试，并将用时分布情况绘制成“箱线图”（如图10所示）。</p><p><img src="https://img.fx361.cc/images/2022/1120/97539882cfa1cf9276e449abe1cd243124df35d4.webp"/></p><p>图10 翻译等待时间分布</p><p>统计结果显示：虽然平均翻译时间都在1秒左右，但每次总有几个词条偏离平均值较远。翻译等待时间的不稳定性正是“定时等待法”效率不高原因。</p><h2>5 结语</h2><p>本文所介绍的“谷歌翻译爬虫”不仅实现了既定功能，达到了预期效果；而且进行了算法优化，提高了采集效率。测试表明：本文所提出的方案是行之有效的，可以为同类爬虫的开发提供技术参考。笔者在项目实践中发现，越来越多的网页采用异步加载技术，传统的网络爬虫难以发挥作用。模拟浏览器的方式可以屏蔽内部技术细节，减化爬虫开发的复杂度。其中，如何模拟用户操作（如输入文本、选择列表、点击按钮、滚动页面等），是实现爬虫功能的基础；如何判断目标数据返回，是提高爬虫效率的关键。</p></p> <div class="article_love"> <div class="title">猜你喜欢</div> <div class="article_love_keyword"><span><a href="/tags/f/d/223cceafd35557ba/1.html" target="_blank">爬虫</a></span><span><a href="/tags/e/b/112bd38f8d7e14a0/1.html" target="_blank">控件</a></span><span><a href="/tags/a/e/dc8daca69f1bb9df/1.html" target="_blank">内核</a></span></div> <div class="article_love_news"><dd><a class="txt_title" href="/page/2022/1018/10790022.shtml" target="_blank" title="利用网络爬虫技术验证房地产灰犀牛之说">利用网络爬虫技术验证房地产灰犀牛之说</a><div class="rsorc"><a href="/bk/fdcdk/202210.html" class="ly" title="房地产导刊(2022年10期)">房地产导刊(2022年10期)</a><span class="txt">2022-10-18</span></div></dd><dd><a class="txt_title" href="/page/2022/0804/11042632.shtml" target="_blank" title="基于C++Builder 的电子邮件接收程序设计＊">基于C++Builder 的电子邮件接收程序设计＊</a><div class="rsorc"><a href="/bk/kjycx/202215.html" class="ly" title="科技与创新(2022年15期)">科技与创新(2022年15期)</a><span class="txt">2022-08-04</span></div></dd><dd><a class="txt_title" href="/page/2021/1104/9062697.shtml" target="_blank" title="使用“填表单”微信小程序统计信息很方便">使用“填表单”微信小程序统计信息很方便</a><div class="rsorc"><a href="/bk/dnahz/202121.html" class="ly" title="电脑爱好者(2021年21期)">电脑爱好者(2021年21期)</a><span class="txt">2021-11-04</span></div></dd><dd><a class="txt_title" href="/page/2021/0922/8868858.shtml" target="_blank" title="人民情怀：柳青为文为人的内核（评论）">人民情怀：柳青为文为人的内核（评论）</a><div class="rsorc"><a href="/bk/zuopin/20219.html" class="ly" title="作品(2021年9期)">作品(2021年9期)</a><span class="txt">2021-09-22</span></div></dd><dd><a class="txt_title" href="/page/2021/0507/10295924.shtml" target="_blank" title="基于Python的网络爬虫和反爬虫技术研究">基于Python的网络爬虫和反爬虫技术研究</a><div class="rsorc"><a href="/bk/xdxxkj/202121.html" class="ly" title="现代信息科技(2021年21期)">现代信息科技(2021年21期)</a><span class="txt">2021-05-07</span></div></dd><dd><a class="txt_title" href="/page/2020/1130/7274359.shtml" target="_blank" title="基于.net的用户定义验证控件的应用分析">基于.net的用户定义验证控件的应用分析</a><div class="rsorc"><a href="/bk/zwxx/202010.html" class="ly" title="中文信息(2020年10期)">中文信息(2020年10期)</a><span class="txt">2020-11-30</span></div></dd><dd><a class="txt_title" href="/page/2020/0906/7010220.shtml" target="_blank" title="初春">初春</a><div class="rsorc"><a href="/bk/ft/20209.html" class="ly" title="飞天(2020年9期)">飞天(2020年9期)</a><span class="txt">2020-09-06</span></div></dd><dd><a class="txt_title" href="/page/2019/0621/5230402.shtml" target="_blank" title="微软发布新Edge浏览器预览版下载换装Chrome内核">微软发布新Edge浏览器预览版下载换装Chrome内核</a><div class="rsorc"><a href="/bk/zgjsjb/201912.html" class="ly" title="中国计算机报(2019年12期)">中国计算机报(2019年12期)</a><span class="txt">2019-06-21</span></div></dd><dd><a class="txt_title" href="/page/2018/1020/4417504.shtml" target="_blank" title="基于Scrapy框架的分布式网络爬虫的研究与实现">基于Scrapy框架的分布式网络爬虫的研究与实现</a><div class="rsorc"><a href="/bk/znjsjyyy/20185.html" class="ly" title="智能计算机与应用(2018年5期)">智能计算机与应用(2018年5期)</a><span class="txt">2018-10-20</span></div></dd><dd><a class="txt_title" href="/page/2018/0530/3579795.shtml" target="_blank" title="谁抢走了低价机票">谁抢走了低价机票</a><div class="rsorc"><a href="/bk/dnzsyjsjyjq/20181.html" class="ly" title="电脑知识与技术·经验技巧(2018年1期)">电脑知识与技术·经验技巧(2018年1期)</a><span class="txt">2018-05-30</span></div></dd></div> </div><div class="other_pel mt80"> <p class="fl"><a href="/bk/xdjsj/202118.html" target="_blank"><img src="https://img.fx361.cc/images/2022/1120/d79a73a234f00d3ad4b7684f1a31f2438b88a19e.webp" alt=""></a><span class="p1"><a href="/bk/xdjsj/" target="_blank">现代计算机</a></span><span class="p2"><a href="/bk/xdjsj/202118.html" target="_blank">2021年18期</a></span></p> <dl class="fl"><dt>现代计算机的其它文章</dt><dd><a href="/page/2021/0806/11231034.shtml" title="基于改进SMOTE算法和位置编码的漏洞检测模型优化研究">基于改进SMOTE算法和位置编码的漏洞检测模型优化研究</a></dd><dd><a href="/page/2021/0806/11231071.shtml" title="最优覆盖校内巡逻车配备方案及其评估模型">最优覆盖校内巡逻车配备方案及其评估模型</a></dd><dd><a href="/page/2021/0806/11231096.shtml" title="基于三维卷积网络的非接触心率估计">基于三维卷积网络的非接触心率估计</a></dd><dd><a href="/page/2021/0806/11231123.shtml" title="基于反向精英保留和Levy变异的多目标鲸鱼优化算法">基于反向精英保留和Levy变异的多目标鲸鱼优化算法</a></dd><dd><a href="/page/2021/0806/11231192.shtml" title="面向低延时目标检测的FPGA神经网络加速器设计">面向低延时目标检测的FPGA神经网络加速器设计</a></dd><dd><a href="/page/2021/0806/11231216.shtml" title="并发编程关键模型及语言实现">并发编程关键模型及语言实现</a></dd></dl> </div></div> </div> </div> <div class="sidebarR">  <div class="tab01 mb20"><div class="tabArrow"></div><div class="tabItem"><div class="tabTit"><a href="#">杂志排行</a></div> <div class="tabCont"><ol><li><p class="row01"><span class="topNum">1</span><a href="/bk/sdjy/202410.html" class="row01a">《师道·教研》</a><span class="row01_fr"><a href="/bk/sdjy/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span class="topNum">2</span><a href="/bk/swyzhsby/202411.html" class="row01a">《思维与智慧·上半月》</a><span class="row01_fr"><a href="/bk/swyzhsby/202411.html">2024年11期</a></span></p></li><li><p class="row01"><span class="topNum">3</span><a href="/bk/xdgyjjhxxh/20242.html" class="row01a">《现代工业经济和信息化》</a><span class="row01_fr"><a href="/bk/xdgyjjhxxh/20242.html">2024年2期</a></span></p></li><li><p class="row01"><span class="topNum">4</span><a href="/bk/wxxsyb/202410.html" class="row01a">《微型小说月报》</a><span class="row01_fr"><a href="/bk/wxxsyb/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span class="topNum">5</span><a href="/bk/gywsw/20241.html" class="row01a">《工业微生物》</a><span class="row01_fr"><a href="/bk/gywsw/20241.html">2024年1期</a></span></p></li><li><p class="row01"><span class="topNum">6</span><a href="/bk/xl/20249.html" class="row01a">《雪莲》</a><span class="row01_fr"><a href="/bk/xl/20249.html">2024年9期</a></span></p></li><li><p class="row01"><span class="topNum">7</span><a href="/bk/sjbl/202421.html" class="row01a">《世界博览》</a><span class="row01_fr"><a href="/bk/sjbl/202421.html">2024年21期</a></span></p></li><li><p class="row01"><span class="topNum">8</span><a href="/bk/zxqyglykj/20246.html" class="row01a">《中小企业管理与科技》</a><span class="row01_fr"><a href="/bk/zxqyglykj/20246.html">2024年6期</a></span></p></li><li><p class="row01"><span class="topNum">9</span><a href="/bk/xdsp/20244.html" class="row01a">《现代食品》</a><span class="row01_fr"><a href="/bk/xdsp/20244.html">2024年4期</a></span></p></li><li><p class="row01"><span class="topNum">10</span><a href="/bk/wszyjy/202410.html" class="row01a">《卫生职业教育》</a><span class="row01_fr"><a href="/bk/wszyjy/202410.html">2024年10期</a></span></p></li></ol> </div></div> </div> </div> <div class="clr"></div> </div> </div>  <div class="footer"> <p><a href="/aboutus/index.html">关于参考网</a></p> </div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/sticky-kit/1.1.3/sticky-kit.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery.lazyload/1.9.1/jquery.lazyload.js"></script> <script type="text/javascript"> document.write('<script src="https://img.fx361.cc/cdn/w/index_cc.js"><\/script>'); </script> </body> </html>