基于网络信息采集技术的体育信息采译编平台的研制与应用

2019-11-02 01:33袁俊杰
体育科技文献通报 2019年11期
关键词:子系统网页译文

袁俊杰,王 彬

1 研究目的

体育信息工作中,跟踪国外体育最新动态是一项非常重要的常规性任务。外文信息的翻译整理是其中的核心环节。虽然近年来机器翻译准确度随着人工智能发展而不断提高,但目前机器翻译系统与人类译文仍然差距尚远,短期内很难完全取代人类译员。

随着互联网的迅速发展,网络信息更新速度加快,仅仅依靠人工搜集国外体育动态信息已愈来愈不能满足实际需要。同时,采编团队之间沟通不及时也容易造成不必要的重复劳动。这些都需要从技术手段上加以解决。

网络信息采集技术是目前时兴的一种信息获取方式,可以短时间里,智能的自动采集不同网站的信息,已在其他领域广泛应用。近两年,笔者在网络信息采集系统基础上设计开发了体育信息采译编系统,将外文体育信息的采集、翻译、校对、编辑等工作统一管理,取得了很好的成效。

2 研究方法

文献资料法:查阅有关网络信息采集、众包翻译、新闻采编等方面的文献资料。

专家访谈法:与部分体育信息专家、翻译人员以及程序员进行访谈交流。

软件编程法:运用PHP、Java及MySQL进行系统编程。

3 研究结果

3.1 网络信息采集技术简介

我们接触最多的网络信息是以网页形式存在的,而网页上的信息基本上是非结构化的。利用时,一般需要转为结构化的信息,以便检索和分类。

网络信息采集技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中,从而为各种信息服务系统提供数据输入的整个过程。

汇集了各种网络信息采集技术的程序集成系统称为网络信息采集系统,主要用于门户网站的新闻采集、行业资讯采集、竞争情报获取等领域。

图一 网络信息采集系统流程图(来源:百度百科)

但目前网络信息采集系统也存在一些缺点,虽然可以自定义部分筛选规则,能自动屏蔽一些信息,但仍有不少无用信息会被采集入库,不如人工搜集相关度高,后期仍需要人工介入。

3.2 翻译模式的选择

当众包翻译首先在社交网站一展身手之后,逐渐在新闻、娱乐、语言学习、非营利组织及政府机构等领域得到广泛应用。在众包翻译模式下,一篇原文通过网络管理系统分割多块交给多名翻译员,最后汇总整合,翻译、编辑和审校并行多向进行,译员队伍规模大,成员个体差异大,结构松散,不受时间和地点限制,翻译速度快,但译文质量很难控制。而传统翻译模式采用翻译——编辑——审校自上而下的单向模式,译员队伍相对固定,结构严谨,成员个体差异小,翻译速度较慢,译文质量容易控制,但受到一定的时间和空间限制。

体育信息翻译专业性较强,对译文质量要求较高,要符合中文表达习惯和行业规范,实际工作中合作的翻译人员相对固定,因此,传统翻译模式更容易控制翻译质量,而其受时间和空间限制的缺点可以借鉴众包翻译模式中的网络化管理加以解决。

3.3 系统架构

整个信息采译编平台包括采集和译编二个子系统,相对独立,通过同一后台数据库共享数据。平台采用B/S结构,用户通过浏览器访问系统进行操作。

采集子系统采用国内先进的商业化采集软件,译编子系统在采集子系统后台MySQL数据库基础上定制开发。原采集库基本不动,增加译编库,人工筛选时自动将选定的采集库数据拷贝到译编库,后续翻译和编校操作均在译编库中进行。

系统设管理员、组长、选稿员、翻译员、审校员和主编等6类角色。管理员负责采集任务配置和系统管理;组长负责本组人员管理和角色分配;选稿员负责筛选信息,或另外上传其他信息;翻译员在线竞争选择翻译任务;审校员负责初步校对本组译文;主编负责所有译文再次审校并改编成最终文稿。

不同角色的用户访问界面不同,每个用户可分配多个角色。

3.4 系统功能设计

系统主要功能是通过采集子系统每天自动跟踪采集权威体育信息网站的最新动态,经人工筛选后,翻译员在线竞争翻译,再经初步校对和再次审校,最后改编成最终文稿,实现信息采集、筛选、翻译、审校、编辑一体化管理。

3.4.1 信息采集和筛选

采集任务配置是整个系统的基础,操作难度较大,要求管理员熟悉网页结构。采集子系统提供网页探测器和任务配置器等辅助工具,帮助管理员配置采集任务。

在任务配置开始前,需要通过网页探测器分析拟采集的网页,确定要抽取网页的哪些信息、信息在页面的哪个位置、采集时使用的遍历方式以及是否有下一页等。

配置任务时,利用前面的分析结果把采集所需要的各种参数加入到任务文件中,例如标题、作者、时间、来源、过滤规则等,以便任务执行器按照我们的意图进行采集。大部分外文网站的网页结构各不相同,需要单独配置,少部分的网站可直接使用系统默认的配置文件。

最后设定采集任务开始执行时间和执行频率,如每天6点执行一次,每隔8小时执行一次。

采集系统按设定参数自动访问各网站,下载最新动态信息并存储在采集库中。

图二 采集任务列表界面

选稿员需要手动挑选出有针对性的信息,供各组翻译员竞争翻译,各组选稿员也可直接指定本组的某个翻译员进行翻译。选稿员可以对原文进行改编,还可以删除或另外上传新的信息。

图三 采集的信息列表及人工筛选界面

3.4.2 信息翻译

各组翻译员统一从待译任务池中竞争任务。系统限制每个翻译员同时承接的任务数,若已达到限制数,则不能承接新任务。承接后,任务自动锁定,别人无法翻译。翻译过程中可以暂时保存,也可取消任务,重新返回任务池。

平台提供了世界地名、外国人名、国际体育组织和体育项目等中英文术语对照表,供在线查询参考。

图四 翻译任务列表界面

图五 信息对照翻译/校对界面

3.4.3 译文审校和编辑

翻译完成后,初译稿自动进入初校任务池,由本组审校员进行初步审校。各组审校员只能审校本组成员翻译的译文,其他小组的译文则无权审校。审校员还可以对译文进行1-5星的评分,便于对翻译员的能力进行评估。

所有一校稿需要经过主编最终审校,并改编成符合要求的最终文稿。一些重要信息还会由主编进一步整合或补充资料。

3.5 应用效果

平台完成后,合作的两家院校的教师翻译团队以及十余位外语兼职人员进行了两年多的使用,效果良好。平台每天采集130余个外文体育信息网站的200余条信息,经筛选和翻译后,每天可提供10余条译文,与以前每周提供一次相比,信息时效大大提高。

4 结论

整个平台采用B/S结构设计,用户通过浏览器访问,操作简单,简化了培训过程。采集管理和译编管理相对独立,安全性更高。

平台利用网络信息采集技术每天定时自动采集上百家体育信息网站的最新信息,极大地节约了人工,提高了采集效率。

平台在传统翻译模式中引入了竞争翻译和网络化管理,既发挥了传统翻译模式质量易控的长处,又发挥了网络管理的便捷优势,对体育信息工作实现创新升级具有重要作用。

猜你喜欢
子系统网页译文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
网络空间供应链中入侵检测及防御子系统的投资机制研究
网络空间供应链中入侵检测及防御子系统的投资机制研究
基于HTML5静态网页设计
弟子规
搜索引擎怎样对网页排序
弟子规
团队与知识管理的关系研究
浅谈中职学校新型模块化机房建设
IPv6环境下动态域名系统的设计与实现