【摘 要】研究中俄文字符号在网络上的应用规律和特点,通过GB2312和UTF-8编码技术的转换技术解决中俄网络语言编程编码接口问题,结合中俄文语法特点,使用Java语言进行Web方式的中俄网络语言编码接口问题,提出解决方案。
【关键词】中俄文;编码;接口;Java
0 引言
研究中俄文互译和接口标准关系,能得中国科技企业面向俄语世界的网络贸易工作都能达到更好的经济效果。本文针对核心中俄文互通问题,整合与集成不同文化背景的网络符号互译与信息交换的标准接口问题,研究中俄文字符号在网络上的应用规律和特点,注意与计算机搜索引擎技术的协调配合,提高本研究的持续适应能力,形成具有统一性的国际协议。本项目实施相对长期的客户支持,能促进中国对俄语系21国家的电子商务活动,激励大众创业和万众创新,最终实现中俄电子商务合作的国际市场化应用[1]。
1 编码分析
中俄网络语言编码接口技术,通过合作研究GB2312和UTF-8编码技术的转换技术解决中俄网络语言编程编码接口问题,无论是俄文网站,还是中文网站,都能确保文字符号在,中、俄两个国家适用的操作平台上正常显示运行。
1.1 编码集
完成GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间的互联互通,制定统一的信息标准。由于缺乏编码方案来解决中俄这两种不同语言体系在计算机语言中表示的问题,从而导致一直以来中国的商品基本上通过欧美、日、韩等国家转销至俄语世界,原因在于他们拥有通往俄语国家的信息交流通道,UTF-8编码接轨较早。为了通过网络技术,给中俄企业沟通、交流、发布及获取信息提供直接的渠道,双方需要有设计全新的编码模型方案解决中俄这两种不同语言体系在计算机语言中表示的问题。
1.1.1 GB2312
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。
1.1.2 Unicode
Unicode是为了解决传统的字符编码方案的局限而产生的,例如ISO8859-1(Latin-1,是西欧常用字符)所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。很多传统的编码方式都有一个共同的问题,即允许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。Unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。几乎所有电脑系统都支持基本拉丁字母,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256字符保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别处理;并且把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会丢失任何信息。在文字处理方面,Unicode为每一个字符而非字形定义唯一的代码(即一个整数)。以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。UNICODE用2个字节编码,它通过增加一个高字节对ISOLatin-1字符集进行扩展,可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Universal Transformation Format)。常见的UTF格式有:UTF-7,UTF-7.5,UTF-8,UTF-16,以及UTF-32。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文、日文、韩文)。
1.2 中俄文字差别
1.2.1 中文双字节
GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间的互联互通,制定统一的信息标准。在两国架设的服务器设备中同时嵌入中俄两国的标准字符库,为数据汇总和数据交换中的数据冲突问题提供完善的解决方案,从而避免在境外使用出现的文字乱码现象。汉字是双字节而一些汉字编辑软件并没有充分认识到这一点,例如:汉化对光标移动、删除等还是按单字节方式处理,16*16俄文,8*16俄文字都是单字节的,给用户造半个字显示的混乱的后果[2]。
1.2.2 俄文重形式
俄语是庄重的书面体语体,它的商务行文简练,语法比较严谨,重点也突出,言辞极具数学逻辑性和技术准确性,交流要求尽可能准确地描述和解释一定的事实。俄罗斯人更加接近西方世界的直观式思维方式。强调由细节部到整体部,由外表到内涵的分析思路。比较理性的思维,注重形式的论证过程,不喜欢采用艺术比喻手段,追求语义简明且凝练,要求明白、并且直露[3]。
1.2.3 俄文多语格
俄语符号文句在语法上是:使用非一致性定语的第二格的特点比例较高[4]。俄语符号文句二格在网络俄文中,首先要用于表示出定语关系,语句中包含比列达到41%。形容词性在俄语文句中的混合运用相当多而普遍,除了形容词的普通混用之外,还大量地使用带着补语语法的形容词根。绝大多数俄语动词都用未完成语体的“现在时”来表达含义,比较复杂的动词第三人称的陈述式,占文章的大部分。网络现在时和网络动词的第三人称单数形式很多,使用比率较频繁。俄语还多喜欢用长句和复合句式,以便能确切地表达出严格的语义上的关联逻辑[5]。
1.3 商务编码转换
中亚国家属于俄语使用范围,俄语的交际功能和实际应用性并没有因法律地位的下降而大幅度降低。俄语仍然是主要的族际交际语言语言政策与现实需求的背离。严重影响着社会生活的方方面面[6]。中俄之间的互访路径往往要通过多次编码转换才能达成[7]。这就直接导致中俄双方页面在异域的运行速度非常慢,为实现双方文字在应用终端准确、实时的显现,中俄双方专家拟采用架设镜像服务器(Mirror server)的方式,完成主服务器字库定时镜像的任务,实现在网络以及双方现场进行俄、汉或其他文种贸易文本的起草、翻译、沟通、修改、确认、完成贸易合同;提供贸易活动的下游的双语文件和信息(包括商检、物流、报关活动所需的双语文件信息);通过网络对贸易活动全过程进行必要的安全监控。受到贸易规模的影响,国内大部分企业没有通过互联网开拓。国际市场基本上通过欧美、日、韩等国家转销至俄语世界,所以对俄企业数据库的建设速度较慢。
2 动态接口转换
将Web页面上的域标记,及其文本属性值进行Java程序化动态隔离,以DIV、SB和BB等标记为样本容器,利用Java脚本分析技术,实现动态的Web文本的过滤、布局、删除和修正的功能,来修正页面编码方式。在java编码中,要对网络平台的页面文件作“字符集设置”,如图1所示。
2.1 动态字符集
利用Web页面上的表单分析语法,将Web单元的文本数据和交互过程,实现动态翻译管理,丰富用户交互数据输入形式,动态俄文翻译的支持格式要求相应字符集的变动和动态字符的变更,目的是为客户数据能适用I/O功能来铺垫动态翻译模块。在编程开发工具中要对集成开发环境的字符编码做出设定,例如:ISO88591-1,以适应动态变更的需要。
2.2 转码方法
Web页面的专码问题,要求将俄文文本页面组织布局形式,划分的更加细小,适应文字节单位。服务器只传递“节部分”的变动性Web数据,直接翻译,不需要重复发送补充性重复资料。当用户请求翻译页面时,往往只需要动态构造的新的翻译字符码数据列表或DIV域局部。当用户翻译请求时得到的服务器动态响应时,启动异步翻译功能,对应域文本位置上,就能动态适用翻译结果替换HTML元素的局部文字。“动元翻译”是实现异国语言接口自动翻译系统的嵌入性技术基础,需要翻译插件的模块性支持。通过动态域元素字符集设定,可以解决独立页面和编程文件的字符统一问题,但是实际上在文字信息通过网络传输的过程中,仍然会因为不同用户的国家区域不同,操作语言不同,而产生乱码,因此需要对传输得到的文字信息进行编码和解码,如图2所示。
在一个多语种的网页中,Java脚本与HTML、CSS和COM组件集成,能实现复杂的交互过程,极大地丰富Java程序接口设计的手段。这样我们在文字信息的发送端对信息用固定的编码方式编码,在信息接受端用相应的解码方式进行解码,使得最终得到的信息适应接收端的本地环境,以接收端的本地语言方式正确显示出来。
如果客户适配本地的语言为:简体中文,但是对于俄语文字的保存,如果不做正确处理,就会保存为乱码。可根据数据库服务器所在国家的语言环境设定好默认字符集,并对数据库接收的信息进行预加工、预处理使它适配于数据库服务器所兼容的字符集,最后,再对处理好的信息进行保存操作。信息从数据库输出时,也要做类似的信息编码转换工作,使得从数据库中查询出的信息适配于各个本国家的语言环境,从而展示出来没有乱码。
2.3 乱码处理
网络上的俄文信息,一部分通过网络直接传输,但是大部分实际上是要保存到数据库中,来自不同国家,不同语言的文字信息要保存到数据库里,同样面对着信息乱码问题。
客户端通过页面操作激发自动接口动作,调用了Java组件的异步引擎。自动接口模块要捕获Web文本和图片对象的操作事件,直接合成翻译参数URL途径,再向客户发出翻译结果。客户端可以不等待自动接口的反馈结果,继续维持客户的其它交互性操作流程,保持业务操作的连贯性。Java语言可以操控Web文档的元素构成,默认以document指向整体文档对象,例如:和等为高级节点,节点类型是Element。对于每一次页面启动的Element节点元素,都可调用get-Attribute()、set-Attribute()和remove-Attribute()等方法,来设置或修改节点的接口性质[8]。也能使用parent-Node属性和child-Nodes[]数组形式,在预定文档树中,上下移动文本元素;可以通过遍历child-Nodes[]数组,使用first-Child和next-Sibling性进行循环性接口设置。从而改变文本结构和接口属性,达到灵活多变的翻译目标,避免文本混乱显示问题。
3 结果与分析
俄方网络平台展现情况:①应用本项目的转码技术后,俄方网络平台展示中文商品信息没有乱码。②中方网络平台展现情况:在中国国内访问俄方外贸交易平台没有乱码。同时在国内可以以俄文录入中国商品信息,在双方网络平台展示均无乱码。
网络平台采用转码技术后应用效果比较。①俄方网络平台应用情况:俄方网络平台能准确、完整地展现中国商品信息,客户认可率高。②中方网络平台应用情况:中方网络平台可以自如地用俄文描述,录入中国商品信息,并在俄方平台准确展示,很受企业欢迎。
使用接口转码技术后,在中俄两方的网络平台上均解决了乱码问题。实现了无论是俄文网站,还是中文网站,都能确保其在中、俄两个国家适用的操作平台上正常显示运行。有效解决了中俄网络语言编程编码差异化问题,提升了中国科技企业的跨国技术创新能力,从而帮助中国商品能迅速、有效、准确、直接在俄罗斯主流网络媒体展示。
【参考文献】
[1]李海舰,田跃新,李文杰.互联网思维与传统企业再造[J].中国工业经济,2014,10:135-146.
[2]王晓华,张鹏,傅景歆.俄汉编辑软件的实现[J].黑龙江大学自然科学学报,1998,02:43-45+48.
[3]徐涛.基于“情景更替理论”的俄语动词体常体意义新论[J].中国俄语教学,2015,01:40-44.
[4]陈雪.俄语计算机术语构成研究[J].中国俄语教学,2010,01:37-41.
[5]乐路.试探科技俄语的特点及其翻译[D].上海外国语大学,2009.
[6]张宏莉.中亚国家语言政策及其发展走向分析[J].新疆社会科学,2015,02:72-79+161.
[7]余自洁.计算机、多媒体技术和当今俄语教学[J].中国俄语教学,2003,01:51-54.
[8]王翠云.高校网络教学辅助平台的设计与实现[D].电子科技大学,2013.
[责任编辑:王楠]
客服热线:400-656-5456 客服专线:010-56265043 电子邮箱:longyuankf@126.com
电信与信息服务业务经营许可证:京icp证060024号
Dragonsource.com Inc. All Rights Reserved