(1.西藏大学信息科学技术学院,西藏拉萨850000;2.青海师范大学计算机学院,青海西宁810008)
藏文历史悠久,藏文文献浩如烟海,藏族文化是中华文化宝库中的瑰宝。党的十一届三中全会后,随着我国改革开放的不断深入和以因特网为标志的信息技术的迅猛发展,中文信息化开启了快速发展历程,各少数民族的语言文字信息化紧随其后,西藏的藏文信息化也搭上了中文信息化发展的快车,取得了丰硕的成果。藏文信息化无论是对继承和弘扬优秀民族文化,还是推动西藏经济发展、社会进步都发挥了重要作用[1]。本文从西藏藏文信息化的发展历程、取得的成就、重大意义、新时代的展望等方面,回顾了改革开放以来,尤其是党的十八召开以来西藏藏文信息化的发展历程。
西藏藏文信息化发展经过了学习和探索的萌芽阶段、藏文信息技术发展的早期阶段和藏文信息技术的快速发展阶段。
藏文信息化是指利用电子计算机对藏语的音、形、义等语言文字信息做出加工与操作,主要涉及内容有对字、词、句、文章等进行输入和输出,并进行识别、转换、检索、分析、理解及生成等进行处理[2]。在藏文信息技术发展过程中,首先关注的是如何进行藏文信息的基本处理。
20世纪80年代末,西藏大学研究开发了西藏自治区第一个藏文信息处理软件——TCE藏汉英文信息处理系统,实现了藏、汉、英文信息的共同处理,并广泛应用于藏文公文处理、教材编撰、古籍研究整理等领域。除此之外,国内还相继开发了藏文激光照排系统等各类不同层次的藏文信息处理系统。由于没有统一的信息交换用藏文编码字符集国家和国际标准,当时的藏文信息处理系统要么占用了汉字的编码空间,要么自定义藏文编码,各系统之间的信息无法实现交换和共享处理。在此背景下,自1994年开始,在全国信息技术标准化技术委员会的组织下,西藏自治区藏语文工作委员会办公室(原西藏自治区藏语文工作指导委员会办公室)、西藏大学、西藏自治区质量技术监督局(原西藏自治区技术监督局)等高校和研究机构研究制定了ISO/IEC 10646《信息交换用藏文编码字符集》国际标准方案,并先后6次向ISO/IEC JTC1/SC2/WG2提交正式提案[3]。1997年7月,国际标准化组织(ISO)宣布:由我国提交的藏文编码国际标准方案正式成为ISO/IEC 10646藏文编码国际标准[4],1997年9月2日,国家技术监督局正式发布中华人民共和国国家标准GB16959—1997《信息技术 信息交换用藏文编码字符集 基本集》,1998年1月1日开始实施,使藏文成为我国少数民族文字中第一个正式进入ISO/IEC10646标准编码体系结构的文字[5],标志着西藏藏文信息化正式走向现代化,走向世界。
1998年,我区承担第一个科技部“863”项目——计算机藏文Windows平台研发。
2004年开始,西藏自治区人民政府与工业和信息化部(原信息产业部)签署《关于藏文软件开发和推广应用的合作协议》[6]。2005年,工业和信息化部安排藏文软件开发专项资金3300万元,研发藏文操作系统、藏文输入法、藏文办公套件、藏文浏览器及网页制作工具、藏文书刊公文电子出版系统等藏文基础和共性软件[7][8],研发工作由内地和西藏自治区骨干企事业单位承担。
2005年11月,应中国电信集团有限公司拉萨分公司要求,西藏大学和深圳润汇科技有限公司联合研发了全球首款全藏文数字移动电话和车载电话,并进行了产业化[9]。之后,西藏大学又陆续研发了基于Symbian、Windows Mobile和Android等智能移动电话操作系统的藏文输入法[10],以及全球首款全藏文安卓(Android)操作系统[11]。2008年11月,西藏洛藏数码科技有限公司研发了首款藏汉英电子词典硬件产品并市场化[12]。
2007年10月,教育部批准立项建设了“藏文信息技术教育部工程研究中心”,2010年,经西藏自治区机构编制委员会批准,西藏大学成立藏文信息技术研究中心[13],同年5月,西藏大学“藏文信息处理技术”团队入选教育部“长江学者和创新团队发展计划”创新团队。
现阶段藏文信息技术处在快速发展阶段,这一阶段以藏语自然语言处理技术研发为标志。我区相关科研单位和科技工作者在藏语自然语言处理领域的藏语自动分词与词性标注、藏语语料库、藏汉/汉藏统计机器翻译技术、多文种搜索引擎和藏文文献资源数字化技术等方向进行了深入研究。
2012年,西藏大学研发全球第一个“藏文图书期刊数据库及资源管理与检索平台”,完成了近4000册藏文现代图书、45种国内藏文期刊文章、近2000篇藏文学位论文的数字化。建设了中国藏文文献资源网(中国西藏知网),面向国内相关高等学校、研究机构和研究人员提供电子文献服务。
2015年12月,西藏大学研发“阳光藏汉双向机器翻译系统”“阳光多文种搜索引擎”,实现了藏汉双向机器翻译和藏汉英跨语言搜索及多文种呈现技术[14]。藏汉双向机器翻译系统通过网站和iOS、Android操作系统App面向社会提供服务,用户遍布国内外,是全球最具影响力的藏汉双向机器翻译系统。
2017年5月,西藏自治区藏语文工作委员会办公室建设的新版西藏藏语言文字网正式开通,该网站是国家语委系统支持的首个民族语言文字网站,提供PC和移动终端访问功能[15]。
2017年12月,西藏大学作为首席科学家单位牵头承担全区高校首个国家重点研发计划重点专项——“藏文文献资源数字化技术集成与应用示范”。项目以藏文文献资源数字化技术集成与应用示范为目标,以新一代人工智能技术、数字化技术、藏文信息技术和网络技术为支撑,攻克制约藏文文献数字化事业发展的关键技术,创新藏文文献资源开发利用模式,提升我国藏文文献资源开发和应用领域科技创新支撑能力与水平,助力我国文化科技服务业支撑平台研发与示范。
2013年,科技部批准成立西藏大学“藏文信息技术创新人才培养示范基地”。2017年,西藏自治区科技厅立项建设“藏文信息技术人工智能重点实验室”。
这个时期藏文信息技术基础理论研究也取得重要进展。我区藏文信息技术研究人员研究了藏文拼写形式语言及其自动机,出版了第一个藏语计算语言学中文和英文版学术著作《藏文拼写形式语言及其自动机研究和应用》[16],首次创新性地提出解决计算机藏文拼写检查、机器排序、自动校对和智能输入技术难题的理论和方法,并成功应用于研发实践。
在改革开放以来国家经济和科技高速发展的背景下,我区科技工作者在国家和自治区的高度关注和大力支持下,努力开拓,与时俱进,在藏文信息技术标准制定、应用系统研发、自然语言处理、文化资源数字化、基础理论研究等领域填补一系列空白,取得一系列具有自主知识产权的研究成果,许多研发成果被鉴定达到国际领先、国际先进水平。《信息交换用藏文编码字符集》国际标准和GB16959—1997的颁布和实施[17],各类计算机藏文软件的推广应用,藏文通信技术的日臻成熟和普及,以及藏语自然语言处理和藏文文献资源数字化技术研发成果面向社会服务在国内外产生了广泛影响,为确立我国在国际藏文信息技术领域的主导地位做出突出贡献。
随着藏文信息技术研发与推广应用,锻炼和培养了一支藏文信息技术的专业人才队伍,使藏文信息技术服务西藏经济社会发展和藏文现代化的能力不断提升。
2011年7月18日,时任中央政治局常委、国家副主席、中央代表团团长习近平同志在参加西藏和平解放六十周年庆祝活动之际,视察了西藏大学,并亲自试用了藏汉英智能语言教具系统,称赞“这样的应用研究成果很好”[18],殷切期望科研工作者做好藏文信息技术研发工作。
2008年,西藏大学“藏文信息处理应用技术研究”成果获西藏自治区科学技术奖二等奖;2010年,西藏大学GB16959—1997《信息技术信息交换用藏文编码字符集基本集》藏文编码标准获得中国标准创新贡献奖一等奖;2012年,西藏大学“藏文软件研发与推广应用”成果获得国家科技进步二等奖[19];2013年,西藏大学“藏文信息化关键技术及综合应用平台研究”成果获西藏自治区科学技术奖一等奖;2016年,西藏大学“藏文图书期刊数据库及资源管理与检索平台”成果获西藏自治区科学技术奖二等奖;2017年,西藏大学“藏语自然语言处理关键技术研究与应用”成果获西藏自治区科学技术奖一等奖。
随着计算机技术和英特网的蓬勃发展,信息技术已经与人们的日常工作、学习生活息息相关,它正以惊人的速度进入人类社会的各个角落。推进语言文字信息化是一项庞大而极富有挑战性的工程。一方面,信息技术的迅猛发展给语言文字的信息化和现代化带来了新的机遇[20],同时,信息化时代加速了各种语言文字之间的竞争,使全球数字鸿沟呈现扩大趋势,发展失衡现象日趋严重,各种语言文字的地位差异在信息化时代有扩大的趋势[21]。将古老的藏文与现代信息技术相结合,对传承优秀中华文化,扩大中华文化影响力,促进民族文化交流,提升西藏整体信息化水平,推动经济社会发展具有重要意义。
语言文字是信息的主要载体,因而语言文字的信息化在社会信息化中占有举足轻重的地位。维护信息化安全成为维护国家主权完整的核心内容之一,语言文字信息化对国家安全的作用日益凸显[22]。藏文的故乡在中国,她是西藏农牧民群众的主要交流工具,她的信息化直接关乎西藏社会的整体信息化水平,关乎民族团结和社会长治久安。
藏族文化是中华文化宝库中的瑰宝,藏文是藏族文化的重要载体。将古老的藏文与现代信息技术研发相结合,对传承优秀中华文化,扩大中华文化影响力,促进民族文化交流,推动西藏经济社会发展具有重要意义。
教育是世界上每个国家的立国之本,教育资源是推动教育、科技、经济、文化发展的主要支撑,而语言文字作为文化的载体,其资源建设是教育资源建设的核心。在信息时代,一种语言文字资源建设的基础是这个语言文字的信息化。当然,语言文字的建设规模和水平也影响着该语言文字信息化的发展水平。
2018年教育部正式提出“教育信息化2.0行动计划”,提出“互联网+”的大资源观,即构建知识图谱。知识图谱的研究是这几年西藏藏文信息技术研究中的一个热点,需要通过大量的语言文字资源构造知识之间的关系,从而达到知识资源的共享,所以藏文信息化是西藏教育信息化的必要基础保障,也是实现教育现代化、教育智能化的主要途径。
计算机辅助教学成为西藏各个学校教学中的主要手段,多媒体教学理念以及教学技术的融入,使更多教师与学生认识到信息技术的重要性,无论是教学手段,还是学习手段都开始朝着信息化方向发展。很多教师已经开始尝试结合西藏中小学教学手段制作自学软件、测试软件、教学软件,等等,随着多媒体系统的逐步完善,加之非常丰富的网络资源,使得教学更加具有活力。
基础理论研究是任何一种文字信息化的基本工作,藏文信息化也不例外。有了扎实的基础理论,藏文信息化就能够快速发展,走向成熟。缺乏基础理论的支撑,藏文信息化的发展将会遇到无法突破的瓶颈,发展速度和水平受到严重影响。从信息技术的角度研究以藏文文法为核心的知识体系,进而结合自然语言处理的理论和方法,研究藏语自然语言处理(藏语计算语言学)的基本理论和方法。
目前,藏文信息技术研发领域存在热衷“拿来主义”,轻视基础理论和方法研究的现象。藏文信息技术要想持续不断地发展,就必须夯实基础,强化研发力度,突出特色,不断进行集成创新,朝着原始创新的方向不断努力。国际自然语言处理技术发展十分迅速,一个显著的特点就是自然语言处理技术与人工智能的深度结合[23]。藏文信息技术需要在学习、吸收、实践传统自然语言处理技术的同时,跟踪学习机器学习等人工智能的基本理论和方法[24],厚积薄发,在新的技术发展阶段实现新的飞跃。
藏文至今已有1300多年的历史。藏文文法自成体系,非常严谨,有较强的规律性、逻辑性以及稳定性。目前对藏文信息技术的研究对象——以藏文文法为核心的知识体系的挖掘非常欠缺,亟待从语用、语境、语音、语义、语法等方面,对以藏文文法为核心的知识体系进行定量化、精细化的分析研究,以适应藏文信息化在深度和广度上发展的需求。
语言资源的建设是藏文信息化的基础工程,尤其是在人工智能阶段更是如此。目前,藏文语言资源建设存在发展的不充分性、离散性和封闭性等问题,大多数资源还达不到实际可用的规模和程度,更没有一个好的资源共享机制,使得一些可用的资源也难以推广和共享。
在中文资源建设以及资源共享方面,以清华大学为首的高等院校和相关教育机构创建了中文语言数据联盟,从建立至今该联盟已经拥有70多个会员单位,其资源包括80多种语言资源,还有《分词词性标注语料库》《中英双语语料库》《汉语语法树库》《汉语语法信息词典(高频词)》等大量语言资源[25]。
中文语言资源联盟的成功建设,为藏文信息化领域建立藏文数据资源联盟提供了可借鉴的成功经验。
从实际的需求来讲,在藏文语言资源的建设过程当中,我们必须确保不论是语言信息还是知识库都具有较高的通用性。同时,还必须确保资源建设具有良好的开放性、系统性、完整性、规范性和权威性。
就目前的情况来看,不论是英语还是汉语,都已经建立了现代化的,免费、开放的信息处理平台,这极大地促进了技术的传播和发展[26]。目前藏文信息化还没有建设开放的藏语自然语言处理平台,藏语自动分词和词性标注等很多研发工作在低水平上重复,极大地妨碍了藏文信息技术研发。应尽早建设西藏藏文信息化开放平台,既实现技术和资源的开放共享,同时为藏文信息技术研发人员搭建协同研发、创新平台,避免研发工作的孤军奋战,低水平重复。
学术交流是技术发展的必要条件和催化剂,藏文信息技术研究也必须进行广泛的学术交流。目前,国内外自然语言处理学术交流非常频繁,国外的顶级学术会议有ACL(国际计算语言学会议)、IJCAI(国际人工智能联合会议)、AAAI(美国人工智能协会年会)、EMNLP(自然语言处理实践方法大会)、COLING(计算语言学国际大会)等;国内也有很多具有影响力的学术会议,比如中国计算机大会、全国计算语言学学术会议、自然语言处理青年学者研讨会,以及全国学生计算语言学研讨会、全国机器翻译研讨会、全国信息检索学术会议、中国少数民族语言文字信息处理学术研讨会等。这些国内外学术会议是藏文信息技术研发人员的重要学术交流平台,应该积极参与,相互交流和学习,共同进步和发展。同时,通过与国内从事自然语言处理的研究机构合作,邀请国内著名的自然语言处理专家举办学术讲座等方式,学习了解最新的理论、方法,开阔研究思维。
在西藏藏文信息化30多年的辉煌历程中,产生了一批令人鼓舞的研究成果。与此同时,我们也应该清醒地认识到,目前藏文信息技术还没有构建起较为完善的理论和方法体系,许多基础研究和应用研发还处在摸索阶段。藏文信息化涉及到计算机、语言学以及认知学等诸多学科,具有学科交叉的复杂性,是一项艰巨的系统工程,有许多研究领域有待开拓,有大量的研究工作有待开展,有许多的技术难题有待解决,藏文信息化工作任重道远!