计算语言学和自然语言处理:影响现代人生活的研究领域*
——访谈认知心理语言学专家左密夏博士

2015-11-27 11:24苏俊铭宋灵青
中国电化教育 2015年5期
关键词:语言学语言研究

苏俊铭,宋灵青

(1.台南大学 数字学习科技系,台湾 台南 70101;2.中央电化教育馆,北京 100031)

计算语言学和自然语言处理:影响现代人生活的研究领域*
——访谈认知心理语言学专家左密夏博士

苏俊铭1,宋灵青2

(1.台南大学 数字学习科技系,台湾 台南 70101;2.中央电化教育馆,北京 100031)

自然语言处理;计算语言学;认知科学;信息检索

访谈者:左密夏博士,首先非常感谢您接受此次专题访谈。您在计算语言学和认知科学研究领域工作了30多年,以这样丰富的经验,您一定有非常多的知识可以与大家分享。首先,您能否简要地告诉我们什么是计算语言学(CL)吗?再者,您能不能给我们一些相关的参考信息?

左密夏博士:这取决于您们的兴趣焦点。从狭义上讲,计算语言学可以简单定义为 “使计算机能够自动进行了解并产生语言所需要的操作流程”。我说“狭义” 是因为计算语言学和语言科技其实是可以应用到许多其他领域及实用任务。例如,它可以帮助人们进行沟通(听、说、读、写、理解)、获取信息,依此类推。

在所举后者的情况下,整体过程是互动的,它对使用者的习惯和需求必须具备一定的感受性与理解度。而这也正明显地指出计算语言学和认知科学是相关的。认知科学在这里结合了语言学家、计算机科学家和心理学家协同工作,以揭示解决特定问题时所需要的知识(此英文单字源自拉丁文的“认知”一词)和所需的专有技术(流程)。例如,在语言生成的研究领域中涉及到语言问题:如何告诉问路人怎样从地点A到达地点B。要解决这些问题,我们需要应用多重学科的态度及方法,这是极度重要的。然而,这并不是绝大多数人的实际做法,在一定程度上这是可以理解的,因为要做到多重学科互动首先需要具有一个相当开放的态度,并有和完全不同背景的“同事”做交流的意愿与态度。

再回到您最初的问题。计算语言学包含了信息沟通的四项主要技能所有必要的组成部分:口语、阅读、听力和写作。这些不仅要拥有关于意、形、声,即特定的语言知识(语法、词汇、词形),还需要包括其他类型的知识(世界知识、文化、社会习俗等)。这现象不限于母语,也适于其他外语,当然在翻译过程中更加凸显。它还涉及语言学习、信息获取、信息检索以及许多其他信息沟通的活动项目。如果您想对此有更深入了解,可以在维基百科以Computational Linguistics (计算语言学)或Language Technology (语言科技)来查找。

为了提供容易理解的相关数据,我在这次访谈文章后提供了一些重要的参考文献,分类列表来呈现语言研究和认知语言学[1-18]、计算语言学[19-42]、心理语言学[43-48]、神经语言学[49][50]、学习分析[51-53]的相关文献。此外,你们可以找到对应网站[54-58]连结,让有兴趣者能够快速地对“谁是谁”以及当今主要的议题、技术、出版物和相关研究会议等信息有初步的入门了解。

访谈者:既然CL不再处于“童年”时期,您能不能给大家一些它发展过程的细节,例如理论上和方法上的演化和改变?

左密夏博士:有鉴于本次访谈的范围,我对这个问题仅做简短回答。对于那些有兴趣进一步了解的读者,我建议阅读Jurafsky & Martin、Nugues和Altman的文章资料。这些内容都可以在网络上免费获取。回到您的问题。可想而知,在过去50年来,很多事情已经改变了。同样地,想要有一个粗略的概念,您们可以开始看看维基百科,通过搜索 “Natural Language Processing”“Computational Linguistics”“Human Language Technology”或“Artificial Intelligence”,这些研究领域是和NLP紧密相连的,至少在一开始时是如此的。

计算机在60年多前并不存在,语言学在当时主要是理论性学说,研究往往是根据极少量且特制的例句开展的。需要注意的是,时下的计算语言学家做自然语言处理(包括机器翻译)通常不依靠深厚的语言知识。整个处理是通过使用大量语言数据库加上机器自动学习,也就是用统计数据方法进行的。

谈起CL研究最初的驱动力是很有趣的。大约在50年前左右,结合了科学(语言学)、技术(计算机)和政治(“冷战时期”由俄罗斯发射人造地球卫星开始的太空竞赛等)因素,导致了在语言研究方面大规模的投资,或是我们今天所称的语言科技研究。

在早期时代,我们做了菲尔莫尔(Fillmore, 过去30年来最权威的语言学家之一)所称的“扶手椅语言学(Armchair Linguistics)”。现在的研究则是应用庞大的语料库,依靠机器学习和统计方法和理论。这和过去使用的方法有着根本上的不同。在当时多数的语言研究人员以规则式方法(Rule-based Approach)来处理假构的例句(Made-up Example)。后来,随着着人工智能(AI)时代的到来,研究者试图建立全面性的系统(语法分析器、语言生成器、机器翻译系统等)。所有这一切在20世纪80年代后期都因因特网(Internet)的出现和硬件的发展而发生了巨大变化。通过互联网我们能快速取得储存在网络上的信息,现代计算机功能都非常强大且有巨大的储存容量。此外,现今学者们习惯于为一个特定主题组成研究团体,互相快速地交换着数据、信息甚至程序编码。因此,今天的研究趋势不是建构或执行验证理论,而是在建造资源、应用巨大的数据化语料库,并评估其结果或方法的相对效率。此外,大量的语言处理是通过机器学习来完成。计算机不再只限于执行由程序人员直接下的指令,它能从巨量的数据中进行萃取(例如语料库)。

访谈者:也许您可以介绍一些使用CL的应用,以及它对我们社会或一般民众日常生活的影响。目前可见的有哪些影响?在不久的将来有哪些可能性?有哪些挑战?

左密夏博士:这里提及的研究结果都已融入我们的现代生活中,很多的应用实例已自然地充斥在生活周遭,一般使用者浑然不觉这些应用成品是需要上游的“人工”的处理。所有这些应用在二三十年以前是难以想象的。其中有些是在“前台”看得见的,因为它们经常是使用者付费的(例如您想安装一个电子字典);其他成果应用则像是“内勤”工作,我们甚至没有注意到它们(例如搜索引擎)。另有其他许多应用工具则每天为我们服务(不仅是研究学者、专员),例如机器翻译、电子词典、拼写检查、文本到语音转换器等。

值得注意的是最好成果仍在我们面前,这会在不太遥远的将来,可能再一个20年左右。这是因为学者们已经开始做知识资源和文字(数据语料库)的数据探勘,它可以被看作是将人类集体的大脑中所具有的知识(一个全球性的社会知识)进行外化的事实。例如,在语言学习和语言教学领域,研究学者已经开始探勘语言学习者的学习数据。

关于“CL怎么影响我们社会以及一般大众的日常生活 ?”这个问题,我的答案很简单。它对我们社会的影响是多层面的:教育(例如在线学习、终身学习、远程学习等)、文化、经济、军事等。很多工作直到最近都还是需要很大的人力投入,现在则可通过一台机器来执行。虽然这听起来可能有点可怕 (的确,如果管理不当的话),然而可以肯定的是,它也可以是非常有益的。想想一个普通公民的个人或专业需求,例如旅游信息、订票,农民或医生的各种需求。实际上现今已存在一些应用工具或服务,如联合国粮食和农业组织(FAO)以表格形式或自然语言形式,提供农民进行决策和解决问题时所需要的信息数据。这同样适用于许多其他领域。再如,一个住在偏远地区的人需要医疗救助。我们可以假设让此病人描述他的问题,以终端仪器进行现场测量读取其生理数据后,由机器来进行分析并建议适当的疗法。机器是参考已存有病者的基本数据及早先其家庭医师所记载的疾病纪录来进行分析。当然,这是不寻常的状况,是需要谨慎进行的,但在原则上是可以做到的,至少可以适应一些特殊的情况。

除了上述的例子,我再举一些与平常一般语言用户的需求更密切相关的实例。电子词典、数据语料库的存取查阅、阅读辅助工具、拼写检查器、双向言语翻译、信息和知识库(数据库、本体论、百科全书)获取、辅助通讯(文字简化、针对特定有认知缺陷的设计辅助工具)等,这些工具可以帮助那些找不到必要信息的语言学习者和用户。值得注意的是,虽然有很多有用的信息已经存在于网络上,它们往往还是相当静态的,在引入自然语言处理后,在撷取和萃取信息上增添了不少灵活性。例如,如果以文字字符串的匹配来搜索,通常很多相关网站都可能不会被显示的。但是,如果允许同义词或词形异变(“ring”和“rang”都是与拨打电话时有关联的概念)的搜索,那很多潜在相关的网站内容就可能会被呈现出来。

至于CL在未来的发展可能性和面临挑战,答案取决于您所定的目标,您想要理解人类的头脑和它是如何处理信息,或者您想要处理一个特定的语言(中文、法文等等)。CL处理方式是要完全自动式或交互式?您的目地是想建造一个资源(字典、知识库、本体)或是一个应用工具(阅读辅助、写作辅助、机器翻译)?显然,针对每个不同的目标会有它特定的挑战,针对每一个特定的语言也是同理的。

例如,一个外国人想学说中国话和写中文,将不得不面对发音、音调和文字的问题。中文里有许多音在西方语言(英语、西班牙语、德语等)里根本不存在的。它的书写系统更是完全不同的,因为西方语言以拼音为字的起点。值得注意的是,对即使是以中文为母语的人来说,书写正确中文字有时也是个问题。一般中文为母语的孩童也需要一段相当长的学习时间以达到相当程度的书写能力。

另举一个非常不同类的语言为例:学习法文的挑战之一在于它的发音(同音)和动词变化。而像芬兰语和俄罗斯语有众所周知的变格(主格、宾格等等)的难处,德文也有变格的特色。除此之外,其动词的位置也是一个挑战。至于日文,动词应该放在句子的尾端。我们可以不断地谈论每种语言的特殊性质,因为每一种语言都有其特定的问题。然而即使如此,各种不同的语言中也会有或多或少相似之处。

我们也不应忘记语言是表达思想的工具。然而,想法或概念仅是硬币的一面,另一面就是词形。另外很重要的一点是语言(包括文字)不仅是用来通讯沟通,它也是用来思考(或概念化)、脑力震荡、信息检索、推理等等。当我们在网络上搜索信息时,我们也用文字(查询问题),即使我们未必打算将这个搜索结果传达给他人。因此,我们需要使用语言以为了能够获得所需要的信息。另外,对于那些我们想要取得的知识,为了能利于检索,它不仅必须被储存,而且还要被系统索引和有组织地储存。还要注意的一点是语言往往不是绝对地精确:所有语言在它不同层面(词意、发音、词形)中常有许多含糊不清的现象。当我们说出单词“Mouse”时,我们指的是那体型小的哺乳动物或计算机鼠标(Computer Mouse)?当读到这个英文字“Read”时,您应该发音/rid/或/red/)?当听到发音/red/时,它指的是“颜色(红)”,或者“信息提取的活动(动词‘阅读’的过去式)”?正如您所见的,这领域仍存有大量的问题,其中许多仍尚在等待一个令人满意的解决方案。

访谈者:您提到语言学习者或语言教育者两者都可能受益于CL或语言科技方面所做的研究成果。能否请您在这个方面多谈一点,并显示两者之间的关系?

左密夏博士:在过去,学生的语言学习过程都会有一位语言老师、一本字典、一本文法书和一些语本教科书的。这类的学习是通过指令的学习方法,其过程等和自然学习是完全不同的。在进入学校制度之前,每个孩子都由生活中的日常活动里渐进地学会母语和其他方言,他无时无刻不暴露(或沉浸)在丰富且具多种语言信息形式(如图像、声音等)的环境中,这种不知不觉地学习方式就像一切都是自然而然发生的。这种形式的学习环境我们可以通过现代技术来进行重建。我们可以通过看电影,听我们喜欢的音乐等活动来学习外语。换句话说,我们可以一边学习一边获得乐趣。但是,要让这种学习方式真正地可行并有效率,信息必须被处理并相对有意义地呈现在各个动态环境中,这点大体来说已经有相当的发展。我们可以看到有字幕的原文电影,我们可以减慢语言录音说话的速度或改变音调或口音、我们可以通过谷歌翻译将一份文件翻成自己懂的语言等。在用计算机工作时,我们可以随时从弹出的窗口查询一个未知单词的意思。

同样地,我们能想象有一些系统工具专门协助写作。当然,现今已有许多拼写检查器和电子字典,但我认为可以研发辅助写作风格和文体的工具。它会自动检测文章所提供的信息以及内容的逻辑顺序(连贯性、凝聚力和代名词的正确使用)等等。例如,在一个故事编写中,您可能写着 “很久很久以前,有一个名字叫亨利的国王。他有三个女儿,……”。正如您所看到的,语言里有很多方法来指代同一个人:他的名字(亨利),他的功能(国王),或以简单的代词(他、他的)来再次提到同一个人。然而,代词的选用并不总是很容易地来决定要使用哪一个。例如在幼儿的语言学习中,他必须学习不能直接以“他”来启动一段对话中的第一个句子,因为听众可能不知道“他”指的是谁。这是在成长经历中社会化过程的一部分,您必须学会不仅从自己的角度,也从接收您的信息者的角度来看世界。语言生成的目的,不仅在于传播说话者/写作者想表达的内容,还必须把听者/读者的知识、兴趣,甚至信仰等都列入语言生成过程中需要考虑的因素。

有鉴于这些和语言相关的复杂性,学习单词和语法规则是绝对不够的。语言基本技能的培养——阅读、写作和口语(流利度、发音正确度)是语言学习者极大的挑战。然而,这也正好是语言科技可以做出很大贡献的地方。今天已有多种学习辅助工具可以提供学习者许多学习的帮助。它们可帮学生们减轻认知负担和心理压力。它们专门负责处理学习中制式性方面(拼字、发音)的问题,由此可舒缓学习者的一部分压力,让他们的精神能够专注于更高层次的沟通(含义、因果关系的解释)。至于在导师或教师方面,语言科技工具可减轻他们的工作负担,就像各式各样的家用设备能帮我们省下许多打扫房子(吸尘器)、洗碗(洗碗机)或准备咖啡(咖啡机)等的时间和精力。此外,利用现代科技来学习可以让我们的学习过程变得很自然、像无意中所产生的效果。例如,我们可以想象在玩游戏的同时,在您所选择的语言中学到一些历史或地理的知识。在这种情况下,学习语言结合在其他的活动中,就像是意外得来具有正面效益的“副作用”效果。

访谈者:那有关于远距学习和计算机辅助语言学习(Computer-Assisted Language Learning, CALL)呢?它们用到CL/NLP的研究带来好处了吗?

左密夏博士:两者都已达到AAA级的优点:任何人(Anyone)、随时(Anytime)、随地(Anywhere)。也就是说,学习完全可由学习者时刻随其心情自定义。这是跟传统学习方式比较时一个很大并且不应该被低估的优点。不幸的是,远程学习和计算机辅助语言学习系统的开发常有过多的时间压力,主要是因为往往以短期的经济效益为考虑因素(时间投资效益)。这就是为什么它们很难深入探讨到CL/NLP的问题,尤其是以心理语言学家的观点来看这两者的发展。然而,CL/NLP的研究对这两者是绝对必要的,如果我们希望得到一些持续的解决方案,在系统的上游设计时间时就应正视与CL/NLP有关的问题。

访谈者:在这21世纪初,亚洲的地位逐渐明显,特别是中国在全球舞台上所扮演的角色也越来越重要(文化、政治和经济等各方面)。因此,我们一点也不惊讶地看到中文成为很热门的一种外语学习。可是,中文和印欧语言比较起来有很大不同,这些差异有可能会阻碍支持语言学习的CL工具的发展吗?如果有针对中文的特殊挑战难题,我们该如何解决这些问题呢?

左密夏博士:关于中文最近在外语学习中很受欢迎,这对一个开通的(Open-minded)人来说是一件很令人兴奋的事。其实,我一直以为语言学家们都应该学习一门与自己的母语完全不同的语言。就此观点而言,中文是一个很好的“候选人”,尤其当我们顾及到它在全球的使用度。学习一个很多人使用的语言显然是一项很好的投资。我认为中文具有其他语言少有的一些优点。可惜的是,我对中文的了解还很浅薄,但如果我的初步理解是正确的话,中文的词汇相当具有逻辑性,这是任何语言中一个重要的组成部分。不同于一些西方语言用户也对自己的语言提出这种说法,中文的确在一定程度上是非常有逻辑的。事实上,中文的词汇似乎在许多方面类似于本体论(Ontology)(在特定领域中,概念间的关联分类)。既然语言的功能不限于只做为表达工具,也能进行思考,那拥有一个逻辑结构很强的词库也可作为一项资产投资。因此,即使中文在很多方面和西方语言不同,但这并没有阻止研究学者们针对中文进行CL/NLP的研究。其实在过去的二三十年来,在CL已经有相当的成果(例如台湾Sinica的语言学研究所)。同时,越来越多人对这种语言会有研究兴趣,进而基于研究的结果来研发语言学习/教材工具。关于问题的第二部分,我深信在这领域中真正的研究瓶颈不是语言本身,而是在于语言学习者、教师、语言学家、计算机科学家、心理学家等之间缺乏真正的合作与交流。换言而之,这才是真正的问题所在:更多在于人性层面问题(人与人之间,行政制度的官僚化等),这些障碍都比语言特殊性的困难更不易被解决。

此外,从研究者的角度来看,有些问题是与我们对想要进行自动化处理的学科主题不够了解有关。例如,哪些知识需要被灌入程序中才能让它能自动产生有相关性的结果。话虽如此,我仍然认为主要的障碍停留在各类学者专家们不知道如何一起工作,而决策者不够重视跨学科的研究工作。

访谈者:左密夏博士,我们知道您的背景是心理语言学和认知科学。这两个学科在语言学习/教学研究和软件的设计上能有哪些贡献?

左密夏博士:这两个学科的领域是很广泛的,它们涵盖许多的研究主题并不一定是语言学习方面最为重要的问题。但在另一方面,在它们研究的问题中,也有我们语言领域中极需要做更多清楚了解的问题,例如如何有效学习和记忆、如何索取信息、如何激发/维持学生的学习兴趣等等。心理学既可是理论也可是应用的,但它的应用成果工作很少被重视。而且,就像是有良好的科学和无趣的科学一样,也有很好的应用和没什么用处的应用程序。我认为,苹果计算机公司,今天被公认为一个很成功的故事,很明显地证明了良好的跨学科工作的重要性。他们的工程师一开始便先从用户的角度来设想,建造一台为使用者而设计的机器,因此使用者不须花太多的时间来学习使用这台机器,几乎是很本能性的。或许科学家和行政人员、决策者们都应该吸取这样的经验,偶尔转个头,看看语言用户的需求。有多少次词典编纂者曾试图去理解一位字典用户在查找一个单词时是如何进行的?为什么他突然停下来,或者为什么继续、又如何继续查找?这些都是重要的问题。我们太重视答案及它的正确率,却忽视了“奖赏”一下好的问题,我们常忘记不适当的问题是找不到答案的,而一个很好的问题常常已经包含形成答案的“种子”。

回到您的问题。心理语言学家和认知科学家对于我们的头脑、心理(记忆力、注意力等)如何运作很感兴趣。而不同于语言学家往往只能看“产品”(单词、句子),心理学家主要是着重在观察过程。他们感兴趣的是结构(什么组件被储存)、组件之间的功能性关系(信息流通)等。他们思考观察起点(输入:场景、目标)和相对的输入(想法)和输出(句子)的中间过程步骤。因为对过程有研究兴趣,他们试着揣摩相互对照的图表:两个相邻的级别中间,比如概念和词语,是如何牵引互动?是否有来自较低层级别(例如声音)对较高层级别的概念的反馈等等。

很显然,我们期望这两个学科能对语言的教学和学习做出直接的贡献。事实上过去也有不少尝试,但并没有很好的效果。我知道的一些很好的方法不是科学家提出的,而是一些拥有丰富的语言学习或语言教学经验的人提出的。他们不一定是心理学家或科学家,但他们拥有的特质是对语言学习这个主题真正感到兴趣,同时也拥有很多的第一手经验,所以他们的知识是有实证根据的。

这意味着他们曾经认真地尝试学习一门语言,包括那些和他们母语完全不同的语言。这也可能意味着他们继续这样做,学习发展一项新技能,同时也发展了对于学习新语言的宝贵基本知识。因此,他们发展了良好的观察和分析能力,以反映他们的经验。这些经验不是植根于书籍或书本的知识上,而是在语言上的,因为它是作为人在一个具体真实的环境中所活用与使用着的。

访谈者:跨学科及多学科研究对于应用程序与工具的开发在哪些方面有帮助呢?

左密夏博士:从我的角度来看,答案很简单:即使您本身有很好的直觉和充分的经验,有时候在研发过程中仍然会需要依赖于您所知不多的元素。假设您是一位做糕点的专家,但这仍然不意味着您知道如何成功地销售它们。售卖是一种专门知识,和糕点或饼干的创作有极少的相关处。它是与市场营销、美学、经济学(如何标出合适的价格)等相关联的。由此可见,这牵涉到许多不同领域的专门知识。

我拿前面提到的苹果计算机公司为例。来自Cupertino的工程师很重视人体因素。他们已经创建了一个非常适合人使用的界面。机器的设计考虑配合使用者的习惯。这里面的理念就是由机器,或更确切地说,由它的设计者来配合使用者,而不是由使用者来适应机器。这样的策略被其竞争对手(微软)完全忽视,而这几乎毁了他们。有趣的是,微软从苹果的 “配方”(界面)得到了启发,从那之后,他们再次做得相当不错。我们所谈论的主题跨学科研究是有很多优点的,其中很明显的两点就是参与者之间相互交流与丰富彼此的知识与经验,进而提高最终成果的质量(即正确度的优化)。

访谈者:要把这些想法变成被一般人使用的具体程序有多难?有哪些瓶颈?

左密夏博士:如我先前已有的建议,主要瓶颈既不是缺乏知识,也不是缺钱,主要的障碍是人们的自我中心意识。身为研究者,我们应该保有谦虚的态度。如果想要做的东西的确很好,那就需要时间和真诚投入。您可能始终并没有成功,但至少您已经尽力了。此外,最后成果归功于谁并不那么重要(或者,不应该是那么重要)。因为真理是:我们自己有的主意常常是由别人、别处而来的,这是创作的正常过程。

访谈者:正如已经提到的,我们生活周遭充斥着各种“小玩意(Gadgets)”和看似拥有无限可能性的设备与器具。自然语言处理在这些对象扮演什么样的角色?有什么样的限制?

左密夏博士:这是一个有趣的问题。的确,在现代生活中,我们周围常环绕着这些“好的服务与工具”,但大多数人并没有意识到设计制造它们时是多么困难。当年轻人得到通过复杂计算的外文翻译时,不要期待从他们的脸上看到惊喜的表情。对年轻的这一代来说,这些都好像很理所当然的事。然而更令人惊异的事实是,虽然我们在理解语言方面有了真正的进展,当涉及到沟通信息时我们仍然可说是迟滞不前与进展不大的。您或许可以将语言说得很好,我的意思是没有犯任何文法、发音、或选词的错,但仍无法清楚地表达自己的意见、想法、或让对方感动。您可以通过邀请您关心却不熟的人一起吃晚饭来测试前述的论点。您也可以尝试是否能成功地让您的父亲、老师、还是警察了解您的观点,尤其是如果您的看法与他们有很大不同的时候。这已不是语言的问题,而是人文知识的问题。

显然,语言及其处理是很重要的,但更重要的是沟通的艺术。当然,语言的使用也有其它目的,如数据检索和信息取得等。从这个角度来看,语言本身是必要的。然而,知识,即取得的信息,不应该是唯一被考虑的成分,如何使用它也是个值得探讨的问题。

从长远来看,我相信不会有太多限制来阻碍计算机科技成功地进行复杂的认知与语言任务的。况且现今似乎已有充分的证据让人相信某些计算机已经比我们许多人更聪明,他们很快就能超越我们之中大多数人的表现。当然,它们仍然缺乏许多特质,比如一般常识、情绪等,但这些局限性很可能在不太遥远的将来就能被克服。总之,机器可以在某些领域比人们有更好的执行成果,这事实本身并不是一个问题,因为只要我们对它们仍保有控制能力。然而,这可能不会永久保持不变,我们肯定要学习。机器已经在“控制”我们的生活(例如电视)了,但这该指责谁呢?生活周遭中充斥着众多噱头和符号形象,我们出现了变得越来越需要辅助和依赖的现象。我们正在失去越来越多曾经拥有的技巧和能力(记忆、观察等)。尽管如此,这现象是可以修正的。智慧和哲学应该始终优先于技术,这也就是科技始终来自于人性。

访谈者:谢谢您接受我们的采访。

[1] J. Aitchison. Words in the Mind: An Introduction to the Mental Lexicon[M]. Oxford and New York: Basil Blackwell, 2003.

[2] J. Aitchison. The Articulate Mammal: An Introduction to Psycholinguistics[M]. London and New York: Routledge, 1998.

[3] G. Altmann. The Ascent of Babel: An Exploration of Language, Mind,and Understanding[M]. Oxford: Oxford University Press, 2012.

[4] C. Boeckx. Language in Cognition: Uncovering Mental Structures and the Rules Behind Them[M]. Chichester: Wiley-Blackwell, 2010.

[5] W. Levelt. Speaking: From Intention to Articulation[M]. Cambridge,Mass: Bradford Book/MIT Press, 1989.

[6] G. Miller and P. Johnson-Laird. Language and Perception[M].Cambridge:Belknap Press, 1976.

[7] S. Pinker. The Language Instinct[M]. Cambridge, MA: MIT Press,1994.

[8] S. Pinker. How the Mind Works[M]. London: Penguin Press, 1997.

[9] L. Vygotsky. Thought and Language[M]. Cambridge, MA: MIT Press,1961.

[10] LT. Language Technology[DB/OL]. http://en.wikipedia.org/wiki/Language_technology, 2015-03-27.

[11] AI.Artificial Intelligence[DB/OL]. http://en.wikipedia.org/wiki/Artificial_intelligence, 2015-03-27.

[12] J. Read. Research in Teaching Vocabulary[J].Annual Review of Applied Linguistics, 2004, (24): 146-161.

[13] T.D. Rudick. Rikai[DB/OL]. http://www.rikai.com/perl/HomePage.pl?Language=Ja, 2015-03-27.

[14] Popjisyo. Read Japanese, Chinese and Korean Web Sites with Popup Hints [DB/OL]. http://www.popjisyo.com/WebHint/Portal_e.aspx,2015-03-27.

[15] C.J. Fillmore. “Corpus Linguistics” or “Computer-aided Armchair Linguistics”[A].J.Svartvik. In Directions in Corpus Linguistics.Proceedings of Nobel Symposium 82.Stockholm, 4-8 Auguest 1991[C].Berlin: Mountain de Gruyter, 1992.35-60.

[16] V. Fromkin, R. Rodman, and N. Hyams. An Introduction to Language[M]. Boston, MA: Thomson Wadsworth, 2007.

[17] M. Gasser, How Language Works: The Cognitive Science of Linguistics[DB/OL]. http://www.indiana.edu/~hlw, 2015-03-27.

[18] A. Radford, R.M. Atkinson, D. Britain, H. Clahsen, and A.J. Spencer.Linguistics: An Introduction [M]. Oxford: Cambridge University Press,1999.

[19] D. Jurafsky and J.H. Martin. Speech and Language Processing:An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition [DB/OL]. http://www.cs.colorado.edu/%7Emartin/SLP/Updates/1.pdf, 2015-03-27.

[20] P.M. Nugues. An Overview of Language Processing [DB/OL]. http://link.springer.com/chapter/10.1007%2F3-540-34336-9_1, 2015-03-27.

[21] CL. Computational linguistics[DB/OL]. http://en.wikipedia.org/wiki/Computational_linguistics, 2015-03-27.

[22] H. Uszkoreit.DFKI-LT - What is Language Technology? [DB/OL].http://www.dfki.de/lt/lt-general.php, 2015-03-27.

[23] H. Uszkoreit. Language Technology-A First Overview[DB/OL].http://www.dfki.de/~hansu/LT.pdf, 2015-03-27.

[24] NLP. Natural Language Processing[DB/OL]. http://en.wikipedia.org/wiki/Natural_language_processing, 2015-03-27.

[25] NLP. History of Natural Language Processing[DB/OL].http://en.wikipedia.org/wiki/History_of_natural_language_processing, 2015-03-27.

[26] J. Allen, Natural Language Understanding[J]. Journal Computational Linguistics,1988, 14(4): 96-97.

[27] R. Grishman. Computational Linguistics: An Introduction. Studies in Natural Language Processing[M]. Cambridge: Cambridge University Press, 1986.

[28] D. Jurafsky and J.H. Martin. Speech and Language Processing[DB/OL].http://www.cs.colorado.edu/~martin/slp.html,2015-03-27.

[29] C.Manningand H. Schütze. Foundations of Statistical Natural Language Processing[DB/OL]. http://nlp.stanford.edu/fsnlp,2015-03-27.

[30] C. Manning, P.Raghavan, and H. Schütze. Introduction to Information Retrieval [DB/OL]. http://nlp.stanford.edu/IR-book/informationretrieval-book.html,2015-03-27.

[31] T. Winograd. Language as a Cognitive Process: Volume I: Syntax[M].Reading MA: Addison-Wesley, 1983.

[32] Clark, C. Fox, and S. Lappin. The Handbook of Computational Linguistics and Natural Language Processing[M]. Oxford: Wiley-Blackwell, 2010

[33] R. Cole, J. Mariani, H.Uszkoreit, A. Zaenen, and V. Zue. Survey of the State of the Art in Human Language Technology[M]. Oxford:Cambridge University Press, 1996.

[34] R. Dale, H. Moisl, and H.L. Somers. Handbook of natural language processing [M]. New York: Marcel Dekker, 2000.

[35] T. McEnery. Computational Linguistics: A Handbook & Toolbox For Natural Language Processing[M]. Wilmslow: Sigma, 1992.

[36] R. Mitkov. Handbook of Computational Linguistics[M].Oxford: Oxford University Press, 2005

[37] S. Bird, E. Klein, and E. Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit[DB/OL].http://www.nltk.org/book, 2015-03-27.

[38] P. Blackburn and K. Striegnitz. Natural Language Processing Techniques in Prolog[DB/OL].http://cs.union.edu/~striegnk/courses/nlp-with-prolog/html, 2015-03-27.

[39] M. Covington, M. Natural Language Processing for Prolog Programmers[M]. Englewood Cliffs, N.J: Prentice Hall, 1994.

[40] G. Ingersoll, T. Morton, and A.L. Farris. Taming Text. How to Find,Organize, and Manipulate It[M]. NY: Manning Publication, 2013.

[41] G. Gazdarand C. Mellish. Natural Language in LISP: an introduction to computational linguistics [M]. Boston:Addison Wesley, 1989.

[42] P.M. Nugues. An Introduction to Language Processing with Perl and Prolog[M]. Berlin: Springer, 2006.

[43] G.T.M. Altmann. History of Psycholinguistics[DB/OL].http://www.psycholinguistics.com/gerry_altmann/research/papers/files/encyclopedia.pdf, 2015-03-27.

[44] G.T.M. Altman. The language machine: Psycholinguistics in review[J]. British Journal of Psychology, 2001, (92): 129-170.

[45] H.H.Clark and E.V. Clark. Psychology and language: An introduction to psycholinguistics [M]. New York: Harcourt Brace Jovanovich, 1977.

[46] T. Harley. The Psychology of Language From Data to Theory[M].Essex, UK: Psychology Press, 2008.

[47] M. Christiansen and N. Chater. Connectionist Psycholinguistics [M].Santa Barbara, California: Greenwood Publishing Group, 2001.

[48] Dijkstra and K. de Smedt. Computational psycholinguistics: AI and connectionist models of human language processing[M]. London:Taylor & Francis, 1996.

[49] J. Ingram. Neurolinguistics: An Introduction to Spoken Language Processing and Its Disorders[M]. Cambridg: Cambridge University Press, 2007.

[50] S. Lamb. Pathways of the Brain: The Neurocognitive Basis of Language[DB/OL]. http://www.ruf.rice.edu/%7Elngbrain/main.htm,2015-03-27.

[51] 魏雪峰,宋灵青.学习分析:更好地理解学生个性化学习过程——访谈学习分析研究专家George Siemens教授[J].中国电化教育, 2013,(8):1-4.

[52] J.M.Su, S.S. Tseng, H.Y.Lin, and C.H. Chen. A Personalized Learning Content Adaption Mechanism to Meet Diverse User Needs in Mobile Learning Environment[J]. User Modeling and User-Adapted Interaction(UMUAI), 2011, 21(1):5-49.

[53] S.S. Tseng, P.C.Sue, J.M.Su, J.F.Weng, and W.N. Tsai. A New Approach for Constructing the Concept Map[J]. Computers &Education, 2007, (49): 691-707.

[54] ACL. Association for Computational Linguistics[DB/OL]. https://www.aclweb.org, 2015-03-27.

[55] Anthology. ACL Anthology-A Digital Archive of Research Papers in Computational Linguistics [DB/OL]. http://aclweb.org/anthology,2015-03-27.

[56] ACL Wiki. ACL Wiki Articles and Tutorials[DB/OL]. http://aclweb.org/aclwiki/index.php?title=Research, 2015-03-27.

[57] Neurolinguistics. Lngbrain-Language and Brain: Neurocognitive Linguistics [DB/OL]. http://www.ruf.rice.edu/~lngbrain, 2015-03-27.

[58] S. Clark. Practical Linguistically Motivated Parsing[DB/OL]. http://videolectures.net/clspss09_clark_lspl, 2015-03-27.

苏俊铭:博士,助理教授,研究方向为适性学习与评量、智能型系统、扩增实境与仿真系统、可视化人机互动、云端及因特网应用(junming.su@gmail.com)。

宋灵青:博士,编辑,副编审,研究方向为信息技术教育实践与教师专业发展(songlingqing@126.com)。

Editor’s Commentary:Knowledge, i.e. information and its transmission via language are omnipresent in our modern life of the 21st century. People are continuously receiving information, communicating and social networking via their desktops, television sets and mobile devices in work and in their private life. How do we transform traditional static information, for instance, books, newspapers and so on to dynamic data, interpretable in various forms (written/audio/video), accessible at any time, from any where? What are the “inevitable” steps in the process? In order to understand the upstream research for these achievements, we have interviewed Dr.Michael Zock on this topic to glean some of his insights on these topics. Dr. Zock has been active in Computational Linguistics(CL)and Natural Language Processing(NLP)for more than 30 years. He has obtained his PhD in experimental psychology, and has been appointed as tenured researcher by the CNRS (French National Center for Scientific Research). After 20 years working at LIMSI, an Artificial Intelligent Laboratory near Paris, he has joined the NLP group of the LIF (Lab. of Fundamental Informatics)of Aix-Marseille University in 2006.His research interests lie in language production by and large. Starting from user needs and empirical findings (psycholinguistics, neurosciences), he attempts to build tools to help people to acquire the skill of speaking and/or writing. His current research comprise: message-planning, outline planning, lexical access, and the acquisition of basic speaking skills in a foreign language. Dr. Zock is an international well-known researcher in NLP. He has published extensively and some of his publications are considered to be essential for the field. Besides playing a federating role to gather people around an idea(Natural Language Generation, CALL, Cognitive aspects of the lexicon), he has often produced pioneering ideas, most prominently on conceptual authoring, lexical access and language learning (how to learn quickly and painlessly the skill of speaking a foreign langue). His research has often been cited as it has helped to advance the field. Having been invited to Japan and Korea many times, Dr. Zock is currently collaborating with Prof. Jun-Ming Su of the University of Tainan in Taiwan. His stay is financed by a government funding research project in the domain of Foreign Language Learning/Teaching.

Computational Linguistics (CL) and Natural Language Processing (NLP): A Research Field with Impact on Our Modern Life——An Interview with Michael Zock

Su Junming1,Song Lingqing2
(1.Department of Information and Learning Technology, University of Tainan, Tainan Taiwan 70101;2.National Center for Educational Technology, Beijing 100031)

Natural Language Processing; Computational Linguistics; Cognitive Science; Information Retrieval

编者按:在21世纪现代生活中,知识,即信息,通过语言媒介的传达无所不在。大众无时无刻在工作场合或私人领域中不断地通过家庭计算机、电视机和移动通讯设备来接收信息、进行传播和网络社交。我们是如何通过各种不同形式(文字/音频/视频)将传统的静态信息(例如书本与报纸等)转换成动态数据的,而且在任何时间,从任何地点都能取得?过程中有哪些“不可避免”的步骤呢?为了了解实现这些成果的相关研究,我们邀访了左密夏(Michael Zock)博士,请他针对此主题根据他的特长及多年来的研究经验分享见解及看法。

左密夏博士在自然语言处理(Natural Language Processing)和计算语言学(Computational Linguistics)的研究领域已经有30多年的研究经验。他在获得实验心理学博士学位后,被聘任为法国国家科学研究中心的终身研究员。他在巴黎附近的人工智能实验室LIMSI工作了20多年。自2006年起,在艾克斯马赛大学(Aix-Marseille)基础信息学实验室(Lab. of Fundamental Informatics)的自然语言处理组(NLP Group)工作。他的研究兴趣主要在于语言生成领域(Language Production),以用户需求与实证研究(心理语言学、神经科学)结果为出发点,进行研发与构建工具来帮助语言学习者获得口语表达和(或)书写的能力。他目前的研究重点包括:信息规划(Message Planning)、写作大纲规划(Outline Planning)、词汇存取(Lexical Access)和基础外语口说技能学习(Basic Speaking Skills Acquisition)。

左密夏博士在自然语言处理研究领域是国际知名学者。他发表了许多研究成果,其中包含该领域中被认为非常重要的研究。他除了积极扮演促进学者间进行各样主题(如自然语言生成、计算机辅助教学、词汇的认知特点)交流的角色(如通过举办研讨会、暑期专题学校、专题工作坊等)外,也经常提出创新想法,尤其是概念创作、词汇存取和语言学习(如何快速、轻松地学习外语口语表达技巧)。因此,他的研究在该领域中经常被引用。他也曾多次获得国家研究经费受邀到日本和韩国等国参与长期与短期的专题研究,并于2013-2014年间应邀聘请在台湾台南大学与苏俊铭教授合作研究政府资助的外语学习/教学研究项目。

G434

A

1006—9860(2015)05—0006—08

*本文受科研项目“支持自律学习的适性学习与诊断系统之研究与评估”(项目编号:NSC 102-2811-S-024-001和NSC 101-2511-S-024-004-MY3)资助。

猜你喜欢
语言学语言研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
语言是刀
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
让语言描写摇曳多姿
书讯《百年中国语言学思想史》出版
我有我语言