李显勇 李齐治 胡容维
摘要:“自然语言处理”融合了数学,计算机等多门学科知识,是人工智能专业的核心课程。结合近几年的教学与科研实践,对“自然语言处理”发展历程进行了教学探讨,从不同学派的理论与技术、单一技术的发展、系统思维、数学方法、联系与发展和学术前沿六个方面对自然语言处理的发展历程进行了分析,旨在将自然语言处理的理论与技术融入其发展历程,调动学生的学习热情,准确地课程的相关理论与技术。
关键词:自然语言处理;课程教学;发展历程;发展观点
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2022)26-0130-03
1 引言
随着信息与网络技术的飞速发展,人与人之间可以采用微博、微信、QQ等多种社交平台进行实时、方便、快捷地交流。2021年6月,中国互联网中心(CNNIC) 发布的报告表明[1],我国网民数量已达10.11亿,互联网普及率达71.6%,大量用户实时参与网络媒体互动与评论。2021年第一季度微信与WeChat月活12.416亿,同比增长3.3%,每天产生数亿条消息。iiMedia Research(艾媒咨询)最新发布的报告表明[1-2],我国社交网络用户主要采用文字聊天方式进行日常交流。可见,人们习惯于在网络上进行交流,由此产生的庞大数据,收集、整理和分析这些数据尤为重要,它能揭示人们在互联网上社会交往活动的一般规律,为国家文化、社会、经济等提供决策支撑。
自然语言处理(NLP) 为网络数据的收集、整理和分析提供了良好的解决方案。当前,自然语言处理属于计算机科学、人工智能等学科的热点研究领域,其研究目的在于实现人与计算机之间的正确理解和有效交流。它的研究涉及人们在日常生活中相互交流所使用的不同语言,因此语言学对自然语言处理的研究起重要作用,它与数学知识和计算机知识共同构成了自然语言处理的知识理论体系。自然语言处理属于计算机科学的范畴[3],它的最终研究目标在于研制有效地利用自然语言进行通信的计算机软件系统。
“自然语言处理”课程是很多高校计算机专业的核心课程,涉及内容包括信息检索与抽取、机器翻译、文本生成、情感分析、知识库等。面对丰富的理论知识和技术,教好这门课程,提升学生的学习热情与兴趣,成为老师们关注的焦点。陈艳平[4]从课程教学目标和理论教学两方面进行了阐释。罗世奇等[5]结合地方院校的特点,讨论了利用项目实现教学目的的教学方法。傅迎华等[6]基于实际例子探讨了课程的教学目标、理论教学内容选择、实验内容安排和设计等。钟茂生等[7]介绍了"问题引导+项目驱动"的“自然语言处理”教学与实践方法,及其实施过程和教学效果。
教学需要教师不断地去探索、创新与发展的教学方式与方法,本文将探讨“自然语言处理”发展历程的教学,将自然语言处理的理论与技术融入自然语言处理发展历程中进行教学,提高学生的学习兴趣和悟性,培养学生的创新能力。
2 “自然语言处理”发展历程的教学探讨
自然语言处理的发展历程是一个艰辛且充满机遇的过程,从提出至今已有70多年的历史,但是现在仍处于期望膨胀期,且被评为了AI未来十年重点发展方向[9]。在其发展过程中,可分为三个阶段:第一个阶段为符号主义与经验主义占主流的阶段;第二个阶段为理性主义与统计主义占主流的阶段;第三个阶段为连接主义占主流的阶段。教学过程中,基于这三个发展阶段介绍相关理论与技术,以及涉及的重要人物成果,有利于学生理清自然语言处理发展历程,用发展的观点指导“自然语言处理”课程的学习与实践。例如,讲解第三阶段连接主义时,可以从最初的神经元数学模型(MP模型)开始,到1960至1970年代的连接主义(如脑模型),再到Rumelhart等在1986年建立的反向传播算法[8][13],最终过渡到近几年的循环神经网络(Recurrent Neural Network, RNN) 、长短期记忆网络(Long Short-Term Memory, LSTM) 、词嵌入(word embedding) 、注意力模型(Attention Model, AM) 等,以时间为主线,理论与技术的发展为脉络进行介绍与分析。自然语言处理发展历程可从以下几个维度进行教学。
2.1 从不同学派的理论与技术看待自然语言处理发展历程
自然语言处理高度融合了数学,计算机等学科,研究方向中也包含了神经科学,生物学,心理学等。在自然语言处理发展的历史中,我们会看到不同学派之间的碰撞。正如哲学中的经验主义与理性主义一样,自然语言处理领域中的经验主义(统计主义)更看重的是证据,即所有理论和假设都必须被实验来检验。所以我们可以发现经验主义的方法都是统计的整个语料库中的概率,以此作为经验来验证我们的后续任务。而自然语言处理领域中的理性主义(符号主义),也如哲学中的理性主义,认为大部分的知识是来自感觉上的独立思考。就像正则表达式只提取我们需要的内容,而不会关心这个词在句子中是否是一个独立的个体。
在多个学派各自探索与研究的过程中,在初期时代是孤立的。可是随着学者们的不断前进,呈现出了高度综合化的趋势。自然语言处理在21世纪迎来发展的高潮,正是从图像与语音领域得到了启发,结合了深度学习才得到的成果。而这个高潮时代也离不开其他领域发展所带来的贡献,如果没有计算机科学、脑神经科学与认知科学不断发展而带来神经网络的高潮[13],也不会有连接主义的出现。随着学者们对自然语言处理研究的深入,不同学派之间也产生了融合。
2.2 从单一技术的发展看待自然语言处理发展历程
恩格斯的否定之否定规律揭示了事物发展的方向和道路[11]。在自然语言处理知识体系中,学者们对词嵌入技术的研究過程是一个不断螺旋上升的过程。学者们提出了一个新的词向量构建技术,后人在研究的过程中会发现其的不足,并加之完善。这样的过程伴随着词嵌入这项技术的发展。虽然在研究的过程中出现了许多问题,甚至谬误,但技术发展并未停滞,在学者们一次又一次地发现了不足后,加之完善,达到了更好的境地。可见词嵌入技术的发展历程是螺旋式、曲折式前进的过程。以否定之否定规律来看,词嵌入技术的发展历程可看成是技术内部矛盾引起的自我否定,内部矛盾转化,最终解决矛盾的过程[11]。而从整个词嵌入技术的发展过程来看,我们也可以推测出整个自然语言处理领域的发展是类似的情况,都是在前人工作中发现不足,并进行改正,不断完善理论的一个过程。在研究该领域的过程中,我们要从其历史进行科学的解读,针对出现的新问题,发现过去理论的不足,改正这些错误,并不断完善这个领域的理论。
2.3 从系统思维看待自然语言处理发展历程
系统思维是指将事物看成系统进行分析与处理[11]。在整个自然语言处理的过程中,自然语言处理可看作为一个系统,它是人工智能系统的一个子系统。系统理论与方法对自然语言处理技术的发展起重要的指导和促进作用。
系统理论着重从全局和整体两方面分析问题,注重事物之间的复杂联系,而不单方面地分析问题[11]。就像在自然语言处理的研究中,现阶段的工作都是基于文档、基于句子甚至是基于词语的,虽然我们能够将其看作为一个系统,但是人类在表达一句话的时候有可能会暗含许多信息(比如输入“520快乐”给计算机,计算机只能识别出一串数字“520”和一个词“快乐”,却不能够理解“520”暗指网络情人节)。这就表明了尽管现在自然语言处理正在蓬勃发展,但是却有一定的缺陷。近年来知识工程学科的研究就正在致力于解决计算机没有外部知识这一问题[4]。从这个方面来说,尽管现在对自然语言处理系统化的研究已经有了显著成果,但是依旧需要学者们站在一个更为宏观的角度来系统化看待这个问题。
2.4 从数学方法看待自然语言处理发展历程
数学是辩证的辅助手段和表达方式[12]。在学者研究自然语言处理的过程中,特别是统计主义学派与连接主义学派及其融合学派,通过发现自然语言的内在规律,对其进行数学建模,将其用数学公式形式化表达出来。正是由于数学作为基石,自然语言处理才能够稳步发展。计算机处理文字是一件复杂的事,正是由于词嵌入技术将文字映射到向量空间,才能够降低计算机运行的成本。在隐含马尔科夫模型中,通过双随机过程,能够实现为词语打标签的工作。数学无处不在,在发展过程中扮演举足轻重的作用,正是由学者将发现的规律进行简化并形式化表达为数学公式,才能够有层出不穷的新技术诞生。
2.5 从联系与发展看待自然语言处理发展历程
自然语言处理的发展历史上,离不开辩证法中联系与发展的两大特征。如语言模型[13],正是学者们发现了相邻的词语之间存在关联关系,并对这种内在规律建模,才有了相应的研究。同时,正因为其他学科的学者们在自然界等发现了相应的规律,才有学者能够将其引入到自然语言处理中。注意力机制[14],也正是学者们研究了人类的注意力机制,发现了其中的客观性与普遍性,才能够通过数学对其建模,而引入到计算机科学中,接着才能够应用到自然语言处理领域。从以上两个例子我们可以看出,学者们不仅对一句话中的词语之间的关联关系进行了研究,还将自然界中的客观现象引入到了自然语言处理中,这也反映了辩证法联系的思想。
从自然语言处理技术的发展路线我们可以发现,这种发展是具有普遍性的,并没有因为过程的曲折而致使技术停滞不前。且学者们通过分析总结前人的不足,并加之完善,这体现出了发展的实质:事物的前进与上升。尽管事物的前进方向是光明的,但是学者们用了几年甚至几十年才慢慢完善该学科,也就体现出了事物发展道路的曲折性。最后我们可以发现,如果不是之前学者们从one-hot编码到语言模型的提出,也不会有Word2Vec这种模型的创建。Word2Vec正是吸收了前面词嵌入技术的精华,而提炼出的一个全新技术,这正印证了辩证法发展性中量变引起质变的特性。
2.6 从学术前沿看待自然语言处理发展历程
自然语言处理中多学科交叉融合的优势越来越明显,在研究过程中会有更多的新思想、新技术融合到自然语言处理,自然语言处理的应用领域越来越广泛。自然语言处理的学术前沿代表当前学术界或工业界需解决的理论或技术问题,教学过程中适当地将学术前沿理论融入自然语言处理发展历程中进行教学,增强学生自主学习动力,激发学生的科研兴趣。比如,计算机在处理文本数据时,它并不能很好地识别出一个句子中包含的外部知识和真实情感,我们需要研究在知识指导下的自然语言处理技术,建立知识获取、知识产生、知识表达等与自然语言处理的方法与技术,使计算机能够智能认知和理解自然语言[8]。同时,其他学科所产生的新理论、新技术为自然语言处理提供了良好的基石,可以引导学生尝试借鉴这些新理论与新技术构建出新模型、新技术,推动自然语言处理的新发展。
3 结束语
课程教学是一个不断改进、不断创新、不断发展的过程,本文对“自然语言处理”发展历程进行了课程教学探讨,从六个方面对自然语言处理的发展历程进行了分析,将自然语言处理的理论与技术融入其发展历程中教学,调动学生的学习热情,准确地课程的相关理论与技术。
参考文献:
[1] 中国互联网信息中心. 第48次中国互联网发展状况统计报告[R].中国: CNNIC, 2021.
[2] 艾媒大文娱产业研究中心, 艾媒网. 艾媒咨询2020-2021年中国移动社交行业研究报告[R]. 中国: 艾媒咨询, 2021.
[3] 李长云,王志兵.智能感知技术及在电气工程中的应用[M].成都:电子科技大学出版社,2017.
[4] 陈艳平.“自然语言处理”课程教学探索和实践[J].科教文汇(上旬刊),2020(12):135-136.
[5] 罗世奇,田生伟.自然语言处理项目式教学策略探究[J].中国教育技术装备,2020(4):104-105.
[6] 傅迎华,李江,付东翔.自然语言处理课程教学探索和实践[J].计算机教育,2018(4):56-59.
[7] 钟茂生,黄晓辉,张红斌.“问题引导+项目驱动”并举的自然语言处理课程教学改革实践[J].计算机教育,2018(6):72-75.
[8] 清华大学人工智能研究院. 清华-中国工程院知识智能联合研究中心. 人工智能发展报告2011-2020[R]. AMiner: AMiner.org, 2021-01-21.
[9] 机器人网. 人工智能的三大学派:符号主义、连接主义、行为主义[EB/OL]. 2021, https://www.sohu.com/a/203862511_468638.
[10] 李德聪.“人工神经网络”理论发展的自然辩证法意义[J].广西大学学报(哲学社会科学版),1999,21(S1):19-23.
[11] 窦嘉铭.浅谈自然辩证法视角下人工神经网络发展历程[J].电脑知识与技术,2021,17(1):202-204,207.
[12] 韦建桦. 中共中央马克思恩格斯列宁斯大林著作编译局编译.马克思恩格斯文集-21848-1859年[M].北京:人民出版社,2009.
[13] 宗成慶.统计自然语言处理[M].2版.北京:清华大学出版社,2013:83-85.
[14] 张俊林. 深度学习中的注意力机制[J].程序员, 2017.
【通联编辑:王力】
收稿日期:2022-01-21
基金项目:国家自然科学基金( 61802316、61872298、61602389) ;教育部春晖计划科研合作项目(Z2015109、Z2015100) ;四川省科技厅项目(22ZDYF3157、2021YFQ0008) ;西华大学青年学者后备人才项目;西华大学自然科学重点基金项目(Z1422615)
作者简介:李显勇(1984—) ,男,四川省达州市渠县人,副教授,博士,硕士生导师,主要研究方向为自然语言处理、社交网络分析和容错与并行计算。