人工智能专业自然语言处理课程建设的实践与探索

2023-01-02 17:12
科教导刊·电子版 2022年29期
关键词:语料库人工智能文本

赵 莉

(上海工程技术大学电子电气工程学院,上海 201620)

0 引言

在人工智能走向2.0的发展过程中,数据和知识是两个最重要的关键元素[1-3]。处理大数据和处理多重知识,形成了AI发展的两类核心技术。自然语言处理的核心驱动力来自数据驱动,在文本处理、信息抽取、情感分析、话题推荐、机器翻译、专家系统、语音识别与合成等领域,取得了较好的应用成效。

人工智能上升到国家战略,正在迈入“创新驱动、应用深化、规范发展”的新阶段。人工智能作为一项战略性技术,不仅标志着人类第三次认知革命,还成为世界多国政府科技投入的聚焦点和产业政策的发力点。2017年全国两会,政府工作报告首次提及人工智能。同年7月,《新一代人工智能发展规划》由国务院印发,提出人工智能的三个发展新方向,包括计算机视觉,语音处理和自然语言处理,拉开了我国人工智能高速发展的序幕。

然而,自然语言处理的技术难度高,技术成熟度较低。NLP是一门集心理学、计算机科学、语言学、数学于一体的科学。在人工智能所覆盖的六大核心领域──视觉、语言、认知、机器人、机器学习、多智能体,自然语言处理技术被比尔·盖茨誉为人工智能皇冠上的“明珠”,其研究是极富挑战性的。人类语言中的一些不规则现象。因为语义,即语言所蕴含的意义,复杂度较高,仅靠目前基于大数据、并行计算的深度学习,很难达到人类的理解层次。

该课程建设,提出顺应潮流,与时俱进,为培养人工智能一流人才,促进中国人工智能生态建设服务。从更新课程内容,丰富教学手段,完善评价体系等方面着手,实施教学改革,快速、有效地弥补数字鸿沟,为全面提升人工智能专业本科生的实践能力与科学素养,培养人工智能应用工程师探索有效途径。此外,本文对自然语言处理课程建设的优点、发展、痛点等工作进行了一一探讨。

1 自然语言处理课程建设

1.1 自然语言处理的优点

自然语言处理是人工智能领域的一项“知易行难”的底层技术,一般分为语法、语义、语用三个层次,被誉为人工智能皇冠上的明珠[4-6]。数据增强技术,利用对上下文的深刻理解,丰富了原始数据的含义。其最显著的优势体现在数据挖掘和文本分析方面。国内外高校,诸如麻省理工、斯坦福大学等世界一流大学,纷纷将其列入本科生与研究生的必修课程。

在世界上已经查明的5651种语言中,英语作为主要的媒体,往往具有功能强大、数量众多的语料库,形成了丰富多彩的生态圈。目前,已然形成了140多个百万量级的语料库[7-9],简化了开发的复杂度。1991年后,以中国国家语言文字工作委员会为首,建立起国家级大型汉语语料库。相当一批大学和研究机构对中文语料库的建设做出了重要贡献。逐渐创造出一套新的理论与方法,形成了语料语言学新学科。

1.2 自然语言处理的发展

基于以上现状,构建符合我国国情的自然语言处理课程,为人工智能的后续课程奠定理论与实践基础。是NLP发展壮大的基石,它赋予了技术“智能化”的基因。相比于基础NLP技术,例如分词、词干提取、词性标注、词性还原等技术,高级NLP技术奠定了NLP未来发展的方向[10],主要应用于以下四个方面:

1.2.1 机器翻译

得益于翻译需求的增长,机器翻译系统的开发研究已经持续了半个世纪。2013年,我国提出了伟大“一带一路”倡议,涉及65个国家和地区,语言种类超过110种,对多语言翻译的需求异常巨大。早期的词法分析是用分词工具切分单词,找出词汇词素,利用对齐算法,获得单词的词义。2016年,Google发布了神经网络翻译系统,拥有一对编、解码器。编码器负责把源语言表示成一个高维的向量。解码器负责把这个高维向量再解码翻译成目标语言。考虑到本校NLP课程的覆盖范围涵盖国际班和国内班,机器翻译具有巨大潜力。

1.2.2 自动文本摘要

文本大数据是自然语言的主要载体,自动文本摘要,是指从原始文档中,自动提取出简洁、连贯短文的过程。如何有效过滤井喷式信息,凝练出感兴趣的内容,是自动文本摘要的痛点。过去,利用直接抽取方法生成摘要,准确率较低。基于深度学习的生成式特征提取方式,应用注意力机制,计算每个输入单词的权重,已经超越了传统的抽取式模型,取得了不错的训练效果。该方法的普及,对学生动手能力的培养,提高语言概括能力,对大量未知语料进行主成分分析,优缺点比较等方面,具有不同程度的提升。

1.2.3 情感分析

情感分析是自然语言处理的常见应用场景,其核心是情感分类算法与模型[10-12]。传统算法需要建立情感词典,对正面评价、负面评价、否定词汇和程度副词进行分类,然后划分情感等级。然而,语言的发展与变化对该方法构成了瓶颈。考虑到开发者迫切希望找到未见新词的需求,主流的NLP方法采用深度学习算法[8],训练―映射―编码是推动人工智能时代发展的强大引擎。

1.2.4 多模态模型

预训练模型的出现,使自然语言处理由原来的手工调参、依靠机器学习专家的阶段,进入到可以大规模、可复制的大工业实施阶段。早期NLP中,基于预训练模型+微调机制,具备很高的可扩展性,展现出很高潜力。而当前研究也从单一语言扩展到多模态。总的来说,是从海量大数据中学到蕴含在数据中的知识、逻辑,凝练到神经网络上变成一个“同质化”大模型,旨在训练一套算法,为各种通用智能任务,建立提供服务的基础性平台。

1.3 自然语言处理的难点

基于上述理由,自然语言处理课程建设是一项比较复杂的系统工程。由于数据规模的巨大提升可以弥补数据内部存在的噪声,万亿级别的超大模型陆续涌现。目前,海量数据高效标注,少量标注样本微调,数十个模式场景准确识别成为NLP发展的共识。该课程理论教学内容跨度较大,横贯机器翻译、文本摘要、情感分析、模态识别等多个方面。这对教师的知识体系的广度、深度,结构化思维和呈现技巧都提出比较高的要求,是NLP课程建设的主要障碍。

2 结语

最后,清晰的课程目标,数字化平台和数字化工具是探索NLP技术的良好基础。课程的开设与学习,为学生在求真务实中,实现知识积累、技能培养、能力提高奠定了扎实基础。本文在人工智能专业本科生中开设,年均授课120人,通过混合教学方式,提供了iclass的线上课堂体验。考虑到本课程建设尚在起步阶段,后续本项研究将于本地企业相结合,为学生创造更多真实应用场景与实习途径,为全面提升人工智能专业本科生的实践能力与科学素养,培养人工智能应用工程师探索有效途径。

猜你喜欢
语料库人工智能文本
《语料库翻译文体学》评介
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
人工智能与就业
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
基于JAVAEE的维吾尔中介语语料库开发与实现
如何快速走进文本
语料库语言学未来发展趋势