赵天锐
摘要:机器学习在诸多学科领域的定量分析中都已经显现出了巨大价值。本文借助sklearn机器学习库,以韩国国立国语院2015年发布的《新词调查报告书》中收录的新造词为对象,根据报告中出现的分类标准为词汇建立特征矩阵。而后运用多种机器学习算法进行特征选择,最终筛选出对韩国语新造词词义理解影响较强的因素。实验结果表明:如果该词为派生词或外来词,该词呈现低透明度的概率更高。
关键词:韩国语;机器学习;新词;逻辑回归;随机森林
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2021)04-0204-03
Abstract: Machine learning has shown great value in quantitative analysis in many disciplines. This article uses the sklearn machine learning library provided by Python to build a feature matrix for the vocabulary based on the newly coined words included in the "New Word Survey Report" issued by the National Academy of Korean Language in 2015. Then, a variety of machine learning algorithms are used for feature selection, and finally the factors that have a strong influence on the understanding of the meaning of new Korean words are screened out. The experimental results show that if the word is a derived word or a foreign word, the word has a higher probability of showing low transparency.
Key words: Korean; machine learning; new words; logistic regression; random forest
1 引言
新造词研究一直是韩国语词汇学研究的重要领域,长期以来许多国内外学者对收集到的韩国语新词或流行语进行归类分析,从形态结构、语言来源等方面进行归纳总结,以探索新造词生成的内在规律。虽然相关研究取得了丰富的成果,但对新造词的分析存在一定的局限。
首先,研究范围不明晰。在韩国语中”???”,”??”,”???”,”???”等都可以表示“新词”这个概念。许多关于韩国语新词的研究是新词或者流行语,但从流行语兴起到湮灭,其经历的时间往往很短,难以对词汇进行长期研究。因此本文选择韩国国立国语院发布的《新造词调查报告书》(下简称《报告书》)中的新造词作为研究对象,一是清楚界定词汇的选择范围,二是得到韩国国立国语院收录的词汇具有一定的权威性,有使用时间长,影响范围广的特点。其次,对韩国语新词的分析多采用传统语言学中音韵学、词汇学和形态学等视角,定性分析较多,定量分析较少。过往研究常把重心放在分类和列举方面,对分类结果的利用缺乏关注。因此本文选择利用《报告书》中的分类标准,探讨各分类对该词汇理解难度,即透明度的影响。
随着机器学习方法的逐步发展完善,各学科在进行定量分析时都可以借助已经封装好的机器学习工具,达到在本领域进行数据处理的目的。本文选择基于Python开发的机器学习库sklearn,采用嵌入法进行特征选择,最终筛选出对新造词透明度影响最大的特征。在机器学习算法的选择上,本文选择逻辑回归和随机森林作为特征选择所用的算法。和深度学习相比,传统机器学习算法拥有更强的解释性,因此更适合对特征的重要性进行探究,而sklearn库中的逻辑回归和随机森林作为经典算法,可以方便地调用接口查看特征在模型中的贡献度,为本文的实验提供了便利。同时两种算法相互验证,可以增强实验的可靠性。本文首先筛选《报告书》中的收录词汇,根据分类,用独热编码建立特征矩阵,再对所得到的词汇根据理解难易程度分为高透明度词汇和低透明度词汇,分别用1和0作为两类词汇的标签。然后,将特征矩阵和标签带入模型训练,得到使模型分类准确率最高的特征子集。最后,将子集中的特征按参数绝对值/特征重要性排序。
2 研究综述
在对韩国语新词展开的研究中,大多数是对新词本身进行研究。在国内,王志国在《关于韩国语新词构造的研究》一文当中以音韵变化、形态变化和其余变化三类来总结韩国语新词的生成方式;孟丽在《浅谈韩国新词的特点》一文中提到韩国语新词类型时也是主要从词的结构和形态进行分类和列举;李得春在《世纪之交韩国语新词中的汉字词》一文中从词性、语言来源角度出发,对韩语新词中的汉字词进行了系统的统计和列举;此外,姬旭在《反映社会现象的韩国语新词特点研究》中,针对不同的社会领域对韩国新词进行了梳理。可以看出,对新词的研究主要是描述词汇本身的形态,辨析词汇的语源,尽管存在部分统计方面的研究,但更多是止于统计而不进行分析。
韩国国内对新词的研究也一直在进行,???从连语的角度对韩国语新词进行了研究,他认为能被承认的新词多是以连语的形式使用,并且提出新造词和惯用语具有很强的互通性;而???以网络新词为主要的分析对象,分析了词汇的音韵学、形态论和语义论特征,并按照词汇的透明性和兼容性又进行了分类和举例。因此在对韩国语新词的研究也更关心分类和举例,期望通过总结对新词诞生的条件進行探究。
3 基于机器学习的韩国语新造词透明度探究
本文的总体思路是:先对《报告书》中收录的词条进行筛选,然后根据其中提供的四种分类标准对每个词进行编码,建立特征矩阵,最后将词语送入模型进行特征选择,并对特征选择的结果进行可视化展示。
3.1 独热编码(one-hot encoding)
《报告书》中提到了词汇四方面的特征,分别是:词性、语言来源、构词方式和所属领域。这四种特征都属于内部无法计算,也无法比较大小关系的变量。如其中讲到的词性一共有:名词、动词、副词和形容词四类,无法说“名词+动词=形容词”或者“名词>动词”,所以选择独热编码对其进行数字化是较为合适。那么四个词性向量化的结果就是名词(1, 0, 0, 0),动词(0, 1, 0, 0),副词(0, 0, 1, 0),形容词(0, 0, 0, 1)。以此类推,对剩下三种特征也进行独热编码,最终每个新词都会以26位向量的形式出现在特征矩阵当中。因为涉及的特征并不多,所以不会产生维度灾难,同时较大限度保留了原特征的信息。最终特征矩阵如下图所示:
3.2 逻辑回归模型
逻辑回归是机器學习领域常用的分类模型,其本质是:假设数据服从某种分布,然后使用极大似然估计去推导参数。目前在工业界逻辑回归主要用来解决二分类问题,其同Adaline自适应算法类似,都是通过在线性回归外套用sigmoid函数找到分类超平面。在机器学习领域,二元逻辑回归的损失函数为:
在得到损失函数之后,可以通过梯度下降等方式求出最合适的参数向量,从而得到损失函数的最小值。在实际的应用当中,为了防止模型的过拟合,常常使用添加正则项的方式对参数项进行限制,L1范式就是正则项的一种,其表现为参数向量中每个参数绝对值之和。sklearn库中的加入L1范式的损失函数为:
其中J(θ)是之前的损失函数,C是用来控制正则化的超参数,n是特征总数。加入了L1范式的损失函数在进行训练时可以将参数向量中的某些参数降为0,即实现特征选择,所以本文采用加入了L1范式的逻辑回归模型。
3.3 随机森林模型
随机森林模型是一种集成的强学习模型,其集成的基本学习器是树模型。集成模型通常都是考虑多个评估器的建模结果,汇总后得到综合结果,以此来获得比单个模型更好的表现。该模型既能被用来解决分类问题,也能被用来解决回归问题,能在运算量没有显著提高的前提下提高预测精度。若待预测的变量为离散型变量,则随机森林的最终结果为多数树模型的分类结果; 若待预测的是连续型变量,则随机森林的最终结果是所有树模型得到结果的平均值。随机森林中为了让各个基分类器不同,尽可能地选取不同的训练数据进行训练,而sklearn中的参数bootstrap,就是代表这种有放回的随机采样技术。
和逻辑回归不同,树模型的建立不具备复杂的数学过程,其建模过程中涉及到运算的只是各叶子节点的分类标准,在sklearn库中可以通过设置参数以使用交叉熵或者基尼系数来作为叶子节点的分类标准。但这并不影响随机森林在训练过程中的高准确率,同时作为树模型的集成,随机森林也具备查看各特征重要性的接口,所以本文将其作为特征选择的算法之一。随机森林工作流程如下图所示:
3.4 嵌入法(embedded)
本文采用嵌入法进行特征选择。嵌入法是一种让算法决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以表示各个特征对树的建立的贡献,基于这种贡献的评估找出对模型建立最有用的特征。同理,在使用添加L1 范式的逻辑回归时,某些权值系数会逐渐趋近于零,这些权值参数对应的特征对模型的贡献度不高,而对于权值参数不为零的特征,参数的绝对值越大,证明其对模型的贡献度越高。嵌入法的工作流程如图4所示:
4 实验结果分析
本文将转换后的特征矩阵带入模型,使用嵌入法进行特征选择。虽然两种模型的原理不同,但将最终得到的结果进行对比验证,可以看出对标签影响最大的特征是什么,即词性、构词方式、语言来源和所属领域分别会对韩国语新词的透明度产生多大的影响。而且因为所得参数都是具体数值,所以可以进行可视化处理。最终逻辑回归得到的权值参数和随机森林得到的重要性程度如下表所示:
从实验结果来看,经过逻辑回归的特征选择,原有的26个特征剩下9个,而随机森林筛选过后剩下10个,数量大致相同,其中重复的特征有6个,超过半数。从中可以得到如下结论:
1)韩国语新词透明度的影响因素是可以通过量化手段进行分析的,本文的研究具备一定的合理性;
2)“接尾词”是影响《报告书》中新词透明度的重要因素,两个模型筛选出的特征都包含它并给予最高权重;
3)两个模型选择出的特征当中按重要性程度排序,前四名特征中有三项是重复的,分别是“接尾词”“外来词”和“缩略词”;而且这三项因素的数值加和都超过了剩下因素的加和,可以说明这三项对新词透明度影响较大。
从本文研究方法的最终结果反观本文的研究方法,可以得到以下不足之处:
1)实验的样本较少,缺乏普遍性。由于本文只是筛选了《报告书》中符合条件的单词,所以样本包含的单词数量较少,所得结论可靠性尚需进一步验证;
2)在进行特征选择时,直接选择《报告书》中给予的分类当作特征来源,这是为了保证结论的可解释性,但如果在特征矩阵中加入新特征,可能会得到新的结论;
3)在实验的过程中,采取两种算法对比验证的策略。但实际上也有其他机器学习算法能解决分类问题并进行特征选择,未来可以使用更多算法进行验证。
5 结语
本文用基于机器学习的方式筛选影响韩国语新词透明性的因素。从结果来看,收到了一定效果,得到了具体研究结论和可供支持的实验数据。同时本文方法在细节处理上还有待优化,可以从样本扩充、特征提取、算法选择等方面进一步提升实验的可靠性和结果的适用性。
此外,就以往对韩国语新词的研究而言,本文是方法论层面的尝试,最重要的是将较为前沿的量化分析方法和传统的韩国语词汇学知识进行结合。传统的语言学知识用新方法进行度量,这可以提升语言学研究的科学性,也是未来的研究趋势和方向。
参考文献:
[1] 王志国. 关于韩国语新词构造的研究[J]. 韩国语教学与研究,2018(3):11-15.
[2] 孟丽. 浅谈韩语新词的特点[J]. 科教文汇(上旬刊),2010(7):129-131,135.
[3] 李得春. 世纪之交韩国语新词中的汉字词[J]. 民族语文,2004(5):50-55.
[4] 姬旭. 反映社会现象的韩国语新词特点研究[D]. 延边大学,2016.
[5] 李航. 统计学习方法[M]. 2版.北京:清华大学出版社:北京,2019:67-109.
[6] ?????. 2014? ?? ?? ???[R].2015.
[7] ???. ??? ??? ?? ??[J].2011.
[8] ???. ??? ???? ??? ???[J].2018.
【通联编辑:王力】