张丽霞
(山西旅游职业学院旅游外语系,山西太原 030000)
当前在语言学研究领域中,聚类分析的使用相当广泛。目前针对聚类分析的定性分类分析方法最为常见,而配合计量分析手段的相关探索资料和研究却非常得少。国内在语言类的研究当中针对于聚类分析的方法在运用方式上需要进一步提升,尤其在外国语言研究领域的探索还需要深入。
在没有基本类别标记信息对象的背景下所构成的集合内,所有信息对象都是具有其对应属性与特征的,在这里要采用到聚类分析,参考集合内不同对象所具有的不同算法展开自动类别划分,保证每个类别的相关内容都能实现自动识别。聚类分析也存在着较高的异质性内涵,就一般情况来说,在语言对象划分方面应该参考相应指标,它主要基于大量数量指标进行定比定距分析,即实施类别划分。在这里,还要利用到信息对象特征向量内容,专门针对每一个信息对象进行标记处理,如此就能实现对信息对象的聚类划分。整体而言,聚类分析对于数据结构模式的了解相当深入,它认识到在不同变量之间所存在的某种关联关系,所以目前所采用的聚类分析算法种类相当繁多,且还在不断丰富完善中。在过去十年中,我国针对外国语言学的聚类分析研究不够深入,聚类分析技术的使用率明显低于传统纯描述性统计与简单推理统计,还难以做到以聚类为搜索核心展开操作。
聚类分析技术在语言领域研究中的应用主要体现在3个方面:语义研究、句法型式研究和认知语言研究。在通常情况下,聚类分析在应用过程中需要大量的语料库数据相结合才能完成。在外国语言学研究中,它主要针对语言文体的变异情况进行分析,针对外国语言学中的较多语言结构单位实施特征统计,其语言中是具有多种统计特征的,比如说在绝大部分实证分析研究过程中,可能针对不同语言特点的变化分析相当深入,它就构成了不同的语言结构单位,基于不同特征频率背景下所产生的变化构成了独具风格的外国语言学研究形式,它奠定了外国语言学文体基础的结构特征,在对文体特征进行统计分析过程中也提出了诸多大胆创新优化。
就聚类分析技术的应用而言,它所展现出的最大优势特征就是定量分析,它可实现对信息对象的客观认识,深入了解基于不同信息背景下的对象可重复性,在聚类分析开展过程中也能参考利用真实数据建立基础条件特征,充分体现聚类分析结果所具备的客观性特征,同时排除其中所存在的诸多主观性内容。在针对于外国语言学的科学分析过程中,聚类分析在算法选择、计算方式以及聚类数值特征三方面体现优越性,保证聚类分析所采用数据指标在人为设定后体现出明确的检验特征,这也为聚类分析结果的精确性判断提供了有力技术支持条件。如果再从主观层面进行定位分析,也可了解到聚类分析方法中的重复性应用是相对偏低的,就这一点来讲不同专家在经验总结与理论素养讨论上都存在明显差异,必须对所得到结果所存在显著差异问题进行分析,这体现了科学研究的客观性特征,它同时说明了聚类分析技术应用具有一定的科学价值和诸多的优势[1]。
进行聚类分析的时候,我们要进一步确定其应用的定义和原理,也就是等于给无类别标记的信息确定的对象构建集合X,它应该表示为X=。集合中的每一个对象都需要具备k个属性,通过使用聚类分析来完成对所有对象特征值的有效分析,利用算法保证集合值内容自动分组优化,如此要保证所有分组自动识别内容都要区分于其它分组,同时体现分组高同质性与异质性,基于不同分组可建立一个不同的簇,如此就能满足聚类分析技术应用基本条件[2]。
如果从外国语言学分析角度看来,它主要参考某一个指标针对对象进行定性分类。而如果是面对多个指标时,则必须对定比、定距数量指标进行计算分析。在外国语言学分析过程中,主要利用到了特征向量来代表数据内部结构、模式以及变量特征,体现聚类分析的多种丰富算法,结合观察结果可以发现聚合型层次聚类分析方法在目前的语言学研究中是比较常见的,应用广泛且应用效果突出[3]。
1.研究问题的提出
目前国内针对聚类分析的研究文献并不丰富。在研究实践中,针对外国语言学的聚类分析要排在中国文学、中国语言学之后位居第三位,基于外国语言学的聚类分析主要围绕学科量化研究需求展开。这说明许多研究者并没有意识到外国语言学进行深入探讨和研究的真正意义,我们从其中的调查数据得到仅有7%左右的教师对聚类分析这个教学方式有了解,同时并能够有效运用到课堂教学中,其他的教师对于该技能的掌握严重不足[4]。
2.外国语言学聚类分析研究应用领域的分析
目前,外国语言学聚类分析在语言的问题风格变异研究方面是最为深入的,它主要基于语篇语言结构的具体使用,同时涵盖了词长、句长以及句型比例的教学内容。在研究中发现,基于语言产出分析外国语言学结构单位的个性化使用,需要具体分析其统计特征,这被比作为对外国语言学的语言指纹分析,它主要围绕作品的语言使用情况进行统计[5]。整体来说,外国语言学的聚类分析领域是相当广泛的,其中就要参考其语言的地理变异情况进行方言聚类分析,这能够实现外国语言学聚类分析的有效细化[6]。
3.外国语言学聚类分析研究的实践应用
在外国语言学聚类分析研究中,它主要针对语言的社会变异与功能变异情况展开研究,获得分析结果。基于某种理论框架,结合具体分析的案例特点,不能进行较为盲目的分析和研究,要实施一定的语言数据分析和比对。在研究中,主要利用聚类分析来克服这一局限性问题,对数据结构的系统性内容进行阐述,确保统计结果显著。另外,则需要研究外国语言学的研究变量,结合与变量相连的假设,制定理论研究模型,使用假设系统性的解决方式,同时体现分析过程的全局优势,它也能在一定程度上减少研究盲目性[7]。
在该过程中,我国学者主要使用的是聚类分析来进行外国语言学的数据分析和研究,找出语言变异和社会因素之间存在的具体区别和影响,与此同时,还针对在不同环境背景下内容进行连接,从中获得些趣味性假设结果。在进行对外国语言学中的聚类分析实施研究的过程中,我们看到它就主要利用语言功能变体来展开研究,了解语域中的各类情景因素实施研究和分析。简单来讲,在这种语域案例当中所涵盖的就是广告语言和文学作品等等,这些都是外国语言学研究的主要内容。国内学者需要基于这一点为外国语言学建立大型语料库,在这一过程中建立聚类分析语言研究链,基于多维度分析,展开宏观研究,对统计技术精巧运用内容进行分析,识别外国语言学中不同语域中的亲疏关系[8]。
结合探索,快速发现聚类结果在权力关系建立方面的特征,同时需要分析聚类分析在语言方面的应用形式,分析权力关系接触频率。结合变量中的动态关系给出假设提议,确定语境变量和指标变量间存在的联系,将掌握的信息作为参考元素。考虑到语域、体裁语域中的聚类分析内容进行分析,制作形成多种多元分析的使用工具,来针对于系统功能的语料库进行量化分析和研究探索[9]。
聚类分析在21世纪大数据时代建立外国语言学研究语料库过程中,可以成为分析语言学的有利工具。如通过聚类分析合理的应用语言用法数据,进行语言稳定性的研究工作,通过语言内部的关联,快速掌握语言间存在的生态效应,并且可以在语言数据的辅助下,提高生态效应。在研究工作中应该清楚外国语言学研究在技术方面的使用需求,合理地将聚类分析插入其中,在数据辅助下深度挖掘、整理语言素材,在人工智能的辅助下对庞大的数据进行科学的分析,提高数据整理工作的有效性。从而确保聚类分析技术能够有效深入到语言数据中,深入分析研究其语言研究手段,确保针对外国语言学的数据挖掘技术进行分析理解,建立聚类分析体系,确保语言分析研究到位[10]。
在外国语言学研究过程中,就要深入利用聚类分析法应用的特点和优势,通过定性的分类方式来对聚类分析实施事实数据的研究和计算,体现聚类分析技术应用客观性,它在分析过程中完全排除了某些主观因素,确保聚类数值特征与算法选择到位,体现聚类分析可检验性,基于主观定性分类方法重复性较差这一问题展开分析,保证客观分析到位,体现科学研究要求与基础内涵。此外,基于聚类分析的优势可实现大规模处理数据,保证发现其中结构内容解析来优化外国语言学认知能力,发现数据中的某些结构规律内容,提出合理猜想与假设内容。在聚类分析下处理数据,提出针对性假设,确保聚类分析产生于假设案例之中[11]。
在外国语言学研究中,需要清楚聚类分析的特征,并掌握影响聚类分析应用效果的因素。考虑到影响聚类分析结果的因素众多,因此应该从变量选取以及特征指标两个层面重新定义特征权重,从而可以在合理分配的方式下,使聚类分析在语言学客观的评估下,提高聚类结果效度水平。在当前大数据时代,需要基于语料库数据丰富度进行聚类算法分析,合理运用大数据与数据挖掘技术来体现语言数据批评与质疑过程,分析语言直觉的语言数据内容展开探讨[12]。
总之,聚类分析可以和语料库相结合,从而在外国语言学研究方面具备较多的优势。为了进一步提高外国语言学研究工作水平,使聚类分析可以在此项工作中展现更多的应用价值,必须根据外国语言学研究需求以及聚类分析工作特性,及时调整聚类分析的工作模式,体现聚类分析技术应用过程中的有效性,从而可以结合语料库语言,辅助外国语言学研究工作的进行,弥补我国在外国语言学方面的不足。