基于多重集合匹配的国标专业名称分解算法设计

2024-12-15 00:00:00董菲孙全亮吕震宇
电脑知识与技术 2024年35期
关键词:录取分数机械类国标

摘要:新高考模式下,按照国标专业名称检索专业以及基于国标专业的高考大数据分析等都需要将高校招生专业名称转换为国标专业构成的集合。针对国标专业名称分解过程中遇到的专业名称多重包含、包含关系不明确、专业与专业类混合包含等问题,文章设计了基于多重集合匹配的国标专业名称分解算法。实验结果表明,该算法有效解决了以上问题,为后续专业间录取分数相似性规则挖掘、历史数据缺失情况下专业录取分数预测等奠定了基础。

关键词:普通高等学校本科专业目录;集合匹配;新高考;分解算法

中图分类号:TP311文献标识码:A

文章编号:1009-3044(2024)35-0010-03开放科学(资源服务)标识码(OSID):

0引言

自国务院发布《关于深化考试招生制度改革的实施意见》[1]以来,新高考模式在国内迅速推广,高考志愿填报从原有的按院校填报逐步转换为按专业填报,这也导致了考生和家长按专业对高考招生计划进行检索的需求日益提升。近年来高考改革,新高考模式下考生按照专业去填报志愿,不用再担心被调剂,随着国内新高考模式的推广,志愿填报从报考院校变成报考专业。现有高考志愿推荐填报都建立在对当年高校或专业录取分数预测的基础上,根据预测算法的不同,可分为等位次法[2]、线上百分位回归法[3]、加权平均回归法[4]、长短时记忆神经网络算法[5]等。2024年,教育部印发《进一步做好普通高等学校本科专业设置工作的通知》,明确每年更新《普通高等学校本科专业目录》(以下简称“国标专业目录”),规范了各高校的专业设置。然而,由于按类招生、取消按类招生、试验班等情况的存在,各高校招生专业名称与国标专业目录中的名称并不完全相同,给考生检索专业带来诸多不便。

针对各高校招生专业名称不规范且经常变化的问题,现有学者从专业名称匹配、历史数据追踪与预测的角度进行了研究,给出了相应解决方案[6],也有从关键词检索[7]的角度进行目标专业的匹配,但都未能解决考生按照国标专业名称检索非标准的高考招生计划专业名称的问题。此外,日益增长的高考招生大数据分析需求也需要将非标准的专业名称统一清洗转换为国标专业名称。因此,如何将非标准专业名称转换为国标专业构成的集合成为新高考模式下迫切需要解决的问题。

1国标专业名称分解所面临的困难

针对将专业名称分解为国标专业集合的问题,一种实现手段是通过字符串间的包含运算完成[8]。例如“材料类|含材料科学与工程、焊接技术与工程专业”,通过字符串包含运算,可以将专业分解为“材料科学与工程”与“焊接技术与工程”两个专业构成的集合。然而在实际分解过程中,往往存在专业名称多重包含、包含关系不明确、专业与专业类混合包含等问题,需要精心设计分解算法才能有效解决。

1)专业名称多重包含:如果A专业名称内包含B专业名称,就会导致专业名称多重包含问题发生。例如按照字符串包含算法,“机械设计制造及其自动化”会被分解为{机械设计制造及其自动化,自动化}国标专业集合。

2)包含关系不明确:部分招生简章只提供了按类招生的专业类名称,没有明确指出该专业类具体包含哪些专业,导致对其进行国标专业分解时缺乏足够依据。

3)专业与专业类混合包含:是指一个专业名称中既包括专业类的名称,也包括具体的专业名称,并且专业类和专业之间又存在复杂的包含关系。在国标专业分解时,需要详细分析专业类和专业间的关系,确保国标专业分解不出现任何遗漏。

2国标专业名称分解算法设计

为了解决上述问题,一方面需要确保长专业名称优先匹配,一旦匹配上就从原始字符串中移除,进而避免专业名称多重包含问题;另一方面,需要构造两个集合,分别记录拆分得到的专业类集合以及被拆分专业覆盖的专业类集合,并且根据这些集合间的覆盖关系,找出最大匹配集,实现完整的国标专业名称分解。

具体算法分两步进行:

第一步:如果专业名称和某国标专业名称完全相同,则直接映射为国标专业名称。

第二步:对于第一步无法处理的专业名称,采用如图1所示算法将专业名称映射为国标专业集合。

该算法的核心思想是:

1)将专业大类和专业名称合并后按照字符串长度排序,优先匹配字符串长度长的匹配项,一旦匹配成功,则将匹配串从原始专业名称中剔除,进而解决专业名称多重包含的问题。

2)维护两个集合,一个集合是拆解出来的专业所对应的专业大类集合DisciplineOfMatchedMajor,另外一个是从专业名称中解离出来的专业大类集合MatchedDiscipline,如果存在某专业大类D属于MatchedDiscipline集合但不属于DisciplineOfMatched⁃Major集合,则将专业大类D下面的所有专业加入国标专业分解结果集中,目的是解决包含关系不明确、专业与专业类混合包含等问题。

3实验与结果分析

3.1实验方案构造

3.1.1专业名称多重包含实验

构造专业名称“机械类|[含机械工程、机械设计制造及其自动化]”,用于检测算法是否会错误地将“自动化”专业判别为“机械类”专业的组成部分。

3.1.2包含关系不明确实验

构造专业名称“机械类”,检验在专业名称未明确指出具体机械类专业包含哪些具体专业的情况下,算法能否将机械类下的所有专业加入国标专业分解结果集。之所以采取此策略,主要考虑到该算法将来应用至志愿填报系统,要确保考生在按国标专业检索时,不出现任何潜在的遗漏情况。

3.1.3专业与专业类混合包含实验

构造专业名称“经管试验班|[含工商管理类、管理科学与工程类、信息管理与信息系统、国际经济与贸易专业]”,该专业名称中包含两个国标专业大类名称{工商管理类,管理科学与工程类}和两个国标专业名称{信息管理与信息系统,国际经济与贸易},并且“信息管理与信息系统”是“管理科学与工程类”下的专业。该实验重点检验算法在对该专业名称进行分解时,是否考虑了以下因素:

1)国标专业{信息管理与信息系统,国际经济与贸易}直接列入分解结果;

2)由于“管理科学与工程类”包含“信息管理与信息系统”,因此可以认为该专业名称中的“管理科学与工程类”已经有了明确所指,因此不再对该专业大类进行分解处理;

3)国标专业{信息管理与信息系统,国际经济与贸易}集合中没有一个专业属于“工商管理类”,因此有必要将“工商管理类”下的所有专业纳入拆分结果集。

3.2实验结果分析

3.2.1实验结果

实验1至实验3的国标专业分解结果分别为:

实验1:机械类|[含机械工程、机械设计制造及其自动化]⇒{机械设计制造及其自动化,机械工程}

实验2:机械类⇒{机械工程,机械设计制造及其自动化,材料成型及控制工程,机械电子工程,工业设计,过程装备与控制工程,车辆工程,汽车服务工程,机械工艺技术,微机电系统工程,机电技术教育,汽车维修工程教育,智能制造工程,智能车辆工程,仿生科学与工程,新能源汽车工程,增材制造工程,智能交互设计,应急装备技术与工程}

实验3:经管试验班|[含工商管理类、管理科学与工程类、信息管理与信息系统、国际经济与贸易专业]⇒{信息管理与信息系统,国际经济与贸易,工商管理,市场营销,会计学,财务管理,国际商务,人力资源管理,审计学,资产评估,物业管理,文化产业管理,劳动关系,体育经济与管理,财务会计教育,市场营销教育,零售业管理,创业管理,海关稽查}

上述实验结果达到了国标专业名称分解算法的预期目标,有效解决了专业名称多重包含、包含关系不明确、专业与专业类混合包含的问题。尽管分解结果不能完全体现高校招生专业的实际情况,但从志愿推荐填报的角度上讲,该算法能够给用户提供更多的选择,避免遗漏关键的专业信息。

3.2.2现有算法无法分解的专业名称

尽管算法能够有效地将专业名称分解为国标专业集合,但仍然存在部分专业名称无法有效分解的情况。表1展示了河北2023年本科批物理组无法分解国标专业集合的专业。这些专业数量较少,多为预科班或无特殊说明的试验班,无法从专业名称中找到任何包含的国标专业线索。

4结束语

本文针对将高考招生计划中的专业名称转换为国标专业集合的问题,梳理了国标专业名称分解过程中存在的专业名称多重包含、包含关系不明确、专业与专业类混合包含等问题,有针对性地设计了国标专业名称分解算法。实验结果表明,该算法能够有效解决上述问题,为高考志愿填报按国标专业名称检索专业、专业间录取分数相似性规则挖掘以及在历史数据缺失情况下对专业录取分数进行预测提供了依据,也为后续基于专业的高考大数据挖掘奠定了基础。

参考文献:

[1]中华人民共和国国务院.国务院关于深化考试招生制度改革的实施意见[N].人民日报,2014-09-05(006).

[2]周凯,邬学军,沈守枫.新高考模式下志愿填报数学模型的研究[J].电脑知识与技术,2018,14(19):18-19.

[3]边帅.线上百分位回归模型在高校录取分数预测工程中的应用[D].唐山:华北理工大学,2020.

[4]魏然.新高考6选3模式下高校录取分数预测方案设计[D].唐山:华北理工大学,2021.

[5]王宏利.深度学习模型在高校录取分数预测工程中的应用研究[D].唐山:华北理工大学,2020.

[6]孙全亮,吕震宇.基于二部图匹配算法的新高考专业历史数据追踪研究[J].电脑与信息技术,2024,32(1):109-112,140.

[7]徐欣彤.基于机器学习的个性化高考志愿填报推荐[D].苏州:苏州大学,2023.

[8]刘凤霞.利用C语言库函数实现常见的字符串操作[J].电脑编程技巧与维护,2009(6):32-33.

【通联编辑:代影】

基金项目:河北省研究生专业学位教学案例库建设项目(项目编号:KCJSZ2024056)

猜你喜欢
录取分数机械类国标
K-Means聚类分析在高职高专院校招生中的应用
基于OBE理念的机械类专业实践教学改革
学在财校,终得成材
示范校建设对高职院校生源质量的影响
凝心聚力,共同迎接“新国标”时代
中国自行车(2018年3期)2018-04-18 07:16:33
机械类固定资产投资项目节能报告定量分析计算若干问题探讨
机械类“先进制造技术”课程教学研究
车辆碰撞预警系统有望进入国标
汽车与安全(2016年5期)2016-12-01 05:22:15
中小学塑胶跑道“新国标”立项公示
基于数据挖掘技术的五年制高职录取