数字经济视域下高校数字人才培养主题识别研究

2023-10-07 08:03
江苏科技信息 2023年23期
关键词:主题词数字化文献

陈 卓

(黑龙江大学 信息管理学院,黑龙江 哈尔滨 150080)

0 引言

《“十四五”数字经济发展规划》(以下简称《规划》)指出,发展数字经济是把握新一轮科技革命的战略选择,而发展数字经济的关键环节是大力培养数字人才[1]。高校作为数字化人才培养的重要基地,如何培养符合我国数字经济发展的数字人才,是当下急需解决的问题。通过抽取高校数字人才研究成果的核心主题进行分析,对指导我国高校培养数字化人才工作具有重要的现实意义。因此,本文通过LDA主题模型挖掘高校数字人才培养研究文献的核心主题,并基于LDA聚类结果进行共现分析,能够得出高校数字人才培养的现状和面临的挑战,从而帮助学者把握高校数字人才培养研究的重点。

1 研究综述

对高校数字人才培养文献分析发现,国内学者主要围绕以下4个方面开展研究:(1)新学科建设。李慧等[2]从一流学科人才需求的角度出发,建立人才服务场景框架,对高校图书馆人才多元场景服务进行模拟构建,实现了服务功能重组以匹配学科人才需求。谢晓专等[3]采用词频分析、扎根理论编码等方法,对美国31所高校安全情报专业的硕士培养情况进行了分析,并提出了以“决策支持与威胁应对”为导向的模型——“KSAs-D-T”模型,为我国培养情报学人才提供了一些经验借鉴。(2)人才培养模式。针对高校图书馆协同教学服务,刘静等[4]从协同教学内容、教学方法、考核方式和教学组织模式4个方面进行了研究,构建了高校图书馆协同教学服务评价指标体系。该体系可以为提高教学质量提供决策支持,继而推动高校创新人才的培养。(3)高校数字化转型。何秀全等[5]首先分析了高校数字化转型的基础条件和不足之处,然后针对这些问题呼吁改变数字化转型观念,接受新的数字化转型理念、参与高校整体数据治理,提高图书馆数据的价值,从而助推新时代图书馆数字化转型。姚晓霞等[6]从数字化发展历程入手,指出数字化转型的开展必须准确识别与高校图书馆相关的一系列环境变化,以明确数字化转型的方向。最后提出了助推高校图书馆开展数字化转型的五大支柱,以此持续推进数字化转型。时莹等[7]首先借助半结构化访谈和网络等多种渠道收集资料,接着采用扎根理论方法对这些资料进行分析,最后归纳得出影响高校图书馆数字化服务能力的主要因素是内外部支持、读者和数字化馆员的认知程度、读者和数字化馆员的行为。(4)数字人才培养体系。徐孝娟等[8]采用文献计量学方法,从英国和美国各选取3所大学,深入分析这些高校在课程方案、课程结构、课程层次以及培养目标4个方面的内容。研究结果表明,英美的数字人文课程包括的学科门类繁多,选修课设置比例较高,跨学科特色明显。

综上所述,当前研究成果虽然已较为全面,但尚缺少从主题识别的视角分析我国高校数字人才培养现状的研究成果。同时,国内外学者围绕高校数字人才培养形成的一系列研究成果也为开展主题识别提供了数据支持。Blei等[9]提出的LDA主题概率模型是一种无监督机器学习方法,可以从非结构化文本中检测隐藏的潜在主题。因此,文本尝试利用LDA主题聚类、Word2Vec及主题词共现强度等文本计算方法对我国301篇高校数字人才培养科研文献进行主题分析,以深入挖掘我国高校数字人才培养的现状及发展趋势。

2 研究方法

本文提出通过主题建模识别数字经济人才培养的方法。首先,LDA主题模型可以从语义层面识别主题;其次,Word2Vec作为自然语言处理中常用的概率模型,能够把非结构化的文本信息向量化,可以计算主题与文本相似度筛选有效主题,解决使用困惑度确定最优主题数目可能生成无效主题的问题;最后,利用对LDA主题聚类结果进行共现分析,能够识别出共现强度较大的主题词。

2.1 LDA主题模型

LDA主题模型主要有文档与主题、主题与主题词的关系形成的结构组成,其中主题词服从狄利克雷分布,概率值越大,表示主题与主题词的关系越强,越能表示主题。LDA模型的联合概率如公式(1)所示。

(1)

公式(1)中:θ为主题向量;p(θ)为主题在文本中出现的概率;N为要生成文本的词语数;zn为选择的主题;P(z|θ)为给定θ时主题z的概率分布;P(w|z)为给定主题z时w的概率分布;α为每一篇文档的主题先验dirichlet分布参数;β为每一个词的主题先验dirichlet分布参数。

2.2 无效主题过滤

相似度数值反映了两者之间的协同性。协同性是指文献和《规划》在高校数字人才培养方面具有一定的共性,能够从学术研究和政府规划两个层面反映出我国高校数字人才建设现状。基于此,本文选择文献和《规划》具有协同性的主题进行分析。首先,基于Word2Vec的Skip-gram模型进行词向量训练,使用余弦相似度计算每个主题与《规划》的相似度,生成相似度矩阵;然后,设定阈值,从而过滤相似度低于阈值的主题,如公式(2)所示。

Sim(T)=cos(tj,di)

(2)

公式(2)中:Sim(T)为主题与文本间的相似度;ti为第j个主题;di为第i个文本。

2.3 核心主题抽取

通过LDA提取出的主题词能够概括对应的主题,但由于LDA聚类出的主题对应的词蔟具有泛化性的特点,若人工从词簇中提炼主题存在主观性。因此,本文提出使用共现分析的方法识别关联度和影响较大的主题词,进而发现最能准确描述和概括数字人文的研究主题,其中主题词共现强度如公式(3)所示。

(3)

公式(3)中:Eij为主题词共现强度;Si与Sj为主题词在主题语句中出现的频次;Sij为两个主题词共现在主题语句中的数量。

2.4 过程模型构建

本研究从主题识别的视角,选择数字经济人才培养研究文献作为样本,通过抽取主题来构建其框架体系。分析流程为:首先,从CNKI数据库中获取文献数据,构造特征词表和无效词表等数据预处理工作;其次,使用困惑度评价法确定文献的最优主题数目,使用LDA聚类出主题-词分布,进行主题识别;再次,使用Word2Vec进行主题模型训练,并计算主题与文本的相似度矩阵,设置阈值,过滤无效主题;最后,基于有效主题词进行共现分析,进而识别核心主题进行综合分析。

3 实证研究

3.1 数据获取与预处理

首先,本文以主题“数字经济”与“高校”作为检索条件对CNKI数据库进行检索,截至2022年8月共检索到文献301篇,以人才培养为主题对检索结果进行人工筛选,剔除期刊选题等无效文献,共得到132篇文献,从数据库中导出文献的篇名、摘要和关键词。其次,对数据进行清洗,提取文献关键词作为特征词表。最后,为进一步提高主题识别的准确度,防止无效词的干扰,构建面向数字经济高校人才培养的无效词表。

3.2 最优主题数目确定

困惑度表示对文档所属主题的不确定性,困惑度越低,说明聚类的效果越好,主题数目最优[10]。基于分词结果,计算主题的困惑度值,生成困惑度曲线,为防止过拟合,选取困惑度下降不明显或处于拐点的值,确定最优主题数目为26。

3.3 LDA主题聚类

首先,使用LDA主题模型进行主题聚类,生成主题-词的分布;其次,使用文献的篇名、摘要及关键词训练词向量模型,基于公式(2)计算主题与《规划》的相似度数值,阈值设定为0.3[11],并进行人工判读,过滤无效主题,最终确定有效主题数目为23,LDA主题识别结果如表1所示。

表1 主题识别结果

3.4 核心主题识别

首先,在主题-词过滤的基础上,基于公式(3)使用python生成主题词共现矩阵;其次,对共现矩阵进行过滤清洗,主要是对干扰词的过滤及同义词的合并,最终得到共现矩阵;最后,使用Ucinet软件将共现矩阵转成Pajek格式,导入VOSviewer分析软件绘制出数字人文主题词共现图谱。其中,“数字经济、数字经济时代、人才培养模式”圆圈较大,表示这些主题词被共现多次。

4 主题分析

根据抽取结果进一步提炼,可以划分为:数智时代的数字人才定位、数字经济的数字技术发展、高校数字人才存在的问题、高校数字人才培养模式4个方面,具体分析如下。

4.1 数智时代的数字人才定位

技术创新是经济数字化转型最核心的竞争力,培养新阶段所需要的人才可以在全球数字经济发展中建立竞争优势。数智时代的数字人才所涉及的内容包括“数字素养”“应用型人才”“高素质”等,反映出数字经济人才的需求和定位。根据《规划》可知,数字人才的培养是具备数字化技术、创新思维和数据治理能力的高质量人才。

4.2 数字经济的数字技术发展

数字经济的数字技术所涉及的内容主要包括大数据和人工智能等。大数据是数字经济发展中必不可少的生产要素,能够驱动信息技术持续发展。而实现人工智能典型的方法是专家系统和机器学习。目前,运算、感知和认知三大智能得到了业界广泛的认可。除此之外,数字技术还包括:区块链、云计算、数字孪生技术等随着互联网与经济社会的深度融合,数字经济已成为新的驱动力,高校应着力培养数字人才,以满足数字经济的人才需求。

4.3 高校数字人才培养存在的问题

高校数字经济发展受多种因素影响,如专业化不够突出,人才创新能力培养方案与数字经济发展产业链衔接不够紧密。总体上看,存在着政策性短板、服务手段短板等一系列问题,距离产教协同育人的人才培养目标还有很长的路要走。主要包括3个方面:

(1)数字经济发展产教融合格局尚未形成。高校数字经济人才培养方案和地方数字经济发展规划关联度较低,支持高校数字经济发展的政策措施不明确,造成办学定位遇到困难。高校数字经济学科的发展定位受制于外部资金等限制,经费、人员等保障措施不足。因而高校还需要进一步加强经费投入、人才培养、学科发展等保障体制建设,为培养复合型数字经济人才创造良好条件。

(2)地域因素阻碍了高校服务数字经济的发展。数字经济目标的实现离不开优质的师生资源,然而我国偏远地区的一些高校与一线城市的高校相比仍存在较大差距。同时,这些偏远高校还面临着知名教授被沿海高校挖掘的风险,因而在数字经济人才培养上存在着较大的挑战。

(3)数字经济科研辐射较弱。当前,高校与县域协同合作的机制尚未健全,与相关企业紧密协同的创新生态系统尚未形成,数字经济平台的集聚效应不甚明显,数字经济服务联盟尚未构建,数字经济科研平台建设还有待提升,其带动产业集成创新的水平仍有待提高。

4.4 高校数字人才培养模式

高校数字人才模式所涉及的内容包括“人才培养”“创新型人才”“数字化转型”等,反映出高校积极响应国家数字经济发展政策,不断探索创新人才培养模式。其中的主要举措有:

(1)加快人才引进,形成复合型数字人才培养体系。完善数字经济人才引进政策,构建数字经济人才的激励机制,引进急需紧缺的科技人才,以及在数字化技术领域拥有丰富背景的复合型人才,支持高校开展数字经济相关学科的研究,培养数字经济复合型人才。

(2)发挥政府的行政推动作用。相关部门要发挥出整体合力,激发数字经济从业者的积极性,突出政府的主导地位,搭建起以数字经济要素为主体,高校和数字经济发展相互衔接的服务体系,助推数字经济时代化。因此,相关部门要制定出与之配套的优惠政策,并给予一定的资金扶持,强化与高校的合作,从而促进数字经济核心产业的发展。

(3)实施转型升级。高校应向应用型转型:①升级制度保障体系。高校应设立专项数字经济学科发展资金、完善制度以更好地服务区域数字经济产业。②调整学科专业建设布局。建设有利于服务数字经济发展的学科专业集群,深化数字经济学科建设综合改革,形成横向分类、纵向分层的学科建设体系。此外,高校还应根据区域需求,主动调整学科专业结构,培养学生成为就业能力更强的数字经济专业人才。③优化数字经济人才结构。优先保障紧缺专业人才,拓展师资与国际间的交流合作,聘任专家来校从事数字经济相关工作。同时,加强数字经济学科教师的培训工作,为教师提供出国访学机会,拓宽教师的视野。

5 结语

本文以CNKI数据库为数据源,综合运用LDA主题模型、Word2Vec和共现分析方法,对高校人才培养研究的文献进行了核心主题提取。针对数字经济时代的“数字人才”定位、数字技术的发展态势、高校数字人才现存的问题、数字人才培养模式的探索4个方面,分析了我国高校数字人才培养的现状和面临的挑战,提出了未来的发展方向,旨在通过结合区域数字经济发展战略,推动高校参与数字经济创新性研究,提升高校服务地方的能力,从而推进数字经济时代发展的数字科技创新。

猜你喜欢
主题词数字化文献
Hostile takeovers in China and Japan
家纺业亟待数字化赋能
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
数字化制胜
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词