统计学科技情报“知识图谱”教学工具的构建

2024-03-08 03:31鞠成晓
长春师范大学学报 2024年2期
关键词:商科知识图谱图谱

易 翔,鞠成晓

(东莞城市学院商学院,广东 东莞 523419)

1 研究背景

在智能技术冲击传统产业的时代背景下,商业模式和管理模式被迫处于高速迭代变更状态。产业需求的变化向上传递至专注于人才输出的教育行业,也驱动着拥有商科专业的各类高校不得不思考如何在课程建设中进行“数智化”转型。除了硬件的导入和升级,通过计算机强大的运算能力及机器的理性决策,辅助教学人员完成商业概念和产业重要节点内容的传导,使得“新商科”这个概念逐渐成为炙手可热的话题[1-3]。2018年5月于北京召开的教育部产学合作协同育人项目对接会上,首次提出了“新文科”概念。相对于传统文科,新概念更加强调学科深度交叉融合,以促进该领域新理论、新机制、新模式的形成。在服务国家应对当今更为错综复杂的全球形势的同时,促进国内经济社会领域深化改革,帮助人们解决与精神价值相关的重大理论问题。“新商科”是在“新文科”体系下延展出的关于经济管理的教育门类分支。传统商科对专业人才的塑造,不论是会计、财务管理,还是人力资源管理和市场营销,大多是基于学科内容区分,帮助未来从业者完成在认知层面的职能定位。但是,当下复杂的经济环境要求商科专业人士能从商业手段、管理技巧及操作技能方面主动回应由于技术创新、社会变革所带来的产业新需求。因此,“新商科”体系塑造出的专业人士一定是既懂经济、管理,又懂新技术应用的跨学科、复合型人才。而这样的多领域专业认知技能融会贯通的一个关键就在于新商科人才数据思维特征的培育[4]。王昕等[5]在探究数字经济时代新商科专业群的建设路径问题时指出,当下的教学重心应该逐步从占有知识转向利用多种数字化技术和数据内容解构新商科跨专业领域(如科技金融、精准营销、跨境电商等)的应用知识层面。一方面是为了适应市场变革,因为数字化技术和数据要素不仅是深化数字经济迭代发展的引擎,同时也是驱动商业模式进化升级的关键;另一方面,加强对商科人才数据思维的培育,也能促进我国人才市场对国际格局变化和社会科学中国化需求进行有效回应。

随着全球化的技术迭代快速更新,知识密集型的经济模式正逐渐主导着社会的发展。知识经济带来的关于技术创新、产品周期、客户偏好、商业模式等爆炸式增长的信息,极大地延长了专业人士的认知周期,同时也给他们在知识选择上带来了困难。为了帮助专业人士迅速地进行新知识结构的搭建,并快速实现信息检索,专注于专业知识核心节点绘制、特征信息挖掘、关联关系分析、知识计量生成和可视化展示的新兴学科逐渐成为研究人员的讨论热点。这门包含着信息处理、计算机手段、统计算法、应用数学模型、商科理论等众多交叉领域专业技术的学科被定义为“知识图谱”[6]。知识节点的降维分类、节点内容的关联、相关重要性的计量及节点空间位置的可视化呈现,能加深专业人员对自己研究领域在知识空间所处位置的了解。知识图谱在空间上描述了特殊知识资源的整体概况。以知识图谱为代表的大数据知识工程技术也为成就包含智能评估、智能决策的新型商业模式带来全新的机遇[7]。

2 新教学手段设想及知识图谱系统绘制方案

科技媒体作为覆盖新概念、新技术、新产业最广的内容源之一,在其对外公开的信息和数据中,存在大量的实体和关系。但是,它们之间通常缺乏确定的“逻辑指向”,这也造成专业人员或专业学员无法有效地认知科技概念并挖掘出相关潜在价值。相较于传统的“关系型”数据库,建立知识图谱数据库更擅长回应复杂的关系网络。在知识图谱系统实现自动化自我学习与优化过程中存在一个关键问题,即在先验阶段通过人工干预生成初级知识图谱各节点之后,面对某些节点存在众多关联的子节点的情况(图1),如何通过价值分类,区分低价值子节点、高价值子节点。因为只有层次分明,才会方便后续后台服务器针对不同价值权重的子节点形成优化的信息追踪方案,并将有限的算力及存储资源集中在高价值节点,实现基于知识图谱的智能系统作用最大化。目前,在确定知识图谱各节点要素方面,大多是采用现有知识百科固有模板,通过条件随机场模型的预测算法(CRF)对标准语料库进行学习及人工干预补充得到节点属性。而节点权重价值则一般通过某节点所有邻近关联节点总数的导数[8],或者通过节点关联特征向量的逆文档频率来确定[9-10]。不过这两种方法的问题在于,对于前者,由于在确定节点实体要素阶段人工干预影响的不确定性,往往会对节点所有邻近关联节点总数产生较大影响,因此容易造成节点权重价值产生较大偏移;而后者,其初衷原本是抑制某一节点无意义高频词的负面影响,但高频词并不等于无意义词,而低频词的偶然出现也容易被当作高权值关键词而纳入节点的关键向量特征,从而过度放大包含大量生僻词特征向量节点的重要性。因此这两个指标并不适合节点价值分析。节点价值的识别、分类和优化是增强知识图谱实用效力的基础。如果仅通过扩大人工干预的影响来实现,受个体差异的影响,不同专业人员对节点价值判断则难以相同。如何提供一种设备,使其能准确、自动化地从科技媒体消息来源、渠道、情报等因素中判断出节点价值,从而构造出更优化的知识图谱是一个难题。

图1 行业知识图谱示例

针对当前技术的缺陷,本文提出了一种基于科技媒体情报的智能优化新兴科技行业知识图谱系统绘制方案,其整体框架如图2所示。方案包括依次相连的目标行业数据采集&传输接口、与所述数据采集&传输接口连接的处理器、与所述处理器连接的存储器。图2所示的存储器存储行业知识图谱节点内容及知识图谱节点情报价值数据库,行业知识图谱节点内容主要包括行业关键词。行业知识图谱节点情报价值数据库包括节点情报长度L、最新报道时间间隔I、关联报道出现频率F、关联报道总长度C和消息来源加权平均值W,五个指标数据作为识别节点价值的指标,构建LIFCW模型,如表1所示

表1 知识图谱LIFCW模型各指标

图2 系统框架图

表2 节点价值指标数据

图3具体描述了由数据预处理模块和“建模+应用”模块组成的处理器。数据预处理模块将接收上述数据并进行预处理,包括数据规约、数据变换、缺失值和异常值识别、数据清洗与整理。

图3 系统处理器操作流程图

……

将所有数据对象分配完成后,计算每个聚类的均值,并与初始聚类中心比较。若发生变化,则重新定义聚类中心,并计算所有子节点数据点到各新聚类中心的距离,并将它们分配到新的距离最近的聚类中。重复以上步骤,直到聚类中心不再变化,这种划分使得下式最小:

3 结语

科技媒体作为覆盖新概念、新技术、新产业最广的内容源之一,通常也是商科统计课程中数据和案例资料的重要来源。值得注意的是,在其对外公开的信息和数据中存在大量的实体和关系。在用于教学的科技情报知识图谱系统构建过程中,若逐一关注体量庞大的实体及其关联节点,将会带来很高的操作成本,有针对性的资源投放也难以开展。这种情况下,如果采用传统的自然语义分析方法来确定节点价值权重,容易过度放大带有大量生僻词特征向量节点的重要性。而若采取人工干预,其经验的不确定性也容易造成节点权重价值产生严重偏移。本文提出的知识图谱绘制系统,具有的效益在于更为深入、准确地表达图谱中子节点词条对于上一节点词条的重要性,并进一步地为信息数据追踪提供了判断方案。处理器中的“建模+应用”模块对应的LIFCW模型,相比传统基于文档词频的节点权重判断方案,不仅不会过度放大包含大量生僻词特征向量节点的重要性,而且由于新兴媒体对新兴行业所有特征的特殊敏感性,基于情报的价值判断更有益于在绘制知识图谱时,有效识别出最有价值的节点群。通过突出高价值节点的位置,将方便后续后台服务器针对不同价值权重的子节点形成优化的信息追踪方案,将有限算力及存储资源集中在高价值节点,进而帮助专业人才在跟踪与分析新兴行业领域主要特征数据时,更有效地判断和掌握统计学理论的应用价值。

新经济形势对商科专业教学提出了新的挑战,大量的统计数据涉及社会经济和生产生活的各个方面。统计教学不仅是对数据的收集、整理与分析,更重要的是要引导学生扩展知识面,运用统计方法认知和理解复杂问题。结合知识图谱工具应用的教学,将有助于提高学生对专业化理论的个性化认知,在提升学生学习效率的同时,对全面推行智慧型教学模式和个性化培养具有积极意义。

猜你喜欢
商科知识图谱图谱
新商业模式下新商科通识课建设的思考和探索
绘一张成长图谱
补肾强身片UPLC指纹图谱
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
主动对接你思维的知识图谱
商科院系建立咨询委员会的思考
应用型本科院校商科教学改革与实践