文/孙兆群,陆成松
(1.上海仪电人工智能创新院有限公司;2.上海海洋大学)
高校处于高端人才孵化、前沿科技策源、创新思维迸发的重要交汇点,肩负着人才培养、科学研究、社会服务、文化传承创新、国际交流合作等重要责任和使命,是国家科技创新体系的重要组成部分[1]。学生作为高校教育活动的主要参与者,其学习和成长的过程情况与反馈,是判断高校服务水平优劣和促进高校服务能力提升的重要参考指标和依据。坚持教育以学生为中心,以“发掘学生潜质、激发学生兴趣、指导学生学习、成就学生价值”为基本目标,探索基于数据驱动的新型人才培养和教育治理模式,对促进学生全面高素质发展和提升高校服务能级具有重要意义[2]。
互联网技术的迅猛发展,使人类依次经历了以文档互联为主要特征的“Web1.0”时代和以数据互联为特征的“Web2.0”时代,并正处于以知识互联为基础的“Web3.0”时代[3]。近年来,在《国家中长期教育改革和发展规划纲要(2010—2020年)》[4]和《教育管理信息化建设与应用指南》等政策文件的指导下,高校在教学信息化、科研信息化、管理信息化等方面取得了显著的成果,学校基础数据、学生数据、教学数据、教职工数据、研究生数据、科研数据、财务数据、资产与设备数据等逐步汇聚。面对上述爆发式的海量数据,如何将碎片化、不连通、质量参差不齐的非结构化、半结构化数据转化为高质量、连通性强的语义网络,是当前高校面临的主要挑战。2012年,Google公司提出知识图谱的概念[5],它是人工智能的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值[6]。
知识图谱始于20世纪50年代,至今大致可分为三个发展阶段:第一阶段(1955—1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977—2012年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加工;第三阶段(2012年至今)是知识图谱繁荣阶段,通过知识图谱技术改善了搜索引擎性能。
本文面向高校场景,在高校数据中台及第三方公开网站(如教育部官网、招聘网站等)所提供的海量数据的基础上,结合语义搜索、智能推荐,以及爬虫技术、中文分词、反序索引库等人工智能技术,通过构建资源调度引擎和知识图谱引擎,赋能高校当前各类业务系统,达到学校系统前端体验合理化、系统功能智能化、数据应用简单化的效果,并提出知识图谱驱动下的招生咨询、学涯规划、岗位匹配等场景应用方案。此外,通过本平台对外提供语义检索接口、图谱检索接口、关系网络分析接口等公共接口,为高校其他应用服务场景的探索提供可能性。
面向海量异构数据融合分析与知识图谱引擎运算需求,构建分布式基础设施,实现对底层计算、存储资源的高效调度与动态扩展,主要包含资源调度管理平台、调度任务管理、镜像和集群管理、任务调度平台。资源调度管理平台基于Kubernetes可以实现对CPU和GPU资源的灵活调度;调度任务管理实现对于人工智能训练和推理任务的统一管理,并且可以通过配置文件的方式对任务进行统一、集中配置;镜像和集群管理,系统包含有支持主流深度学习框架的镜像,并且提供工具对镜像进行灵活的定制,对于整个集群也有管理,可以根据需求灵活实现资源弹性释放和申请。
资源管理调度可以灵活调度多种云资源,包括本地私有云、以微软Azure为代表的公有云资源,以及联合调度本地私有云和公有云资源的混合云场景。在运算资源不足(任务堆积)的情况下,可以向公有云申请运算资源,并将等待中的任务调度到新申请的运算资源中运行;在运算资源过剩(公有云资源闲置)的情况下,可以主动将运算资源归还,以节省不必要的支出。
由于诸多原因,如工程建设周期过长或工程分期建设造成设备更新不及时等问题,高校的运算资源集群很难保证完全同构,即运算集群由不同厂商的不同型号的运算资源组成。异构资源管理调度引擎支持不同类型资源(CPU、GPU等)、不同厂 商(如Intel、Nvidia、AMD等)和不同架构不同型号的计算资源的统一调度,实现上层应用的无感知透明访问。基于创新的运行环境支持,资源调度引擎能够兼容对新兴硬件(如FPFA和ASIC等)的支持,实现多种异构资源的高效利用及统一封装,方便上层应用的使用及管理。如图1所示。
随着人工智能尤其是深度学习的日渐流行和普及,众多云服务提供商纷纷推出带有GPU等高性能运算资源的云主机,以此响应市场上对于运算资源的需求。其中典型的代表是Azure云提供的数据科学虚拟机(DSVM)和深度学习虚拟机(DLVM)。相对于自建运算资源集群,云资源可以帮助高校快速获得并成功使用所需的运算资源,大大简化部署、扩充和运维的难度,并且可以享受到最新的容器加速等增值服务。云资源管理调度引擎实现对多种云计算资源管理和调度,用户可以像使用本地资源一样高效快捷的使用云上的计算和存储资源。
混合云资源管理引擎集成了混合云资源调度架构,能够有效整合本地资源和公有云资源,实现统一调度和管理。可以针对业务场景需求,实现深度学习任务在本地资源与云端资源间动态迁移和负载均衡,保障高校业务的高效运营。启动服务用于处理任务请求并提交至Hadoop YARN+AI引擎进行资源分配与调度。本地算力和云端算力通过Kubernetes集群进行统一管理和资源抽象。如图2所示。
此外,本项目可与Azure智能云和科学计算资源深度集成,提供灵活可控的伸缩策略。用户关联Azure账户之后,可以在适当的场景下自动向Azure申请和归还运算资源;可以根据用户的任务类型和成本预算,灵活选择合适的云计算资源和规模。
知识图谱分为通用知识图谱和行业知识图谱,面向全领域的通用知识图谱,如Wikipedia、Bing Satori等,其因强调广度而关注更多的是实体,很难生成完整的全局性的本体层的统一管理,主要应用于面向互联网的搜索、推荐、问答等业务场景;面向特定领域的行业知识图谱,如Facebook社交图谱、LinkedIn职场图谱、Amazon商品图谱,其有严格且丰富的数据模式、更高的准确度要求、更多关注实体属性且具有显著的行业意义,通常用于辅助各种复杂的分析应用或决策支持。
知识图谱与一般知识库最大的区别在于知识图谱更侧重于关联性知识的构建,且具备一定的知识推理能力,更近似于知识系统。知识图谱以(实体1、关系、实体2)或(实体、属性、属性值)的三元组形式来表示实体以及实体之间的关系,形成一张巨大的语义网络图,其中节点表示实体,边表示实体间的关系或实体属性。知识图谱能使计算机理解人类的语言交流模式,从而更加智能地反馈用户需要的答案[7],其体系架构包括数据抽取、知识抽取、知识融合、知识加工、知识推理应用等关键环节。
知识图谱为高校数字资源建设、管理、服务提供了一个获取、存储、组织、管理、更新和展示的有效手段。因此,高校可利用人工智能技术整合校内外数字数据资源,构建基于本校特色的知识图谱,为学校的智力、决策支持构建一个智能、高效的知识组织方式,形成信息技术与资源的新融合,帮助师生更加快速而准确地获取自己需要的信息。知识图谱的语义结构化数据,可以对大多数挖掘分析及机器学习进行特征提取和建模。可直接在图谱的模型上,利用聚类进行推荐的计算。基于特征提取之后的结构,构建特征相似度的评估模型或分类算法,实现面向学习的推荐的组合算法。基于已经构建好的知识图谱,完成问答功能与分词推送,使用人员在键入问题后系统运用分词搜索引擎技术获取答案。
通过大数据和可视化技术,建立以关键词为中心的知识体系,让资源以结构化、可视化的方式呈现,让知识的获取更加快速、准确。基于知识图谱引擎,高校信息分析和挖掘超越实体,将关系囊括其中,利用图结构、实体关系的表述更符合客观现实,使关系内生成为结构的一部分。面向高校的知识图谱引擎功能架构,包括主题库层、能力层和接口层三部分,如图3所示。
主题库层与高校数据中台及第三方网站对接,可从系统中抽取业务数据和日志,经过清洗和治理后导入知识图谱主题库中。主题库按照学生、教师、学科、专业等为关键主数据,可构建关系库、索引库、标签库、评分库、模型库、特征库、FAQ库、基础信息库等数据库,为上层服务能力提供支撑。
能力层包括搜索引擎服务、推荐项生成、Schema管理、标签计算、数据同步/导入、关系检索子图、指标评价体系构建等多种服务,以及匹配排序算法、NER算法、相似度算法等多种成熟算法。用户亦可根据自己的场景需求自定义模型及相关服务,并支持便捷的模型和服务管理。
接口层面向第三方开发者,用户可在后台自定义生成知识图谱的API接口,如语义检索接口、关系网络分析接口、图谱检索接口,以便针对学生综合能力评价、学科发展潜力评估、教师教学质量评价等其他应用场景展开服务探索。
快速、精确掌握所报考院校的招生政策、专业分布、培养路径、就业方向等情况对于众多高考学子及家长选出称心如意的专业而言尤为重要,通过电话、邮件等方式直接向高校一对一咨询是当前相对高效、便捷的方式,然而这无疑给高校工作人员在短时间内造成巨大的压力[8]。
基于本平台所建设的能力,构建基于知识图谱的智能招生咨询系统,可以将考生与家长所关心专业信息、学科信息、就业信息等问题以图结构进行存储,并可利用本平台提供的智能搜索服务,供考生和家长更便捷与高效地咨询和检索。系统根据用户的自然语言问题描述,通过分词搜索引擎,定位用户问题或意图,提取用户问题或意图相关的信息,组织生成针对用户特定问题的回复,具体逻辑如图4所示。
大学阶段最重要的任务之一就是逐渐完成对从学生角色转换到工作者角色的准备工作,大学教育是决定一个人成才与否的关键时期,将为毕业后离开象牙塔走向社会打下坚实的基础。如何科学合理地安排自己的大学生活,为将来的就业和升学做好充足的准备,对于大学生而言至关重要[9]。
学生在考虑家庭因素(家庭经济社会条件、父母期望等)的情况下,根据学生个人特质(性格、兴趣、价值观、能力、健康等)及生涯发展目标(达成什么成就、从事什么职业、过什么样生活等),达成决策平衡并确立学涯目标。基于本平台所建设的能力,针对大学生个体构建基于知识图谱的新生个人画像和基于知识图谱的在校生个人画像,通过使用平台提供的图检索服务能力和匹配排序算法,匹配新生达到学涯目标所应制定的规划维度和要素最优值,并利用平台的推荐项生成服务,从德育、智育、体育、美育、劳育等方面进行推荐学涯规划执行路径方案,具体逻辑如图5所示。
当前,由于经济发展压力增大、毕业生规模持续增加、疫情对就业的影响仍在持续等原因,高校毕业生就业形势仍然严峻复杂[10]。面对上述问题,高校作为人才孵化培养基地,如何输出满足企业真实需求的人才是解决毕业生“就业难”和企业“找人难”等问题的关键所在[11],同时,将学校人才培养方案、学生已有综合能力、用人单位招聘导向三者统一,是解决人岗不匹配现象的重中之重[12]。
基于知识图谱引擎构建应届毕业生就业能力画像、已毕业学生就业情况画像以及就业岗位需求画像,通过利用平台的关系检索子图服务能力(基于图谱的多路径召回和基于图特征检索)从已毕业学生的就业情况中检索到适合应届毕业生的相关岗位工作,并通过匹配排序算法与就业岗位需求进行匹配,确定市场上现有的类似岗位,进而将匹配结果反馈给应届毕业生,以完成应届毕业生的岗位匹配工作,具体逻辑如图6所示。
本项目成果突破知识图谱构建、知识图谱推理、知识图谱存储及语义搜索、智能推荐、资源调度等关键技术,实现智慧校园搜索推荐交互及实现运营数据分析的智能化,大幅度提升用户体验及运营效率,并提出了在招生咨询、学涯规划、岗位匹配等场景中的解决方案。除此之外,利用平台对外开放的接口能力组合,可实现在高校更多场景中的应用探索。