智能技术驱动的专业实验室资源统一管理平台的设计

2021-08-09 03:23龙元媛潘娅代尚灵余伟李琦
电子技术与软件工程 2021年11期
关键词:分词资源管理实验室

龙元媛 潘娅* 代尚灵 余伟 李琦

(1.西南科技大学计算机科学与技术学院 四川省绵阳市 621010 2.四川长虹电子控股集团有限公司 四川省绵阳市 628000)

实验室是多数高校进行科学研究的重要组成部分,专业实验室成员主要包括管理员、教师和学生,他们共同协作完成专业的研究工作[1]。经过多年科学研究积累,实验室往往包含许多实验所需资源、数据以及大量的科研成果,以实验语料、工具平台、视频图片、各类文档等多种形式存在。随着科学研究的不断开放,跨学科、多领域的合作研究日益频繁,各个实验室之间的科研成果实现顺利共享的需求凸显[2]。如果缺乏对专业实验室的资源进行统一管理,就可能导致实验室成员重复做同一研究、不同实验室之间也重复做同一课题,对已有资源使用效率低等问题。如何更好的管理实验室的设备、数据和各种科成果,让实验室已有的资源、成果在后续的研究中发挥应有的作用,为老师、实验室成员提供便利,都是实验室管理急需解决的问题[3],而且这个问题显得越来越重要。目前专业实验室资源管理任务比较繁重,主要存在如下的问题:

(1)缺乏对实验室资源的统一管理,导致实验室重复进行相同的实验,对已有的数据使用效率低等;

(2)国内高等教育的迅猛发展,大多数高校实验室面临着管理经验不足及资源使用不当等问题。

针对上述问题,结合目前实验室资源管理和技术的发展,国内外研究人员已经开展了一定的研究工作[4-6],但主要偏重归档存储、人工驱动的粗放管理模式。随着AI 的诞生与发展使人类解放自己、提高了生产力,就资源管理而言,很多基础性的、理性的、可量化的工作都可以由AI 完成,通过AI 和大数据技术,可以实现算法驱动的全方位综合利用专业资源的智能管理模式。

本文基于智能管理模式理念研发了智能技术驱动的专业实验室资源统一管理平台(以下简称:实验室资源管理平台),使用人工智能技术进行资源的自动收集、分类、智能推荐等,能够将实验室专业相关的资源进行有效的整合管理,方便平台使用者下载和使用这些资源,减少实验室人员在传承这些信息中的遗漏或错误,实现实验室研究资源高效,高质量的共享。

1 技术方案设计

1.1 架构设计

实验室资源管理平台采用B/S 架构[5],整体框架设计分为服务器端和浏览器端,两者通过 Http 协议进行连接,如图1 所示。用户在不同终端(电脑、平板、手机等)的浏览器,访问Web 服务器,Web 服务器向统一资源管理云平台通过Http 请求传输数据,让用户实现上传、下载、分享资源等功能,后台服务器进行资源收集、整理、存储,通过不同协议将在数据库服务器和文件服务器中。关联平台是指实验室内部专业平台,使用平台1...平台n 泛指各个专业实验室部署的不同平台,为资源管理云平台提供扩展功能。统一资源管理云平台可以通过Http 协议与其他关联的平台进行信息交换,提高各平台的使用率。采用这种结构具有以下几个优点:使用者可以打破时空限制,随时随地的进行资源上传、浏览、下载等,从而实现资源共享、提高资源利用效率;平台采取严格的权限分配,不同角色的人可以进行不同的操作;实时地将资源使用情况、资源管理结合起来。

图1:基于智能技术实验室资源统一管理平台整体部署图

图2:基于智能技术实验室资源统一管理平台整体框架图

图3:资源智能搜索和分类存储实现图

图4:推荐算法结构图

图5:个性化推荐训练图

1.2 功能设计

实验室资源管理平台根据功能和处理逻辑分为门户模块、支持应用模块、资源管理模块、数据集成交换模块、数据存储这几个模块,整体框架图如图2 所示。门户模块主要用于和用户交互,包括数据监控与分析,资源分类展示,资源查询与搜索和常用业务。支撑应用是完成云平台功能的基础应用,包括成员管理,权限管理,评论管理,日志管理和资源可视化等。资源管理是平台的核心功能,主要分为资源获取(人工上传、自动用工具爬取);资源分类(人工分类、智能分类);资源检索(全局检索,外部检索);资源推荐(搜索推荐,智能推荐);资源存储(文件存储、数据库存储)。数据集成交换,主要用于和关联平台互换信息,包含Web 服务接口的管理和接口运行的监控以及关联的各个实验室专业平台。

1.3 涉及技术

实验室资源管理平台在实现过程中采用前端后台分离和开发模型与代码解耦思维,主要分为Java Web工程和机器学习模型两部分。Java web 工程中前后端分离开发,前端使用Vue 框架,后台采用SpringBoot 框架,用Shiro 进行权限分配与管理。机器学习模型主要使用Python 编写并在Linux 服务器上进行模型训练,用于完成资源相似度计算,资源推荐等功能。在平台中使用Java 调用python进程进而使用相关模型,利用这些技术实现了资源获取、资源分类、资源推荐等平台的核心功能。

2 核心技术实现

2.1 资源智能搜索和分类存储

资源智能搜索和分类存储主要涉及资源智能搜索模块、采集分类模块,包含分词、过滤、主题归类、聚合描述、离散分布、文本聚类等技术,将人工与机器学习算法结合,通过网络爬取所需的资源,对于所爬取的资源经过滤解析然后利用Probabilistic Linear Discriminant Analysis(PLDA)算法尝试提取和归并不同的文章的各种关键词或主题,再使用不同关键词的权重去聚类,实现文本资源自动分类并存储到服务器,整个流程如图3 所示。

2.1.1 智能搜索模块

用户在搜索资源时,因为个人的对资源的认知情况,表达能力不一样,并且对事物的描述不一定准确,用户可能不能描绘出自己想要搜索事物的关键词,导致搜索结果的准确性不高,不能满足实现用户的搜索需求,对用户使用造成困扰。对此平台引入智能分词技术并将其应用于接收分析用户的搜索语句,该技术能够识别多种语言的语句,对各种不同的中文和英文句子能实现智能分词,提取出搜索语句中的关键字,在一定层面上能理解用户想要表达的意思是什么。在本平台中智能分词采用多种分词技术,主要使用的分词策略是基于分词词典分词、组合型歧义和交集型歧义的统计消歧算法。

平台依据用户需求(智能分词后的结果),通过网络爬虫技术对各种各样相关的资源进行搜索,网络爬虫从多个资源网站(百度或谷歌等),按照分词后的关键词逐个检索,网站搜索反馈的策略是在一个相关检索的网站下读取一个网页的内容,有其他的链接根据网站是否一致,选择是否跳转读取,如此重复操作,直到把这个网站的网页所有链接爬取完,自动爬取工作才结束,最终将爬取得网页存储为html 格式的Web 页面集。

2.1.2 采集分类模块

采集分类模块把搜索模块爬取的Web 页面集作为样本,使用常用的数据处理方式包括分词、类型改变、停用词过滤等,对其进行清洗和并解析转化为文档对象模型,然后结合专业实验室的资源基本数据单元制定标准来生成页面的基本语义模块,再使用这个模块去标记文档对象模型,从而建立页面相关模块单元与语义对象的关系,然后再使用PLDA 算法对文档对象模型进行关键词计算描述,再通过不同关键词的权重进行聚合分类 ,实现资源文件自动分类。

平台允许用户自定义采集规则,能实现扩展专业实验室资源信息采集知识,加强平台的资源获取能力,获取的知识能保存在专业实验室资源库中,在实时的获取中,也能将数据发送给用户的本地存储并在平台网页中展示给用户。

2.2 资源按需智能推荐

图6:平台部分成果展示

资源推荐先分析用户特征和用户轨迹方面,当用户进入本平台时,首先判断这名用户是否是新用户,一旦发现是新用户将启动冷启动策略,即提供资源热门排行榜,为用户提供大众资源,当收集的用户数据达到一定量时,基于用户注册标签特征和平台行为特征构建了完整的用户画像,再进行个性化推荐。如果用户不涉及冷启动问题,则直接根据已经构建的用户画像,进行个性化推荐。本平台涉及推荐的应用场景有两个:

(1)当用户访问实验室专业资源平台的首页时,推荐系统会计算出一系列用户可能感兴趣的资源,推荐给用户。推荐的资源都是根据用户偏好和资源属性来计算的;

(2)当用户访问专业资源详细页时,推荐系统会根据当前访问的资源和用户的习惯记录来推荐跟当前资源类似且用户可能感兴趣的专业资源。

用户对专业资源进行操作时(浏览、下载、评论等),平台会收集用户的行为,在闲暇调用对推荐模型的训练,使得首页推荐和资源相关推荐的结果更加精准、更加接近用户的喜好,从而实现个性化推荐,提高用户的体验,发现用户潜在喜欢的专业资源。本平台实现的推荐算法主要包括两大部分,全局推荐模块和用户个性化推荐模块,整个推荐算法结构如图4 所示。下面将分别对两个大模块的设计和实现进行详细介绍。

2.2.1 全局推荐模型

本平台的推荐算法是基于神经网络的分层混合推荐模型,其中全局推荐模块,包括多个子模块,分别是基于神经网络推荐模块、基于用户协同过滤推荐模块和基于资源属性推荐模块。

基于用户协同过滤推荐模块和基于资源属性推荐模块的输出作为基于神经网络推荐模块的输入,来得到最终的推荐结果。推荐算法的输入是图4 最左侧的五个矩阵,分别是资源属性矩阵、用户浏览矩阵、用户下载矩阵、用户下载矩阵和用户标签信息。资源属性矩阵保存的是专业资源的属性内容,主要作为基于资源属性推荐模块的输入;用户浏览矩阵记录的是用户是否浏览过某专业资源以及浏览次数;用户下载矩阵记录了用户是否下载过某专业资源;用户评论矩阵记录了用户是否评论过某专业资源以及好评或者差评,无评论记为0,好评记为1,差评记为-1;用户标签信息主要记录用户注册标签特征。用户浏览矩阵、用户下载矩阵、用户下载矩阵这三个矩阵主要作为基于用户协同过滤模块的输入。用户标签信息结合用户行为信息(浏览、下载、评论等)共同构建用户画像,进而实现个性化推荐。

平台模型训练集是在收集用户行为内容以及用户特征后,组成平台上的内容总库以及用户总库,将二者合并构建出的训练集。训练集记录并汇总平台上全部的行为日志,因此可以通过算法训练出一个资源推荐模型。由于基于用户协同过滤模块的计算量比较大,不可能实时计算,因此采用离线计算的方法,将其输出保存日志文件中,然后基于神经网络推荐模块会根据需要从日志文件中读取并解析出数据。在首页推荐中,基于用户协同过滤模块的输出是平台将各个资源对用户的推荐度,而在详细页推荐中,基于资源属性推荐模块的输出是同用户当前浏览专业资源的有关联的多个资源相似度。

2.2.2 用户个性化推荐模块

用户个性化推荐模块可以很好新用户冷启动问题同时实现用户的个性化推荐功能,整个模块训练和调用过程如图5 所示。在本模块中维护了基于全局用户操作习惯的人工神经网络,当新用户注册时,就把此人工神经网络复制到新用户的神经网络推荐模块,给用户做全局推荐。

在个性化推荐涉及启动前,平台中已经训练好了基于全局用户偏好习惯的首页推荐神经网络和资源页面推荐神经网络,将其作为最开始的全局神经网络,此神经网络可以直接根据输入的特征值(包括专业资源属性、基于用户协同过滤推荐结果)来计算推荐结果,这样在新用户注册后,不需要对用户进行额外的偏好获取,就可以推荐资源给用户,很好地解决了新用户的冷启动问题。通过复制全局推荐模型作为新用户的推荐模型,然后根据新用户之后的操作修正推荐模型,使推荐模型更加贴近用户的偏好。当新用户进行浏览、下载、评论等操作时,本模块会根据用户的操作构建用户画像并对其神经网络进行训练,从而达到个性化推荐。

3 平台应用情况

实验室资源管理平台已投入本校软件测试实验室管理中,实际使用效果良好(如图6 所示),目前支持200 人同时在线,50 人同时操作资源,并在3s 内给出反馈。平台为实验室管理员、实验室老师、实验室同学提供资源上传、资源搜索、资源评论、推荐资源等功能,方便平台使用者下载和使用这些资源,减少实验室人员在传承这些信息中的遗漏或错误,实现实验室研究资源高效,高质量的共享。

4 结论

本文研发了智能技术驱动的专业实验室资源统一管理平台,从技术方案设计、核心技术实现等方面对平台的设计与实现进行了阐述,并在实验室进行了实际使用,该平台能够将实验室专业相关的资源进行有效的整合管理,使用人工智能技术进行资源的自动收集、分类、智能推荐等,方便平台使用者下载和使用这些资源,减少实验室人员在传承这些信息中的遗漏或错误,实现实验室研究资源高效,高质量的共享。

猜你喜欢
分词资源管理实验室
人事档案管理在人力资源管理中的作用
企业人力资源管理
分词在英语教学中的妙用
GIS在森林资源管理中的应用
论英语不定式和-ing分词的语义传承