摘" 要:在上海体育大学融合门户的建设过程中存在软件架构的问题,通过分析未来面向人工智能的软件架构发展趋势,提出实现面向事务的智能体融合门户才是解决之道。该文通过深入探讨\"页面操作\"和\"语言交互\"的用户交互模式发展方向,通过简化架构设计、提高接口复用性,以及分析用户交互行为等方式对现有的软件架构进行优化整合,旨在提出一个适应AI发展的、全新的混合软件架构和设计方案。以期为高校信息化平台软件系统架构的未来发展方向提供参考。
关键词:人工智能;智慧校园;软件设计;语义分析;信息门户
中图分类号:TP311" " " 文献标志码:A" " " " " "文章编号:2095-2945(2024)35-0130-04
Abstract: There are software architecture issues in the construction process of the integration portal at Shanghai Sport University. By analyzing the future development trend of software architecture for artificial intelligence, it is proposed that implementing a transaction oriented intelligent agent integration portal is the solution. This article explores in depth the development direction of user interaction modes for \"page operations\" and \"semantic interaction\", optimizes and integrates existing software architectures through simplifying architecture design, improving interface reusability, and analyzing user interaction behavior, aiming to propose a new hybrid software architecture and design scheme that adapts to the development of AI. In order to provide reference direction for the future development of software system architecture for university information platforms.
Keywords: artificial intelligence (AI); smart campu; software design; semantic analysis; information portal
随着人工智能的快速发展, 以ChatGPT为代表的大模型应用的经典案例在人工智能生成内容(Artificial Intelligence Generated Content)和理解自然语言方面展现了强大能力。 在本次技术浪潮的推动下,高校及教育信息化厂商把智能问答、百事通等AI辅助功能附加在融合门户的能力之中,但现有框架存在如下问题:一是人工智能大模型的技术路线和原有门户软件架构存在生搬硬套不整合的问题;二是这种门户平台的AI升级停留于表面,未对软件架构彻底地进行基于人工智能的技术革新。基于上述问题对软件框架的发展趋势进行了大体的预估分析,提出了一种混合软件系统架构,可以让用户在同一软件架构下的\"页面操作\"和\"语言交互\"操作并行不悖,进而优化软件性能和增强用户体验。
1" 提出问题:当前在人工智能背景下融合门户软件架构变革存在问题
1.1" 融合门户在向智能化转变中2套架构并存的情况
信息化办公室(为笔者本部门)在承担上海体育大学经信委项目融合门户的建设任务后,对现有大部分教育信息化厂商进行考察中发现主流厂商在本次技术浪潮中也在推出智能问答等AI辅助模块,而这种人工智能的辅助功能是通过调用语言大模型来实现的。智能对话的模块采用LangChain等整合大模型的框架,传统门户微服务采用K8s等架构。
从和主流门户厂家技术沟通来看,智能问答模块和微服务模块是相互分离的,2种软件架构不能调用、重构和复用。这对系统维护、软件开发、系统部署和系统测试都造成了诸多不便,也提高了融合门户的部署时间和开发成本,2种独立架构也使得实现如通过语言对话调用微服务启停等代理事务变得较为困难,也成为融合门户发展为事务性智能体的障碍。
1.2" 2套架构不整合造成了融合门户智能化不足
在融合门户追加智能问答功能后,相比传统门户多了一个咨询和操作指南模块,但问答和系统之间没有关联,无法通过智能问答完成具体事务。面向任务的智能体的定义为专注实现既定目标和完成工作流程的代理体。融合门户是师生最重要的系统平台之一,在此平台上师生需要进行大量事务操作;任务导向型智能体才是以用户为导向融合门户智能化发展的方向。
现有的微服务主流架构的Kubernetes(K8s)是面向程序员的开源容器编排系统,用于自动化应用容器的部署、扩缩容、维护等。现有智能问答主流框架LangChain旨在简化和增强基于语言模型的应用开发,其核心目的是整合大模型,从而更好服务于用户。2种框架都是为专业程序员设计的软件架构。
而体验不好的根本原因:一方面是没有以人工智能的思维去设计AI系统架构,无论是LangChain还是K8s都是从程序员角度去设计的;另一方面,架构师简单将2种架构部署于不同服务器,导致现在软件用户体验还停留于20世纪,譬如微软在Office 97版本时就已经有Office助手。在笔者看来这种“拿来主义”的简单拼凑就是融合门户智能化不足、体验不友好的重要原因之一。
现有架构设计出发点不是面向任务智能体所创建,整合2个框架的工作量可能要远远大于开发新框架;解决根本问题不能生搬硬套,只能从源头做起,为此,就需要一个新框架。
2" 分析发展趋势
便捷简单化、去中间化、去专业化和减少人力成本是未来软件架构的发展趋势。
2.1 便捷简单化
便捷简单化是IT发展的趋势。近年来,单反相机销量大幅下降,说明手机摄像头和笨重单反相机拥有一样性能时用户更喜欢携带手机。软件架构设计也是一样,如果能够简便地通过智能问答完成具体事务,体验度会更好。
2.2 去中间化
去中间化是指消除原有的中间环节。如现有的融合门户智能问答(图1)在询问时给出操作指南,用户理解操作指南来寻找系统指定页面,然后点击鼠标敲击键盘完成事务。其中“用户环节”是多余的,应该直接去掉。
2.3 去专业化
现有的低代码、无代码平台就是去专业化的表现,使得普通用户就能进行专业编码工作。去专业化从古至今从未停止,宋朝验钞的从业者被称为“楮币匠”,而今普通人用验钞机即可。
2.4 减少人力成本
减少人力成本是去专业化达到一定程度的进一步成果。如果面向事务的融合门户可以通过智能对话实现微服务启停,那么无须维护工程师,一般教职工就可以实现系统维护,免去了高额的维护费用。
3" 解决问题
页面操作和语言交互并行的混合软件架构设计是实现融合门户从“传统软件系统”到“事务性智能体”的一种解决方式。
3.1" 混合软件架构设计符合时代发展趋势
前文分析了软件框架的发展趋势,那么页面操作和语言交互并行的混合软件架构设计实现了通过语言对话完成具体事务,而事务的自动完成可通过调用多个复合函数来实现,并保留传统人工操作页面,使该架构实现页面操作和语言交互2种操作并行不悖。该混合软件架构可以通过对话完成事务性工作,也可以通过直接对话由系统自动完成事务,去掉了系统管理员多余的中间操作。如上海体育大学已经上线的智能咨询完成密码重置功能,已经实现通过NLP接口进行对话后自动返回新密码,通过日志分析已有上万人次的使用数,去掉了人为环节,方便快捷,用户反应良好。而随着该架构的进一步优化和升级,去专业化和减少人力成本的目的也会逐步实现。
3.2" 2套用户交互方式要同时保留
融合门户中既要能进行页面操作完成工作,也需要进行智能问答实现具体的事务操作。那么新的软件架构必须要让 “页面操作”和“语言交互”并行不悖。这也是软件混合架构的意义所在。
3.3" 自然语言处理(Natural Language Processing, NLP)的通用接口为解决问题的核心
客户端服务器架构是最常见的设计模式之一,其中客户端负责前端的展示和用户交互,而服务器则处理大部分数据和存储工作[1]。“页面操作”为用户通过键盘鼠标的交互动作,属于 Human Machine Interface的技术范畴,中文意思为“人机界面”或“人机接口”,指的是人与机器之间进行信息交互和通信的界面。那么用户在点击人员查询画面,在查询条件【人名】中输入查询文字【张三】后点击【查询】按钮,此时人与机器之间进行的信息交互翻译为动作语言则是“在人员库中查找名字为张三的员工,并返回该员工的详细列表信息”。
每个模块都有一个清晰定义的接口,从而减少了模块间的依赖。这不仅有助于简化应用的开发和测试过程,还使得单个模块可以更容易地更新和替换,从而提高了应用的灵活性和可维护性[2]。那么在页面操作变换为动作语言的模块,笔者姑且叫作“PageOperation-To-TXT”,即页面操作过程转化为描述语言。那么此处的“页面操作”和“语言交互”一样可以调用大模型来进行前后台的数据交互。
4" 混合软件架构设计的构想及初步实践
4.1" “混合软件架构”的定义
本文的“混合软件架构”是指将多种技术路线的架构有机整合,实现“人机接口”(HMI)中含有多种交互模式的软件架构。而本次讨论的融合门户的技术架构升级涉及到语言交互和页面操作2种类型。
4.2" 页面操作会话(PageOperation-To-TXT)模块的定义和构建
页面操作会话(PageOperation-To-TXT)含义为把用户在页面上的点击和键盘操作转化为业务语言描述。页面操作会话模块的功能为把用户操作转化为业务语言。页面操作会话模块的构建首先需要收集用户操作日志,然后需要建立动作解释器完成由操作日志到“操作语言描述”的转化,最后需要大量操作日志和语言描述数据作为样本数据,业务逻辑描述语言也需要对数据库环境变量做逻辑匹配,通过贝叶斯算法或模型训练等方法来实现页面操作会话模块的开发工作。由于该模块构建过程不是本文的说明重点,故不进行细说赘述(图2)。
4.3" 通过语言接口可以调用多模态大模型
多模态大模型是一个结合了多领域技术的复杂过程,因为传统的多模态大模型(如用于图像识别、语音识别或文本生成的模型)并不直接针对代码生成进行优化。然而,随着技术的进步,一些创新的方法和技术正在探索如何利用多模态大模型来辅助或生成代码和微服务。
如此,通过语言接口来调用多模态大模型,融合门户的软件架构具有前瞻性,可以返回更多类型的执行结果。
4.4" 融合门户的首页图例
如图3所示,A区域为“语言交互区域”;B区域为“页面操作区域”,当融合门户采用混合软件架构来部署后,用户在B区域所有的页面操作行为,也会通过转换为业务语言描述传给多模态大模型后台并得到返回结果。
并且由于采用了统一整合的混合软件架构,在A区域类提出“请给出学生类微服务”等命令时,B区域会列出所有的学生微服务列表。如果在A区域提问“请列出2024年综合成绩排名前100位的体教学院的学生”等问题时,B区域也会直接生成查询结果列表。
传统融合门户和智能助手采用的是不同的软件架构,不进行整合的传统软件架构是难以实现的。另一方面,如果用户在B区域的成绩查询页面确定“2024年”“体教学院”和“前100名”为查询条件,点击“搜索”按钮时,B区域也会出现“请列出2024年综合成绩排名前100位的体教学院的学生”的文字描述,此文字描述通过NLP通用接口传输到后台,返回与开始所述问题一样的返回结果。
4.5" 传统软件结构和混合软件结构比较图
通过软件架构的整合,混合软件结构的统一度较高,问答和页面操作可以用同一函数调用实现,软件后台的搭建无须传统复杂冗余的各类微服务架构,直接和多模态大模型进行软件整合和系统对接即可(图4、图5)。
5" 混合软件架构设计的优势
软件架构层次清晰,无须微服务架构和大模型2套架构,简化了开发、部署、运维和排查的各类成本。
人机交互(HMI)中的语言描述对话更加细腻灵活,是未来的AI发展趋势,页面交互操作更加规范、更加直观、更加符合编程的需要。混合软件架构能够把这2种沟通模式的优点有机结合。
语言描述和页面动作都通过NLP接口实现,使整个系统的设计规范、严整、统一,便于系统的开发和维护。
由于后台数据交互通过自然语言实现,使得前端UI的开发无须考虑后台的技术架构和开发语言,完全实现前后端脱离,使得融合门户的前端(UI)更加轻量化,使得界面UI的设计更加人性化、便捷化。
该软件架构设计有一定的前瞻性,为未来多模态大模型的对接做好准备。如可以生成微服务的大模型架构进行对接。
页面操作转化为人员动作语言描述,让日志可以直接查阅无须日志解析。通过页面操作明确人员的使用意图,同时利于网络安全,便于对人员行为进行预测分析。
该软件架构设计通过NLP接口,可以将用户的问题进行解析后,直接对业务接口、函数接口、数据接口进行调用后返回处理结果。该架构可以实现通过智能对话代办事务,有利于系统成为真正的面向事务的智能体。
该软件架构设计上配置各种工作流程,使系统成为面向事务的智能体后,会减少维护成本和操作步骤。
6" 结束语
综上所述,本文提出了一种适应人工智能发展趋势的混合软件架构设计方案。虽然技术力量有限,但该类混合软件架构设计旨在实现系统面向事务的智能体革新,在教育信息化、智能客服、企业管理信息化等多个行业和细分领域都具有广阔的发展前景,在保留现有师生对于软件系统使用习惯的前提下,让系统架构在人工智能发展趋势中进行革新,也可能如“混动汽车”一样是技术发展的过渡产品,但在技术发展过程中出现就有其存在的意义,也为传统软件系统向智能体系统发展提供了一定的参考和指导价值。
参考文献:
[1] 解温特.基于草图的移动应用建模语言构造与查询研究[D].南京:南京大学,2021.
[2] 翟仲毅.轻量级移动服务生成模型、方法与验证[D].北京:北京邮电大学,2017.