Text-to-SQL文本信息处理技术研究综述

2024-07-20 00:00:00彭钰寒乔少杰薛骐李江敏谢添丞徐康镭冉黎琼曾少北

无线电工程 2024年5期

摘要：信号与信息处理的需求日益增加，离不开数据处理技术，数据处理需要数据库的支持，然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，Ｔｅｘｔ-ｔｏ-ＳＱＬ）的出现，使用户无需掌握结构化查询语言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）也能够熟练操作数据库。介绍Ｔｅｘｔ-ｔｏ-ＳＱＬ的研究背景及面临的挑战；介绍Ｔｅｘｔ-ｔｏ-ＳＱＬ关键技术、基准数据集、模型演变及最新研究进展，关键技术包括Ｔｒａｎｓｆｏｒｍｅｒ等主流技术，用于模型训练的基准数据集包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；介绍Ｔｅｘｔ-ｔｏ-ＳＱＬ不同阶段模型的特点，详细阐述Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究成果的工作原理，包括模型构建、解析器设计及数据集生成；总结Ｔｅｘｔ-ｔｏ-ＳＱＬ未来的发展方向及研究重点。

关键词：文本转结构化查询语言；解析器；文本信息处理；数据库；深度学习

中图分类号：ＴＰ３９１．１文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：

文章编号：１００３－３１０６（２０２４）０５－１０５３－１０

０引言

随着信号与信息处理领域（图像处理、文本处理、数据处理、语音处理等）研究工作的快速发展，需要考虑如何高效和准确地处理、查询、存储数据信息，因此数据库成为首选工具。专业人员可以熟练使用结构化查询语言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）对数据库中的信息进行增删改查，但是越来越多的应用开始投入到信号与信息处理领域，并非所有使用者都拥有专业的数据库使用技巧，所以将用户输入的文本自动转换为机器可执行ＳＱＬ的文本转结构化查询语言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＴｅｘｔｔｏＳＱＬ）文本信息处理技术产生并蓬勃发展［１］。

Ｔｅｘｔ-ｔｏ-ＳＱＬ研究面临的挑战主要集中在３个方面：① 对输入的文本进行预处理，理解输入的自然语言的含义，提取文本涉及的数据库关键字、列名和表名，减小模型训练难度；② 将经过预处理的文本转换成一种中间表示，ＳＱＬ的作用并非是方便阅读，而是提高计算机处理数据库的效率，它与文本之间存在巨大的差距，所以需要建立文本与数据库语句之间的映射关系，提高文本转化数据库语句的效率；③ 将中间表示转化为最终的ＳＱＬ语句。

传统的Ｔｅｘｔ-ｔｏ-ＳＱＬ方法虽然有效，但需要耗费大量的人力，需要提前为各种场景下的ＳＱＬ设置转换模板，过程十分繁琐［２］，并且传统方法没有解决上述Ｔｅｘｔ-ｔｏ-ＳＱＬ面临的挑战，转换模板没有设置文本与ＳＱＬ之间的中间表示，导致文本与ＳＱＬ之间的转换效率低下。随着近年来深度学习的崛起，深度学习逐渐运用到Ｔｅｘｔ-ｔｏ-ＳＱＬ中。在众多深度学习模型中，循环神经网络模型在这一领域的效果最佳，因为文本语言和ＳＱＬ都可以当作序列信息，需要结合前后文信息预测当前信息，所以主要用于处理序列信息（文本、视频和音频等）的循环神经网络模型在Ｔｅｘｔ-ｔｏ-ＳＱＬ研究中效果较好。

１关键技术

文本和ＳＱＬ都是序列信息，使用处理序列信息的序列模型训练文本效果较好，本节针对常见的序列模型以及模型评判标准进行介绍。Ｔｅｘｔ-ｔｏ-ＳＱＬ工作过程示例如图１所示。

长短期记忆（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）［３］神经网络是循环神经网络的变体，通过内部的４类门控单元：输入门控单元、遗忘门控单元、候选记忆门控单元和输出门控单元对序列信息进行筛选。ＬＳＴＭ单元在循环神经网络基础上，除了隐藏状态（对应短期记忆），还加入了记忆单元（对应长期记忆），解决了序列信息作为输入面临的长期信息保存和短期输入缺失的问题。

门控循环单元（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）［４］是ＬＳＴＭ神经网络的简化版本，将ＬＳＴＭ神经网络内部的４类门控单元简化为２个门控单元：重置门控单元和更新门控单元。虽然ＧＲＵ针对简易输入的训练速度更快、效果更好，但面对输入文本包含复杂语法和语义信息的情况，ＬＳＴＭ神经网络是更好的选择。

Ｔｒａｎｓｆｏｒｍｅｒ［５］模型是当前主流深度学习模型，诸多文本处理工作都是基于Ｔｒａｎｓｆｏｒｍｅｒ完成的。Ｔｒａｎｓｆｏｒｍｅｒ是一种基于编码器－解码器的架构，编码器用于编码输入序列，将输入序列变成向量形式并添加位置编码，然后将其编码为隐藏状态输出到解码器中。解码器除了接收编码器的输出，在每一个当前时间步处理序列信息时，还会接受来自上一个时间步的输出，解码器也会将输入信息转变为向量并添加位置编码。基于Ｔｒａｎｓ-ｆｏｒｍｅｒ模型的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如图２所示。

Ｂｅｒｔ［６］模型是Ｔｒａｎｓｆｏｒｍｅｒ模型的变体，Ｔｒａｎｓ-ｆｏｒｍｅｒ基于编码器－解码器架构，Ｂｅｒｔ模型虽然仅有编码器架构，但其内部的参数是Ｔｒａｎｓｆｏｒｍｅｒ的数倍，它是一种预训练微调模型，设置好预训练任务对模型进行训练，训练后的模型仅需要针对不同的任务对输出层进行微调。Ｂｅｒｔ模型具有极高的泛化性，基于Ｂｅｒｔ的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如图３所示。

域外数据（ＯｕｔｏｆＤｏｍａｉｎ）。数据集分为训练集、开发集和测试集。训练集用于训练模型，开发集用于验证模型，测试集用于最后测试模型。因为测试集只能测试一次，不能用于多次训练测试模型好坏，所以在数据集比较大的情况下，可以划分出开发集对模型训练效果进行验证。域外数据是指训练集与开发集中不同的部分，过多会导致训练难度变大。

ＢＬＥＵ分数（ＢｉｌｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙＳｃｏｒｅ）［７］用于评估序列模型语义解析的好坏，将文本解析为数据库语句的好坏程度通常用ＢＬＥＵ分数去评估。分数值介于０～１，越接近１代表解析结果越接近参考值。除了ＢＬＥＵ分数，还有ＭＥＴＥＯＲ、ＲＯＵＧＥ和ＰＰＬ等标准也可以评价解析模型的好坏，根据不同需求选择不同的评价指标。

２基准数据集

高质量的数据集能够直接决定模型训练的效果，在Ｔｅｘｔ-ｔｏ-ＳＱＬ领域，用于绝大多数模型检验常用的基准数据集为ＷｉｋｉＳＱＬ［８］和Ｓｐｉｄｅｒ［９］数据集，其为大规模、多领域的基准测试集，也是使用最为广泛的基准数据集。

ＷｉｋｉＳＱＬ是目前文本转数据库语句领域使用最频繁的基准数据集，包含约２５０００个维基百科数据表和８００００个由人工创建的自然语言与ＳＱＬ句子对，数据集中每一行由一个自然语言文本、一个文本对应的ＳＱＬ查询还有ＳＱＬ查询中涉及的列和表组成。ＷｉｋｉＳＱＬ中的ＳＱＬ复杂性较低，因为其内部没有使用复杂的ＳＱＬ子句，如：“ＪＯＩＮ”“ＧＲＯＵＰＢＹ”“ＯＲＤＥＲＢＹ”“ＵＮＩＯＮ”“ＩＮＴＥＲＳＥＣＴＩＯＮ”等，且在执行查询语句时不允许在单个查询中选择多个列。因此在训练模型时，ＷｉｋｉＳＱＬ的训练难度比较低，这是ＷｉｋｉＳＱＬ使用率最高的原因。

Ｓｐｉｄｅｒ是一个大规模的、复杂的跨领域数据集，包含来自１３８个不同领域的２００多个关系数据库。相较于ＷｉｋｉＳＱＬ，Ｓｐｉｄｅｒ数据集具有更多复杂的嵌套查询子句、更多的域外数据，让训练更加困难。经过Ｓｐｉｄｅｒ训练的机器学习模型可以变得更加泛化，研究人员广泛依赖它训练可以生成复杂ＳＱＬ查询的模型，适应更多的任务。还有数据集针对Ｓｐｉｄｅｒ做了扩展，用于训练指定任务。Ｓｐｉｄｅｒ-ｄｋ扩展了Ｓｐｉｄｅｒ，用于训练跨领域泛化模型，探索模型在面对不同领域中专业名词的表现；Ｓｐｉｄｅｒ-ｓｙｎ侧重于训练模型区分同义词、反义词的性能。

此外，其他数据集，例如：ＫａｇｇｌｅＤＢＱＡ是一个跨域数据集［１０］，虽然规模比不上ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，但它是从Ｋａｇｇｌｅ中提取出来的，包含相当多工业界的真实数据。

３模型演变

本节将按时间演变介绍文本转数据库领域的模型，模型发展历程如图４所示。

（１）理论提出

在文本转数据库语句领域，Ｌｉ等［１１］提出的ＳＱＬＮｅｔ是较早成理论体系的模型，该模型使用的方法基于草图技术，草图中包含数据库语句的关键字、列名和表名，通过这个草图，ＳＱＬＮｅｔ仅需往草图留空处添加信息，就可以实现自然语言到数据库语句的转换。

（２）理论发展

基于ＳＱＬＮｅｔ，Ｍｉｎ等［１２］提出一种树型结构返回输出的模型———Ｓｅｑｕｅｎｃｅ-ｔｏ-Ｔｒｅｅ。该模型可以看作是序列到树的模型，使用ＬＳＴＭ网络编码器对输入问题进行编码，在编码器处理输入序列后，通过解码器输出树型结构的ＳＱＬ查询语句。模型通过识别单个词元来理解输入，并将其转化为树型结构，树节点上包括关键字（如ＳＥＬＥＣＴ、ＷＨＥＲＥ）、表名和列名。

（３）理论加工

这一阶段数据库领域开始大规模使用深度神经网络构建模型，采用中间表示生成查询，显著提高了计算效率。Ｋｅｖｉｎ等［１３］提出Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型以深度学习模型为基准，引入了强化学习方法，将交叉熵损失和数据库在运行中执行查询的奖励函数作为模型评价指标。该模型内部采用了一种增强指针网络，该网络是一种能够改变输出序列长度的网络架构，相较于循环神经网络输入输出的序列长度需要一一对应，增强指针网络能使模型具有更好的性能。Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型由聚合分类器、ＳＥＬＥＣＴ组件和ＷＨＥＲＥ组件构成。

Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型对查询的聚合操作进行分类，将输入的文本数据分类为最大最小升序降序这类约束条件。聚类分类器内部采用的是编码器－解码器架构，编码器内部使用了双向ＬＳＴＭ网络，解码器内部采用普通的ＬＳＴＭ；ＳＥＬＥＣＴ组件用于处理输入文本中的列名和表名；ＷＨＥＲＥ组件，用于确定用于转换的数据库语句约束条件。

（４）理论成型

这一阶段文本转数据库语句技术趋于成熟，开始运用复杂跨域文本数据集训练模型。大部分模型训练选用基准数据集ＷｉｋｉＳＱＬ进行训练，但Ｇｕｏ等［１４］提出的ＩＲＮｅｔ选用Ｓｐｉｄｅｒ数据集训练模型。相较于Ｓｐｉｄｅｒ数据集，ＷｉｋｉＳＱＬ的生态更加成熟，没有复杂的嵌套查询语句和大量域外数据，简化了模型的训练过程，但Ｇｕｏ等［１４］的目的是训练适用于复杂且有跨域文本的数据库，所以选用更为复杂的Ｓｐｉｄｅｒ对模型进行训练。

ＩＲＮｅｔ是基于编码器－解码器架构的模型，工作原理包括３个关键步骤：① 编码器，分为问题编码器（ＱｕｅｓｔｉｏｎＥｎｃｏｄｅｒ）和模式编码器（ＳｃｈｅｍａＥｎ-ｃｏｄｅｒ）。问题编码器内部是双向ＬＳＴＭ神经网络，负责预处理输入数据，将输入的文本词元化，并使用Ｎｇｒａｍ算法对文本中出现的列名和表名赋予一个类，如果词元是数据库中的列则分配一个“Ｃｏｌｕｍｎ”，如果词元是数据库中的表则分配一个“Ｔａｂｌｅ”；模式编码器负责为Ｎ-ｇｒａｍ算法中识别的列名、表名的准确性匹配一个类型。其中有２个控制单元，模式单元和记忆单元，模式单元负责为Ｎ-ｇｒａｍ算法识别正确的列名和表名分配一个“ＥｘａｃｔＭａｔｃｈ”类型，没有正确识别的列名和表名分配一个“ＰａｒｔｉａｌＭａｔｃｈ”类型，分配好类型后将这些信息送入记忆单元进行存储。② 解码器，负责接收问题编码器的输出，将其作为自身的隐藏状态，将文本数据转化为树型结构中间表示树。解码器中有一套树型结构的转化规则，树中节点用字母Ｚ表示数据库中的交集（ｉｎｔｅｒｓｅｃｔ）、并集（ｕｎｉｏｎ）和补集（ｅｘｃｅｐｔ）操作，没有这些操作时也用字母Ｚ表示；树中结点用字母Ｒ表示“ＳＥＬＥＣＴ”关键字；树中结点“Ｓｅｌｅｃｔ”可以分化出一个或多个节点；树中结点“Ｏｒｄｅｒ”对应升序（ａｓｃ）和降序（ｄｅｓｃ）；树中结点“Ｓｕｐｅｒｌａｔｉｖｅ”对应最大（ｍｏｓｔ）和最小（ｌｅａｓｔ）；树中结点“Ｆｉｌｔｅｒ”表示过滤操作，对应条件关键字，比如：大于、小于、等于、ｂｅ-ｔｗｅｅｎ、ｎｏｔｉｎ等；树中结点“Ａ”表示可以分化出列和表，列和表分别用字母Ｃ和Ｔ表示。③ 输出层，遍历解码器输出的树将其转化为最终的ＳＱＬ语句。

４最新研究进展

Ｏｃｔａｖｉａｎ等［１５］以编码器－解码器架构为原型，提出了一个结合自动训练数据增强及多模型集成技术的系统，该系统可以处理和提取输入问题中的特定信息，从数据库中将词元连接到特定的表和列。编码器中常用的实体识别（ＮａｍｅＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）模块在该模型中被替换成消除歧义字典模块（Ｄｉｓ-ａｍｂｉｇｕａｔｉｏｎＤｉｃｔｉｏｎａｒｙＭｏｄｕｌｅ），用于提供模型所需要的关键信息。系统具有以下优势：① 集成了种子训练数据增强技术，基于被称为种子的初始训练语料库，利用这种方法生成更大的训练集；② 使用不同的自动生成训练数据集，训练不同的模型，并使用集成技术来分析组合多个模型的输出。

Ｌｉ等［１６］提出了用于聚合表内文本到数据库语句转换的方法———Ｗａｇｇ，该方法使用了一种动态修剪策略对多个聚合表中的不相关项进行修剪，大大减少模型训练的时间成本。聚合是一种数据批处理的操作，可以将数据分组，对每组数据执行多种批处理操作。聚合表为经过聚合处理的表，常用于频繁使用查询操作的情况。目前针对聚合表的文本转数据库语句方向的研究相对较少，主要面临２个方面的挑战：① 聚合表意味着更复杂的映射关系，在文本与数据库语句进行转换时面临更多歧义；② 目前的深度学习模型处理聚合表会产生巨大的时间成本。Ｌｉ等［１６］的方法使用动态修剪策略克服了上述困难，让聚合表这种复杂的数据库表可以输入模型进行训练。

Ｗｅｉ等［１７］在解码器中引入了多任务学习的共享机制，通过不同的子任务共享同一个解码器来实现，可以有效降低模型的复杂性，并且允许不同子任务在训练过程中共享知识，使模型能够更好地学习到不同子任务之间的依赖关系。文本转数据库语句使用基于编码器－解码器架构的模型时，普通解码器学习不同子任务之间相关性的能力有限，过于复杂的解码器会增加训练成本。文献［１７］的方法避免了上面２种情况，保证模型训练效果的同时避免了过高的模型复杂性。

Ｔｏｍｅｒ等［１８］提出了一种基于弱监督学习的方法———Ｏｄｍｒｓ来训练模型中文本转数据库语句的解析器，其未使用手动标记的高质量数据作为训练标准，而是使用非专业用户提供的数据进行训练，证明了模型强大的泛化性。解析器中合成ＳＱＬ的算法流程，如算法１所示。

算法１的工作原理为：定义一个数组ｍａｐｐｅｄ用于后续存储变量（第１行）；利用启发式函数ｆ将ｘｉ表达为结构化形式Ｍｉ，根据模板推断Ｍｉ中的具体操作（第２行）；然后通过弱监督学习模型将结构化表示Ｍｉ映射到数组中（第３～１４行），针对每个结构化的表示Ｍｉ，提取出其中的列名和相关性强的ＳＱＬ查询，并创建数组ｊｏｉｎ（第３～７行）。根据列与列之间的相关性和构建的结构化模板去生成ＳＱＬ查询（第８～１４行），ＪＯＩＮＰ函数用于连接表之间的不同列，ＯＰＴＹＰＥ函数用于从结构化模板中推断Ｍｉ中的具体数据库操作，ＭＡＰＳＱＬ函数将Ｍｉ映射到ＳＱＬ中；最后返回ＳＱＬ查询（第１５行）。Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究进展总结如表１所示。

Ｇｅｕｎｙｅｏｎｇ等［１９］提出了一种混合译码器，为ＳＱＬ生成构建出基本结构，结构中包含每个查询过程中可能需要使用的自行定义数据库语句组件，混合解码器依据该结构依次生成ＳＱＬ查询。Ｑｉ等［２０］提出了一种基于Ｔｒａｎｓｆｏｒｍｅｒ的架构，利用Ｔｒａｎｓｆｏｒｍｅｒ中的自注意力机制识别表与表之间的关系，将模式连接和模式编码等关系结构引入模型，让模型生成更符合逻辑的ＳＱＬ。Ｘｕ等［２１］提出一种基于循环神经网络的方法———ＳｅａＤ，将自回归模型与序列到序列模型结合，过滤输入文本，克服解码过程对模型的限制，提高文本到ＳＱＬ的准确性。Ｑｉｎ等［２２］设计了一种基于神经网络的方法———Ｓｕｎ，在Ｓｕｎ中使用一种启发式的约束规则来限制模型输出，提高模型的泛化性和稳定性。Ｓｈｉ等［２３］针对跨语言文本到ＳＱＬ语义解析的问题，提出一种基于迁移学习的文本解析模型———ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇｉｎＣｒｏｓｓ-Ｌｉｎｇｕａｌ（ＸＲＩＣＬ），利用基于英文数据集的训练成果迁移到其他语言模型中。Ｐｉ等［２４］设计了一种名为Ａｄｖｅｔａ的系统，用于测试Ｔｅｘｔ-ｔｏ-ＳＱＬ模型鲁棒性，使用ＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ（ＡＴＰ）指标评估模型鲁棒性，该系统内部结构主要是对抗生成框架，在监测模型鲁棒性的同时也能对模型进行改进。Ｈａｎ等［２５］提出一种基于图的方法———ＲｕｌｅＳＱＬｏｖａ，偏向于处理数据库中的聚合操作符。Ｚｈｅｎｇ等［２６］提出了一种基于模式连接图的方法———ＨＩＥＳＱＬ，该方法增强输入文本与ＳＱＬ之间的连接，提升了模式连接的准确率。Ｘｉａｏ等［２７］基于上下文相关文本序列问题提出ＣｏｎｖｅｒｓａｔｉｏｎＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎ（ＣＱＲ）方法，该方法基于递归增强模式来生成文本与ＳＱＬ之间的中间表示，让模型充分理解上下文语义，增强ＳＱＬ的解析能力。Ｗａｎｇ等［２８］提出了一种基于大规模预训练语言模型来诱导解析器对输入文本进行处理的方法———Ｐｒｏｔｏｎ，该方法是无监督学习模型，无需对输入文本进行预处理。Ａｂｈｉｊｅｅｔ等［２９］提出了一种名为ＲＥＦＩＬＬ的框架，用于合成高质量、多样化的并行数据集，ＲＥＦＩＬＬ框架从现有模式中检索和添加文本查询，提高模型训练效率。Ｃｈｅｎ等［３０］提出了一种基准数据集修改器，用于预训练基准数据集ＳＱｕＡＬＬ时进行分割，该解析器由模式扩展和模式修剪组成，在训练过程中对输入数据ＳＱｕＡＬＬ进行合成与分割。Ｌｅｅ等［３１］设计了一种符合医院应用场景的数据库———ＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ（ＥＨＲｓ），用于医学场景下的模型训练。

５结束语

本文综述了Ｔｅｘｔ-ｔｏ-ＳＱＬ文本处理技术最新研究成果，包括关键技术、基准数据集、模型演变和最新研究进展。关键技术包括ＬＳＴＭ、ＧＲＵ、Ｔｒａｎｓｆｏｒｍｅｒ、Ｂｅｒｔ、域外数据和ＢＬＥＵ分数等技术；基准数据集主要介绍了ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；模型演变从４个阶段详述了Ｔｅｘｔ-ｔｏ-ＳＱＬ技术，包括理论提出、理论发展、理论加工和理论成型；最新研究进展从模型构建、解析器设计和数据集生成３个方面概述了最新研究成果。

在模型的构建上，虽然大部分是基于Ｔｒａｎｓｆｏｒｍｅｒ的编码器－解码器架构模型，但是ＣｈａｔＧｅｎｅｒａｔｉｖｅＰｅ-ｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒ（ＣｈａｔＧＰＴ）模型的成功预示着这类架构具有很大的潜力，未来仍可以针对该结构进行改良，从不同角度提高模型性能。对于解析器而言，未来可以设计基于图神经网络的模型，利用图中节点之间的关系解析上下文，增加文本与ＳＱＬ之间的转换效率。目前常用的数据集主要包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，数据集是决定模型训练效果好坏的重要因素，未来可以针对不同业务场景构建出适合的基准数据集用于该领域模型训练，如针对性的构建适合法律、教育和互联网等环境的训练数据集，让模型在上述领域具有更好的性能。

此外，文本信息处理涉及隐私数据，隐私保护问题是不可忽视的，通常获取的文本信息是公开的、性比较低的，不能擅自使用未公开或是私密性高的数据，未来可以制定相关规范或是制定更多的基准数据集，吸引更多的研究者投入Ｔｅｘｔ-ｔｏ-ＳＱＬ领域的研究。

参考文献

［１］ＧＥＯＲＧＥＫＭ，ＧＥＯＲＧＩＡＫ．ＡＳｕｒｖｅｙｏｎＤｅｅｐＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｅｓｆｏｒＴｅｘｔｔｏＳＱＬ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ，２０２３，３２（４）：９０５－９３６．

［２］ＧＵＺＨ，ＦＡＮＪ，ＴＡＮＧＮ，ｅｔａｌ．ＳａｍＭａｄｄｅｎ：ＦｅｗｓｈｏｔＴｅｘｔｔｏＳＱＬＴｒａｎｓｌａｔｉｏｎＵｓｉｎｇＳｔｒｕｃｔｕｒｅａｎｄＣｏｎｔｅｎｔＰｒｏｍｐｔＬｅａｒｎｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ，２０２３，１（２）：１４７．

［３］ＺＨＯＵＳＬ，ＬＩＪ，ＷＡＮＧＨ，ｅｔａｌ．ＧＲＬＳＴＭ：ＴｒａｊｅｃｔｏｒｙＳｉｍｉｌａｒｉｔｙＣｏｍｐｕｔａｔｉｏｎｗｉｔｈＧｒａｐｈｂａｓｅｄＲｅｓｉｄｕａｌＬＳＴＭ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｔｙｓｅｖｅｎｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．［Ｓ．ｌ．］：ＡＡＡＩ，２０２３：４９７２－４９８０．

［４］ＣＨＥＮＹ，ＣＡＯＨ，ＺＨＯＵＹＱ，ｅｔａｌ．ＡＧＣＮＧＲＵＢａｓｅｄＥｎｄｔｏＥｎｄＬＥＯＳａｔｅｌｌｉｔｅＮｅｔｗｏｒｋＤｙｎａｍｉｃＴｏｐｏｌｏｇｙＰｒｅｄｉｃｔｉｏｎＭｅｔｈｏｄ［Ｃ］∥２０１６ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｇｌａｓｇｏｗ：ＩＥＥＥ，２０２３：１－６．

［５］ＣＨＡＴＺＩＡＮＡＳＴＡＳＩＳＭ，ＬＵＴＺＥＹＥＲＪＦ，ＤＡＳＯＵＬＡＳＧ，ｅｔａｌ．ＧｒｐｈＯｒｄｅｒｉｎｇＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０２２－０４－１１）［２０２３－０７－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０４．０５３５１．

［６］ＺＨＡＯＷＣ，ＨＵＨＺ，ＺＨＯＵＷＧ，ｅｔａｌ．ＢＥＳＴ：ＢＥＲＴＰｒｅｔｒａｉｎｉｎｇｆｏｒＳｉｇｎＬａｎｇｕａｇｅＲｅｃｏｇｎｉｔｉｏｎｗｉｔｈＣｏｕｐｌｉｎｇＴｏｋｅｎｉｚａｔｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３７ｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＷａｓｈｉｎｇｔｏｎＤ．Ｃ．：ＡＡＡＩ，２０２３：３５９７－３６０５．

［７］ＳＡＭＡＮＴＡＤ，ＶＥＮＫＡＴＥＳＨＶ，ＭＯＮＩＫＡＧ，ｅｔａｌ．ＥｖａｌｕａｔｉｎｇＣｏｍｍｉｔＭｅｓｓａｇｅＧｅｎｅｒａｔｉｏｎ：ＴｏＢＬＥＵｏｒＮｏｔｔｏＢＬＥＵ？［Ｃ］∥２０２２ＩＥＥＥ／ＡＣＭ４４ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ：ＮｅｗＩｄｅａｓａｎｄＥｍｅｒｇｉｎｇＲｅｓｕｌｔｓ．Ｐｉｔｔｓｂｕｒｇｈ：ＩＥＥＥ，２０２３：３１－３５．

［８］ＳＥＭＩＨＹ，ＩＺＺＥＤＤＩＮＧ，ＳＵＹ，ｅｔａｌ．ＷｈａｔＩｔＴａｋｅｓｔｏＡｃｈｉｅｖｅ１００％ＣｏｎｄｉｔｉｏｎＡｃｃｕｒａｃｙｏｎＷｉｋｉＳＱＬ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：１７０２－１７１１．

［９］ＹＵＴ，ＺＨＡＮＧＲ，ＹＡＮＧＫ，ｅｔａｌ．Ｓｐｉｄｅｒ：ＡＬａｒｇｅｓｃａｌｅＨｕｍａｎｌａｂｅｌｅｄＤａｔａｓｅｔｆｏｒＣｏｍｐｌｅｘａｎｄＣｒｏｓｓｄｏｍａｉｎＳｅｍａｎｔｉｃＰａｒｓｉｎｇａｎｄＴｅｘｔｔｏＳＱＬＴａｓｋ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：３９１１－３９２１．

［１０］ＬＥＥＣＨ，ＰＯＬＯＺＯＶＯＰ，ＲＩＣＨＡＲＤＳＯＮＭ．ＫａｇｇｌｅＤＢＱＡ：ＲｅａｌｉｓｔｉｃＥｖａｌｕａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．［Ｓ．ｌ．］：ＡＣＬ，２０２１：２２６１－２２７３．

［１１］ＬＩＤ，ＭＩＲＥＬＬＡＬ．ＬａｎｇｕａｇｅｔｏＬｏｇｉｃａｌＦｏｒｍｗｉｔｈＮｅｕｒａｌＡｔｔｅｎｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：３３－４３．

［１２］ＭＩＮＱＫ，ＳＨＩＹＦ，ＺＨＡＮＧＹ．ＡＰｉｌｏｔＳｔｕｄｙｆｏｒＣｈｉｎｅｓｅＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１９ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰＩＪＣＮＬＰ）．ＨｏｎｇＫｏｎｇ：ＡＣＬ，２０１９：３６５２－３６５８．

［１３］ＫＥＶＩＮＳ，ＤＩＲＫＫ．Ｓｅｑ２ＳＱＬＥｖａｌｕａｔｉｎｇＤｉｆｆｅｒｅｎｔＤｅｅｐＬｅａｒｎｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅｓＵｓｉｎｇＷｏｒｄＥｍｂｅｄｄｉｎｇｓ［Ｃ］∥１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＤａｔａＭｉｎｉｎｇｉｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ：ＭＬＤＢ，２０１９：３４３－３５４．

［１４］ＧＵＯＪＱ，ＺＨＡＮＺＣ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＣｏｍｐｌｅｘＴｅｘｔｔｏＳＱＬｉｎＣｒｏｓｓｄｏｍａｉｎＤａｔａｂａｓｅｗｉｔｈＩｎｔｅｒｍｅｄｉａｔｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｆｌｏｒｅｎｃｅ：ＡＣＬ，２０１９：４５２４－４５３５．

［１５］ＯＣＴＡＶＩＡＮＰ，ＩＲＥＮＥＭ，ＮＧＯＣＰＡＯ，ｅｔａｌ．ＡｄｄｒｅｓｓｉｎｇＬｉｍｉｔａｔｉｏｎｓｏｆＥｎｃｏｄｅｒＤｅｃｏｄｅｒＢａｓｅｄＡｐｐｒｏａｃｈｔｏＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：１５９３－１６０３．

［１６］ＬＩＳＱ，ＺＨＯＵＫＢ，ＺＨＵＡＮＧＺＹ，ｅｔａｌ．ＴｏｗａｒｄｓＴｅｘｔｔｏＳＱＬｏｖｅｒＡｇｇｒｅｇａｔｅＴａｂｌｅｓ［Ｊ］．ＤａｔａＩｎｔｅｌｌｉｇｅｎｃｅ，２０２３，５（２）：４５７－４７４．

［１７］ＷＥＩＣ，ＨＵＡＮＧＳＢ，ＬＩＲＳ．ＥｎｈａｎｃｅＴｅｘｔｔｏＳＱＬＭｏｄｅｌＰｅｒｆｏｒｍａｎｃｅｗｉｔｈＩｎｆｏｒｍａｔｉｏｎＳｈａｒｉｎｇａｎｄＲｅｗｅｉｇｈｔＬｏｓｓ［Ｊ］．ＭｕｌｔｉｍｅｄｉａＴｏｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０２２，８１（１１）：１５２０５－１５２１７．

［１８］ＴＯＭＥＲＷ，ＤＡＮＩＥＬＤ，ＪＯＮＡＴＨＡＮＢ．ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇＴｈｒｏｕｇｈＱｕｅｓｔｉｏｎＤｅｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＮＡＡＣＬ２０２２．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：２５２８－２５４２．

［１９］ＧＥＵＮＹＥＯＮＧＪ，ＭＩＲＡＥＨ，ＳＥＵＬＧＩＫ，ｅｔａｌ．ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈａＨｙｂｒｉｄＤｅｃｏｄｉｎｇＭｅｔｈｏｄ［Ｊ］．Ｅｎｔｒｏｐｙ，２０２３，２５（３）：５１３．

［２０］ＱＩＪＸ，ＴＡＮＧＪＹ，ＨＥＺＷ，ｅｔａｌ．ＲＡＳＡＴ：ＩｎｔｅｇｒａｔｉｎｇＲｅｌａｔｉｏｎａｌＳｔｒｕｃｔｕｒｅｓｉｎｔｏＰｒｅｔｒａｉｎｅｄＳｅｑ２ＳｅｑＭｏｄｅｌｆｏｒＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：３２１５－３２２９．

［２１］ＸＵＫ，ＷＡＮＧＹＢ，ＷＡＮＧＹＬ，ｅｔａｌ．ＳｅａＤ：ＥｎｄｔｏＥｎｄＴｅｘｔｔｏＳＱＬＧｅｎｅｒａｔｉｏｎｗｉｔｈＳｃｈｅｍａａｗａｒｅＤｅｎｏｉｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：１８４５－１８５３．

［２２］ＱＩＮＢＷ，ＷＡＮＧＬＨ，ＨＵＩＢＹ，ｅｔａｌ．ＳＵＮ：ＥｘｐｌｏｒｉｎｇＩｎｔｒｉｎｓｉｃＵｎｃｅｒｔａｉｎｔｉｅｓｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：５２９８－５３０８．

［２３］ＳＨＩＰ，ＺＨＡＮＧＲ，ＢＡＩＨ，ｅｔａｌ．ＸＲＩＣＬ：ＣｒｏｓｓｌｉｎｇｕａｌＲｅｔｒｉｅｖａｌａｕｇｍｅｎｔｅｄＩｎｃｏｎｔｅｘｔＬｅａｒｎｉｎｇｆｏｒＣｒｏｓｓｌｉｎｇｕａｌＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：５２４８－５２５９．

［２４］ＰＩＸＹ，ＷＡＮＧＢ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＲｏｂｕｓｔｎｅｓｓｏｆＴｅｘｔｔｏＳＱＬＭｏｄｅｌｓＡｇａｉｎｓｔＮａｔｕｒａｌａｎｄＲｅａｌｉｓｔｉｃＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２００７－２０２２．

［２５］ＨＡＮＳＫ，ＧＡＯＮ，ＧＵＯＸＢ，ｅｔａｌ．ＲｕｌｅＳＱＬｏｖａ：ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈＬｏｇｉｃＲｕｌｅｓ［Ｃ］∥２０２２ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｐａｄｕａ：ＩＥＥＥ，２０２２：１－８．

［２６］ＺＨＥＮＧＹＺ，ＷＡＮＧＨＢ，ＤＯＮＧＢＨ，ｅｔａｌ．ＨＩＥＳＱＬ：ＨｉｓｔｏｒｙＩｎｆｏｒｍａｔｉｏｎＥｎｈａｎｃｅｄＮｅｔｗｏｒｋｆｏｒＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２９９７－３００７．

［２７］ＸＩＡＯＤＬ，ＣＨＡＩＬＺ，ＺＨＡＮＧＱＷ，ｅｔａｌ．ＣＱＲＳＱＬ：ＣｏｎｖｅｒｓａｔｉｏｎａｌＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎＥｎｈａｎｃｅｄＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：２０５５－２０６８．

［２８］ＷＡＮＧＬＨ，ＱＩＮＢＷ，ＨＵＩＢＹ，ｅｔａｌ．Ｐｒｏｔｏｎ：ＰｒｏｂｉｎｇＳｃｈｅｍａＬｉｎｋｉｎｇＩｎｆｏｒｍａｔｉｏｎｆｒｏｍＰｒｅｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌｓｆｏｒＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡＣＭＳＩＧＫＤＤＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０２２：１８８９－１８９８．

［２９］ＡＢＨＩＪＥＥＴＡ，ＡＳＨＵＴＯＳＨＳ，ＳＵＮＩＴＡＳ．ＤｉｖｅｒｓｅＰａｒａｌｌｅｌＤａｔａＳｙｎｔｈｅｓｉｓｆｏｒＣｒｏｓｓｄａｔａｂａｓｅＡｄａｐｔａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：１１５４８－１１５６２．

［３０］ＣＨＥＮＺ，ＳＵＹ，ＡＤＡＭＰ，ｅｔａｌ．ＢｒｉｄｇｉｎｇｔｈｅＧｅｎｅｒａｌｉｚａｔｉｏｎＧａｐｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇｗｉｔｈＳｃｈｅｍａＥｘｐａｎｓｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：５５６８－５５７８．

［３１］ＬＥＥＧ，ＨＷＡＮＧＨ，ＢＡＥＳ，ｅｔａｌ．ＥＨＲＳＱＬ：ＡＰｒａｃｔｉｃａｌＴｅｘｔｔｏＳＱＬＢｅｎｃｈｍａｒｋｆｏｒＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ［ＥＢ／ＯＬ］．（２０２３－０１－１６）［２０２３－０７－１８］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２３０１．０７６９５．

作者简介

彭钰寒男，（１９９９—），硕士研究生。主要研究方向：人工智能数据库。

（*通信作者）乔少杰男，（１９８１—），博士，教授。主要研究方向：人工智能数据库、时空数据库、机器学习。

薛骐男，（１９９９—），硕士研究生。主要研究方向：时空数据库。

李江敏男，（１９９７—），硕士研究生。主要研究方向：人工智能数据库。

谢添丞男，（１９９７—），硕士研究生。主要研究方向：轨迹预测。

徐康镭男，（１９９９—），硕士研究生。主要研究方向：人工智能数据库。

冉黎琼女，（１９９８—），硕士研究生。主要研究方向：数据挖掘、云计算。

曾少北男，（１９８０—），硕士。主要研究方向：数据智能应用。

基金项目：国家自然科学基金（６２２７２０６６，６１９６２００６）；四川省科技计划（２０２１ＪＤＪＱ００２１，２０２２ＹＦＧ０１８６，２０２２ＮＳＦＳＣ０５１１，２０２３ＹＦＧ００２７）；教育部人文社会科学研究规划基金（２２ＹＪＡＺＨ０８８）；宜宾市引进高层次人才项目（２０２２ＹＧ０２）；成都市“揭榜挂帅”科技项目（２０２２-ＪＢ００-００００２-ＧＸ，２０２１-ＪＢ００-０００２５-ＧＸ）；四川省教育厅人文社科重点研究基地四川网络文化研究中心资助科研项目（ＷＬＷＨ２２-１）；成都信息工程大学国家智能社会治理实验基地开放课题（ＺＮＺＬ２０２３Ｂ０５）；成都信息工程大学科技创新能力提升计划（ＫＹＴＤ２０２２２２）