Text-to-SQL文本信息处理技术研究综述

2024-07-20 00:00:00彭钰寒乔少杰薛骐李江敏谢添丞徐康镭冉黎琼曾少北
无线电工程 2024年5期
关键词:解析器深度学习数据库

摘 要:信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL) 也能够熟练操作数据库。介绍Text-to-SQL 的研究背景及面临的挑战;介绍Text-to-SQL 关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer 等主流技术,用于模型训练的基准数据集包括WikiSQL 和Spider;介绍Text-to-SQL 不同阶段模型的特点,详细阐述Text-to-SQL 最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL 未来的发展方向及研究重点。

关键词:文本转结构化查询语言;解析器;文本信息处理;数据库;深度学习

中图分类号:TP391. 1 文献标志码:A 开放科学(资源服务)标识码(OSID):

文章编号:1003-3106(2024)05-1053-10

0 引言

随着信号与信息处理领域(图像处理、文本处理、数据处理、语音处理等)研究工作的快速发展,需要考虑如何高效和准确地处理、查询、存储数据信息,因此数据库成为首选工具。专业人员可以熟练使用结构化查询语言(Structured Query Language,SQL)对数据库中的信息进行增删改查,但是越来越多的应用开始投入到信号与信息处理领域,并非所有使用者都拥有专业的数据库使用技巧,所以将用户输入的文本自动转换为机器可执行SQL 的文本转结构化查询语言(Text to Structured Query Language,TexttoSQL)文本信息处理技术产生并蓬勃发展[1]。

Text-to-SQL 研究面临的挑战主要集中在3 个方面:① 对输入的文本进行预处理,理解输入的自然语言的含义,提取文本涉及的数据库关键字、列名和表名,减小模型训练难度;② 将经过预处理的文本转换成一种中间表示,SQL 的作用并非是方便阅读,而是提高计算机处理数据库的效率,它与文本之间存在巨大的差距,所以需要建立文本与数据库语句之间的映射关系,提高文本转化数据库语句的效率;③ 将中间表示转化为最终的SQL 语句。

传统的Text-to-SQL 方法虽然有效,但需要耗费大量的人力,需要提前为各种场景下的SQL 设置转换模板,过程十分繁琐[2],并且传统方法没有解决上述Text-to-SQL 面临的挑战,转换模板没有设置文本与SQL 之间的中间表示,导致文本与SQL 之间的转换效率低下。随着近年来深度学习的崛起,深度学习逐渐运用到Text-to-SQL 中。在众多深度学习模型中,循环神经网络模型在这一领域的效果最佳,因为文本语言和SQL 都可以当作序列信息,需要结合前后文信息预测当前信息,所以主要用于处理序列信息(文本、视频和音频等)的循环神经网络模型在Text-to-SQL 研究中效果较好。

1 关键技术

文本和SQL 都是序列信息,使用处理序列信息的序列模型训练文本效果较好,本节针对常见的序列模型以及模型评判标准进行介绍。Text-to-SQL工作过程示例如图1 所示。

长短期记忆(Long ShortTerm Memory,LSTM)[3]神经网络是循环神经网络的变体,通过内部的4 类门控单元:输入门控单元、遗忘门控单元、候选记忆门控单元和输出门控单元对序列信息进行筛选。LSTM 单元在循环神经网络基础上,除了隐藏状态(对应短期记忆),还加入了记忆单元(对应长期记忆),解决了序列信息作为输入面临的长期信息保存和短期输入缺失的问题。

门控循环单元(Gated Recurrent Unit,GRU)[4]是LSTM 神经网络的简化版本,将LSTM 神经网络内部的4 类门控单元简化为2 个门控单元:重置门控单元和更新门控单元。虽然GRU 针对简易输入的训练速度更快、效果更好,但面对输入文本包含复杂语法和语义信息的情况,LSTM 神经网络是更好的选择。

Transformer[5]模型是当前主流深度学习模型,诸多文本处理工作都是基于Transformer 完成的。Transformer 是一种基于编码器- 解码器的架构,编码器用于编码输入序列,将输入序列变成向量形式并添加位置编码,然后将其编码为隐藏状态输出到解码器中。解码器除了接收编码器的输出,在每一个当前时间步处理序列信息时,还会接受来自上一个时间步的输出,解码器也会将输入信息转变为向量并添加位置编码。基于Trans-former 模型的Text-to-SQL 模型工作原理如图2所示。

Bert[6]模型是Transformer 模型的变体,Trans-former 基于编码器-解码器架构,Bert 模型虽然仅有编码器架构,但其内部的参数是Transformer 的数倍,它是一种预训练微调模型,设置好预训练任务对模型进行训练,训练后的模型仅需要针对不同的任务对输出层进行微调。Bert 模型具有极高的泛化性,基于Bert 的Text-to-SQL 模型工作原理如图3所示。

域外数据(Out of Domain)。数据集分为训练集、开发集和测试集。训练集用于训练模型,开发集用于验证模型,测试集用于最后测试模型。因为测试集只能测试一次,不能用于多次训练测试模型好坏,所以在数据集比较大的情况下,可以划分出开发集对模型训练效果进行验证。域外数据是指训练集与开发集中不同的部分,过多会导致训练难度变大。

BLEU 分数(Bilingual Evaluation UnderstudyScore)[7]用于评估序列模型语义解析的好坏,将文本解析为数据库语句的好坏程度通常用BLEU 分数去评估。分数值介于0 ~ 1,越接近1 代表解析结果越接近参考值。除了BLEU 分数,还有METEOR、ROUGE 和PPL 等标准也可以评价解析模型的好坏,根据不同需求选择不同的评价指标。

2 基准数据集

高质量的数据集能够直接决定模型训练的效果,在Text-to-SQL 领域,用于绝大多数模型检验常用的基准数据集为WikiSQL[8]和Spider[9]数据集,其为大规模、多领域的基准测试集,也是使用最为广泛的基准数据集。

WikiSQL 是目前文本转数据库语句领域使用最频繁的基准数据集,包含约25 000 个维基百科数据表和80 000 个由人工创建的自然语言与SQL 句子对,数据集中每一行由一个自然语言文本、一个文本对应的SQL 查询还有SQL 查询中涉及的列和表组成。WikiSQL 中的SQL 复杂性较低,因为其内部没有使用复杂的SQL 子句,如:“JOIN”“GROUP BY”“ORDER BY”“UNION”“INTERSECTION”等,且在执行查询语句时不允许在单个查询中选择多个列。因此在训练模型时,WikiSQL 的训练难度比较低,这是WikiSQL 使用率最高的原因。

Spider 是一个大规模的、复杂的跨领域数据集,包含来自138 个不同领域的200 多个关系数据库。相较于WikiSQL,Spider 数据集具有更多复杂的嵌套查询子句、更多的域外数据,让训练更加困难。经过Spider 训练的机器学习模型可以变得更加泛化,研究人员广泛依赖它训练可以生成复杂SQL 查询的模型,适应更多的任务。还有数据集针对Spider做了扩展,用于训练指定任务。Spider-dk 扩展了Spider,用于训练跨领域泛化模型,探索模型在面对不同领域中专业名词的表现;Spider-syn 侧重于训练模型区分同义词、反义词的性能。

此外,其他数据集,例如:KaggleDBQA 是一个跨域数据集[10],虽然规模比不上WikiSQL 和Spider,但它是从Kaggle 中提取出来的,包含相当多工业界的真实数据。

3 模型演变

本节将按时间演变介绍文本转数据库领域的模型,模型发展历程如图4 所示。

(1)理论提出

在文本转数据库语句领域,Li 等[11]提出的SQLNet 是较早成理论体系的模型,该模型使用的方法基于草图技术,草图中包含数据库语句的关键字、列名和表名,通过这个草图,SQLNet 仅需往草图留空处添加信息,就可以实现自然语言到数据库语句的转换。

(2)理论发展

基于SQLNet,Min 等[12]提出一种树型结构返回输出的模型———Sequence-to-Tree。该模型可以看作是序列到树的模型,使用LSTM 网络编码器对输入问题进行编码,在编码器处理输入序列后,通过解码器输出树型结构的SQL 查询语句。模型通过识别单个词元来理解输入,并将其转化为树型结构,树节点上包括关键字(如SELECT、WHERE)、表名和列名。

(3)理论加工

这一阶段数据库领域开始大规模使用深度神经网络构建模型,采用中间表示生成查询,显著提高了计算效率。Kevin 等[13]提出Sequence-to-SQL 模型以深度学习模型为基准,引入了强化学习方法,将交叉熵损失和数据库在运行中执行查询的奖励函数作为模型评价指标。该模型内部采用了一种增强指针网络,该网络是一种能够改变输出序列长度的网络架构,相较于循环神经网络输入输出的序列长度需要一一对应,增强指针网络能使模型具有更好的性能。Sequence-to-SQL 模型由聚合分类器、SELECT组件和WHERE 组件构成。

Sequence-to-SQL 模型对查询的聚合操作进行分类,将输入的文本数据分类为最大最小升序降序这类约束条件。聚类分类器内部采用的是编码器-解码器架构,编码器内部使用了双向LSTM 网络,解码器内部采用普通的LSTM;SELECT 组件用于处理输入文本中的列名和表名;WHERE 组件,用于确定用于转换的数据库语句约束条件。

(4)理论成型

这一阶段文本转数据库语句技术趋于成熟,开始运用复杂跨域文本数据集训练模型。大部分模型训练选用基准数据集WikiSQL 进行训练,但Guo等[14]提出的IRNet 选用Spider 数据集训练模型。相较于Spider 数据集,WikiSQL 的生态更加成熟,没有复杂的嵌套查询语句和大量域外数据,简化了模型的训练过程,但Guo 等[14]的目的是训练适用于复杂且有跨域文本的数据库,所以选用更为复杂的Spider 对模型进行训练。

IRNet 是基于编码器-解码器架构的模型,工作原理包括3 个关键步骤:① 编码器,分为问题编码器(Question Encoder)和模式编码器(Schema En-coder)。问题编码器内部是双向LSTM 神经网络,负责预处理输入数据,将输入的文本词元化,并使用Ngram 算法对文本中出现的列名和表名赋予一个类,如果词元是数据库中的列则分配一个“Column”,如果词元是数据库中的表则分配一个“Table”;模式编码器负责为N-gram 算法中识别的列名、表名的准确性匹配一个类型。其中有2 个控制单元,模式单元和记忆单元,模式单元负责为N-gram 算法识别正确的列名和表名分配一个“ExactMatch”类型,没有正确识别的列名和表名分配一个“Partial Match”类型,分配好类型后将这些信息送入记忆单元进行存储。② 解码器,负责接收问题编码器的输出,将其作为自身的隐藏状态,将文本数据转化为树型结构中间表示树。解码器中有一套树型结构的转化规则,树中节点用字母Z 表示数据库中的交集(intersect)、并集(union)和补集(except)操作,没有这些操作时也用字母Z 表示;树中结点用字母R 表示“SELECT”关键字;树中结点“Select”可以分化出一个或多个节点;树中结点“Order”对应升序(asc)和降序(desc);树中结点“Superlative”对应最大(most)和最小(least);树中结点“Filter”表示过滤操作,对应条件关键字,比如:大于、小于、等于、be-tween、not in 等;树中结点“A”表示可以分化出列和表,列和表分别用字母C 和T 表示。③ 输出层,遍历解码器输出的树将其转化为最终的SQL 语句。

4 最新研究进展

Octavian 等[15]以编码器-解码器架构为原型,提出了一个结合自动训练数据增强及多模型集成技术的系统,该系统可以处理和提取输入问题中的特定信息,从数据库中将词元连接到特定的表和列。编码器中常用的实体识别(Name Entity Recognition)模块在该模型中被替换成消除歧义字典模块(Dis-ambiguation Dictionary Module),用于提供模型所需要的关键信息。系统具有以下优势:① 集成了种子训练数据增强技术,基于被称为种子的初始训练语料库,利用这种方法生成更大的训练集;② 使用不同的自动生成训练数据集,训练不同的模型,并使用集成技术来分析组合多个模型的输出。

Li 等[16]提出了用于聚合表内文本到数据库语句转换的方法———Wagg,该方法使用了一种动态修剪策略对多个聚合表中的不相关项进行修剪,大大减少模型训练的时间成本。聚合是一种数据批处理的操作,可以将数据分组,对每组数据执行多种批处理操作。聚合表为经过聚合处理的表,常用于频繁使用查询操作的情况。目前针对聚合表的文本转数据库语句方向的研究相对较少,主要面临2 个方面的挑战:① 聚合表意味着更复杂的映射关系,在文本与数据库语句进行转换时面临更多歧义;② 目前的深度学习模型处理聚合表会产生巨大的时间成本。Li 等[16]的方法使用动态修剪策略克服了上述困难,让聚合表这种复杂的数据库表可以输入模型进行训练。

W ei 等[17]在解码器中引入了多任务学习的共享机制,通过不同的子任务共享同一个解码器来实现,可以有效降低模型的复杂性,并且允许不同子任务在训练过程中共享知识,使模型能够更好地学习到不同子任务之间的依赖关系。文本转数据库语句使用基于编码器-解码器架构的模型时,普通解码器学习不同子任务之间相关性的能力有限,过于复杂的解码器会增加训练成本。文献[17]的方法避免了上面2 种情况,保证模型训练效果的同时避免了过高的模型复杂性。

Tomer 等[18]提出了一种基于弱监督学习的方法———Odmrs 来训练模型中文本转数据库语句的解析器,其未使用手动标记的高质量数据作为训练标准,而是使用非专业用户提供的数据进行训练,证明了模型强大的泛化性。解析器中合成SQL 的算法流程,如算法1 所示。

算法1 的工作原理为:定义一个数组mapped 用于后续存储变量(第1 行);利用启发式函数f 将xi表达为结构化形式Mi,根据模板推断Mi 中的具体操作(第2 行);然后通过弱监督学习模型将结构化表示Mi 映射到数组中(第3 ~ 14 行),针对每个结构化的表示Mi,提取出其中的列名和相关性强的SQL 查询,并创建数组join(第3 ~ 7 行)。根据列与列之间的相关性和构建的结构化模板去生成SQL查询(第8 ~ 14 行),JOINP 函数用于连接表之间的不同列,OPTYPE 函数用于从结构化模板中推断Mi中的具体数据库操作,MAPSQL 函数将Mi 映射到SQL 中;最后返回SQL 查询(第15 行)。Text-to-SQL 最新研究进展总结如表1 所示。

Geunyeong 等[19]提出了一种混合译码器,为SQL 生成构建出基本结构,结构中包含每个查询过程中可能需要使用的自行定义数据库语句组件,混合解码器依据该结构依次生成SQL 查询。Qi 等[20]提出了一种基于Transformer 的架构,利用Transformer 中的自注意力机制识别表与表之间的关系,将模式连接和模式编码等关系结构引入模型,让模型生成更符合逻辑的SQL。Xu 等[21]提出一种基于循环神经网络的方法———SeaD,将自回归模型与序列到序列模型结合,过滤输入文本,克服解码过程对模型的限制,提高文本到SQL 的准确性。Qin等[22]设计了一种基于神经网络的方法———Sun,在Sun 中使用一种启发式的约束规则来限制模型输出,提高模型的泛化性和稳定性。Shi 等[23]针对跨语言文本到SQL 语义解析的问题,提出一种基于迁移学习的文本解析模型———Transfer Learning inCross-Lingual(XRICL),利用基于英文数据集的训练成果迁移到其他语言模型中。Pi 等[24]设计了一种名为Adveta 的系统,用于测试Text-to-SQL 模型鲁棒性,使用Adversarial Table Perturbation(ATP)指标评估模型鲁棒性,该系统内部结构主要是对抗生成框架,在监测模型鲁棒性的同时也能对模型进行改进。Han 等[25]提出一种基于图的方法———RuleSQLova,偏向于处理数据库中的聚合操作符。Zheng 等[26]提出了一种基于模式连接图的方法———HIESQL,该方法增强输入文本与SQL 之间的连接,提升了模式连接的准确率。Xiao 等[27]基于上下文相关文本序列问题提出Conversation Question Reformulation(CQR)方法,该方法基于递归增强模式来生成文本与SQL 之间的中间表示,让模型充分理解上下文语义,增强SQL 的解析能力。Wang 等[28]提出了一种基于大规模预训练语言模型来诱导解析器对输入文本进行处理的方法———Proton,该方法是无监督学习模型,无需对输入文本进行预处理。Abhijeet等[29]提出了一种名为REFILL 的框架,用于合成高质量、多样化的并行数据集,REFILL 框架从现有模式中检索和添加文本查询,提高模型训练效率。Chen 等[30]提出了一种基准数据集修改器,用于预训练基准数据集SQuALL 时进行分割,该解析器由模式扩展和模式修剪组成,在训练过程中对输入数据SQuALL 进行合成与分割。Lee 等[31]设计了一种符合医院应用场景的数据库———Electronic HealthRecords(EHRs),用于医学场景下的模型训练。

5 结束语

本文综述了Text-to-SQL 文本处理技术最新研究成果,包括关键技术、基准数据集、模型演变和最新研究进展。关键技术包括LSTM、GRU、Transformer、Bert、域外数据和BLEU 分数等技术;基准数据集主要介绍了WikiSQL 和Spider;模型演变从4 个阶段详述了Text-to-SQL 技术,包括理论提出、理论发展、理论加工和理论成型;最新研究进展从模型构建、解析器设计和数据集生成3 个方面概述了最新研究成果。

在模型的构建上,虽然大部分是基于Transformer 的编码器-解码器架构模型,但是ChatGenerative Pe-trained Transformer(ChatGPT)模型的成功预示着这类架构具有很大的潜力,未来仍可以针对该结构进行改良,从不同角度提高模型性能。对于解析器而言,未来可以设计基于图神经网络的模型,利用图中节点之间的关系解析上下文,增加文本与SQL 之间的转换效率。目前常用的数据集主要包括WikiSQL 和Spider,数据集是决定模型训练效果好坏的重要因素,未来可以针对不同业务场景构建出适合的基准数据集用于该领域模型训练,如针对性的构建适合法律、教育和互联网等环境的训练数据集,让模型在上述领域具有更好的性能。

此外,文本信息处理涉及隐私数据,隐私保护问题是不可忽视的,通常获取的文本信息是公开的、性比较低的,不能擅自使用未公开或是私密性高的数据,未来可以制定相关规范或是制定更多的基准数据集,吸引更多的研究者投入Text-to-SQL 领域的研究。

参考文献

[1] GEORGEK M,GEORGIA K. A Survey on Deep LearningApproaches for TexttoSQL[J]. The International Journalon Very Large Data Bases,2023,32(4):905-936.

[2] GU Z H,FAN J,TANG N,et al. Sam Madden:FewshotTexttoSQL Translation Using Structure and ContentPrompt Learning[J]. Proceedings of the ACM on Management of Data,2023,1(2):147.

[3] ZHOU S L,LI J,WANG H,et al. GRLSTM:Trajectory Similarity Computation with Graphbased Residual LSTM[C]∥Proceedings of the Thirtyseventh AAAI Conference on Artificial Intelligence. [S. l. ]:AAAI,2023:4972-4980.

[4] CHEN Y,CAO H,ZHOU Y Q,et al. A GCNGRU BasedEndtoEnd LEO Satellite Network Dynamic Topology Prediction Method[C]∥2016 IEEE Wireless Communicationsand Networking Conference. Glasgow:IEEE,2023:1-6.

[5] CHATZIANASTASIS M,LUTZEYER J F,DASOULAS G,et al. Grph Ordering Attention Networks [EB / OL ].(2022-04-11)[2023-07-10]. https:∥arxiv. org / abs /2204. 05351.

[6] ZHAO W C,HU H Z,ZHOU W G,et al. BEST:BERTPretraining for Sign Language Recognition with CouplingTokenization[C]∥Proceedings of the 37th AAAI Conference on Artificial Intelligence. Washington D. C. :AAAI,2023:3597-3605.

[7] SAMANTA D,VENKATESH V,MONIKA G,et al. Evaluating Commit Message Generation:To BLEU or Not toBLEU?[C]∥2022 IEEE / ACM 44th IEEE InternationalConference on Software Engineering:New Ideas andEmerging Results. Pittsburgh:IEEE,2023:31-35.

[8] SEMIH Y,IZZEDDIN G,SU Y,et al. What It Takes toAchieve 100% Condition Accuracy on WikiSQL [C]∥Proceedings of the Conference on Empirical Methods inNatural Language Processing. Brussels: ACL,2018:1702-1711.

[9] YU T,ZHANG R,YANG K,et al. Spider:A LargescaleHumanlabeled Dataset for Complex and CrossdomainSemantic Parsing and TexttoSQL Task[C]∥Proceedingsof the 2018 Conference on Empirical Methods in NaturalLanguage Processing. Brussels:ACL,2018:3911-3921.

[10] LEE C H,POLOZOV O P,RICHARDSON M. KaggleDBQA:Realistic Evaluation of TexttoSQL Parsers[C]∥Proceedings of the 59th Annual Meeting of the Associationfor Computational Linguistics and 11th International JointConference on Natural Language Processing. [S. l. ]:ACL,2021:2261-2273.

[11] LI D,MIRELLA L. Language to Logical Form with NeuralAttention[C]∥ Proceedings of the 54th Annual Meetingof the Association for Computational Linguistics. Berlin:ACL,2016:33-43.

[12] MIN Q K,SHI Y F,ZHANG Y. A Pilot Study for ChineseSQL Semantic Parsing [C]∥ Proceedings of the 2019Conference on Empirical Methods in Natural LanguageProcessing and the 9th International Joint Conference onNatural Language Processing (EMNLPIJCNLP ). HongKong:ACL,2019:3652-3658.

[13] KEVIN S,DIRK K. Seq2SQLEvaluating Different DeepLearning Architectures Using Word Embeddings [C]∥15th International Conference Machine Learning and DataMining in Pattern Recognition. New York:MLDB,2019:343-354.

[14] GUO J Q,ZHAN Z C,GAOY,et al. Towards ComplexTexttoSQL in Crossdomain Database with IntermediateRepresentation [C ]∥ Proceedings of the 57th AnnualMeeting of the Association for Computational Linguistics.Florence:ACL,2019:4524-4535.

[15] OCTAVIAN P,IRENE M,NGOC P A O,et al. AddressingLimitations of EncoderDecoder Based Approach to TexttoSQL[C]∥Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju:ICCL,2022:1593-1603.

[16] LI S Q,ZHOU K B,ZHUANG Z Y,et al. Towards TexttoSQL over Aggregate Tables[J]. Data Intelligence,2023,5(2):457-474.

[17] WEI C,HUANG S B,LIR S. Enhance TexttoSQL ModelPerformance with Information Sharing and Reweight Loss[J]. Multimedia Tools and Applications,2022,81 (11):15205-15217.

[18] TOMER W,DANIEL D,JONATHAN B. Weakly SupervisedTexttoSQL Parsing Through Question Decomposition[C]∥Findings of the Association for Computational Linguistics:NAACL 2022. Seattle:ACL,2022:2528-2542.

[19] GEUNYEONG J,MIRAE H,SEULGI K,et al. ImprovingTexttoSQL with a Hybrid Decoding Method [J ].Entropy,2023,25(3):513.

[20] QI J X,TANG J Y,HE Z W,et al. RASAT:IntegratingRelational Structures into Pretrained Seq2Seq Model forTexttoSQL[C]∥Proceedings of the 2022 Conference onEmpirical Methods in Natural Language Processing. AbuDhabi:ACL,2022:3215-3229.

[21] XU K,WANG Y B,WANGY L,et al. SeaD:EndtoEndTexttoSQL Generation with Schemaaware Denoising[C]∥Findings of the Association for Computational Linguistics.Seattle:ACL,2022:1845-1853.

[22] QIN B W,WANG L H,HUI B Y,et al. SUN:ExploringIntrinsic Uncertainties in TexttoSQL Parsers[C]∥Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju:ICCL,2022:5298-5308.

[23] SHI P,ZHANG R,BAI H,et al. XRICL:CrosslingualRetrievalaugmented Incontext Learning for CrosslingualTexttoSQL Semantic Parsing[C]∥Findings of the Association for Computational Linguistics. Abu Dhabi:ACL,2022:5248-5259.

[24] PI X Y,WANG B,GAO Y,et al. Towards Robustness ofTexttoSQL Models Against Natural and Realistic Adversarial Table Perturbation [C]∥ Proceedings of the 60thAnnual Meeting of the Association for Computational Linguistics. Dublin:ACL,2022:2007-2022.

[25] HAN S K,GAO N,GUO X B,et al. RuleSQLova:Improving TexttoSQL with Logic Rules[C]∥2022 International Joint Conference on Neural Networks. Padua:IEEE,2022:1-8.

[26] ZHENG Y Z,WANG H B,DONG B H,et al. HIESQL:History Information Enhanced Network for Contextdependent TexttoSQL Semantic Parsing[C]∥Findings ofthe Association for Computational Linguistics. Dublin:ACL,2022:2997-3007.

[27] XIAO D L,CHAI L Z,ZHANG Q W,et al. CQRSQL:Conversational Question Reformulation Enhanced Contextdependent TexttoSQL Parsers[C]∥Findings of the Association for Computational Linguistics. Abu Dhabi:ACL,2022:2055-2068.

[28] WANG L H,QIN B W,HUI B Y,et al. Proton:ProbingSchema Linking Information from Pretrained LanguageModels for TexttoSQL Parsing[C]∥Proceedings of the28th ACM SIGKDD Conference on Knowledge Discoveryand Data Mining. New York:ACM,2022:1889-1898.

[29] ABHIJEET A,ASHUTOSH S,SUNITA S. Diverse ParallelData Synthesis for Crossdatabase Adaptation of TexttoSQL Parsers[C]∥Proceedings of the 2022 Conference onEmpirical Methods in Natural Language Processing. AbuDhabi:ACL,2022:11548-11562.

[30] CHEN Z,SU Y,ADAM P,et al. Bridging the GeneralizationGap in TexttoSQL Parsing with Schema Expansion[C]∥Proceedings of the 60th Annual Meeting of the Associationfor Computational Linguistics. Dublin: ACL, 2022:5568-5578.

[31] LEE G,HWANG H,BAE S,et al. EHRSQL:A PracticalTexttoSQL Benchmark for Electronic Health Records[EB / OL]. (2023 - 01 - 16)[2023 - 07 - 18]. https:∥arxiv. org / abs / 2301. 07695.

作者简介

彭钰寒 男,(1999—),硕士研究生。主要研究方向:人工智能数据库。

(*通信作者)乔少杰 男,(1981—),博士,教授。主要研究方向:人工智能数据库、时空数据库、机器学习。

薛 骐 男,(1999—),硕士研究生。主要研究方向:时空数据库。

李江敏 男,(1997—),硕士研究生。主要研究方向:人工智能数据库。

谢添丞 男,(1997—),硕士研究生。主要研究方向:轨迹预测。

徐康镭 男,(1999—),硕士研究生。主要研究方向:人工智能数据库。

冉黎琼 女,(1998—),硕士研究生。主要研究方向:数据挖掘、云计算。

曾少北 男,(1980—),硕士。主要研究方向:数据智能应用。

基金项目:国家自然科学基金(62272066,61962006);四川省科技计划(2021JDJQ0021,2022YFG0186,2022NSFSC0511,2023YFG0027);教育部人文社会科学研究规划基金(22YJAZH088);宜宾市引进高层次人才项目(2022YG02);成都市“揭榜挂帅”科技项目(2022-JB00-00002-GX,2021-JB00-00025-GX);四川省教育厅人文社科重点研究基地四川网络文化研究中心资助科研项目(WLWH22-1);成都信息工程大学国家智能社会治理实验基地开放课题(ZNZL2023B05);成都信息工程大学科技创新能力提升计划(KYTD202222)

猜你喜欢
解析器深度学习数据库
基于多解析器的域名隐私保护机制
基于Wireshark的列控中心以太网通信协议解析器的研究与实现
如何防御DNS陷阱?常用3种DNS欺骗手法
一种基于无关DNS的通信隐私保护技术研究
电子世界(2018年14期)2018-04-15 16:14:25
数据库
财经(2017年2期)2017-03-10 14:35:35
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
数据库
财经(2016年15期)2016-06-03 07:38:02