常见数据库优化查询的研究

2021-04-10 18:01:42邵泳兵

新型工业化 2021年5期

邵泳兵

（汕头职业技术学院，广东汕头 515078）

0 引言

随着计算机和网络技术的飞速发展，互联网上的所有信息都呈指数级增长，成为一个巨大的信息数据库，与此同时，各种企业已经开发了许多具有不同软件和硬件平台的应用系统。数据资源在应用系统中不断积累，已经形成了成千上万种异构数据源，其中大多数是传统的关系数据库数据。由于不同的软件和硬件平台以及不同的数据模型，这些数据资源形成异构数据，这使各种数据源的互操作性变得复杂[1]。

1 关系数据库和非关系数据库的概念

1.1 关系数据库

关系数据库是使用关系模型组织数据的数据库。简而言之，关系模型是类似于二维表的模型，关系数据库是由二维表和其中包含的数据组成的数据组织。关系数据库中有几个术语需要理解。（1）关系：在二维表中，每个关系都有一个关系名称，常用的表名是table。（2）属性：在二维表中，它类似于Excel表中称为数据库字段的列。（3）域：属性值的范围，即数据库中字段的属性约束。（4）关系模式：表示关系的描述，格式为关系名称，换句话说，它是数据库的表结构。

由于数据库应用程序的扩展和数据对象的多样化，现有的关系数据模型暴露出许多问题，在传统的数据库中，没有数据存储，没有专用软件来管理系统中的数据，没有数据共享，数据不具备独立性这些都是传统数据库的特点。在文件系统级别上，数据可以以文件形式长时间存储。但是，在这种结构中，易于出现数据的独立性和共享性差，高冗余性以及数据传输之间的不一致。在数据库的系统级别上，数据被结构化，数据共享得到改善，冗余性降低，数据独立性很高，并且集成了数据控制功能。根据数据库系统中特定数据模型结构化，考虑该数据库的数据结构，同时考虑连接数据后的数据结构，而这些在传统的数据库中都是看不到的[2]。

1.2 非关系数据库

非关系数据库的本质是传统关系数据库的简化版本。通过减少功能，可以大大提高产品性能，类似于典型游戏的数据字段。

当前市场上流通的大多数主流非关系数据库基本上都是免费的。大型企业中著名的关系数据库开发软件（例如Oracle和DB2）是要收费的。这极大地限制了某些私人用户的使用。但是，在许多小型企业实际开发中，不需要形成完整的关系数据库，非关系数据库的功能就足够了。在这种情况下，使用具有高性能和低成本的非关系数据库显然是首选。在性能方面，NOSQL基于可理解的键值对，类似于Java和HashMap中的键值对。同样，基于键值对的可伸缩性也很好，并且数据之间的耦合程度相对较低，因此使用时非常容易扩展。

2 关系数据库的特征和功能

2.1 数据结构

数据库实现了整个数据结构，这是数据库的主要特征之一。这也是数据库和文件系统之间的根本区别。意味着在考虑应用程序的数据结构时，还应该考虑整个组织的数据结构。在数据库中，数据不仅是整体结构，而且在访问数据方面也非常灵活，从而可以访问特定的数据项，数据项组，一个记录或一组记录。在文件系统中，数据访问单元是记录，并且粒度不能细分到数据项。

2.2 数据复杂性

数据库的复杂性主要在于数据本身以及数据处理过程中。首先，对于现代应用程序而言，数据量巨大，并且对大量数据的管理相对复杂。其次，数据之间的关系是由于数据与数据之间的动态关系而产生的（例如，多种语义，多种类型等）。所有都是动态关联，并且没有明确定义时间和空间之间的关系。

2.3 数据独立性高

数据和程序独立地将数据的定义与程序分开，并且DBMS提供了访问数据的方式，从而简化了应用程序的准备，并大大减少了应用程序的维护和修改。

3 关系数据库设计的思维表现和理论

数据模型是数据存储计划设计中的主要考虑因素。模型是对目标对象的模拟描述。模型不仅需要了解事物的本质，而且还是沟通和讨论解决方案的重要工具。数据建模是设计数据存储的第一步，其输出是获得满足实际需求的数据模型，然后获得可以实施的行动计划。从理论上讲，一个完整的数据模型包括三个方面：结构，行为和约束。

在数据库领域，包括数据库管理员和数据库编程开发人员的职位。对数据库管理员来说，解决方案应尽可能有效，范式原理最好在理想状态下实现，以便将来的数据维护方便且清晰。而对于数据库开发人员来说，在为应用程序系统设计存储解决方案时，希望尽可能地提高存储解决方案的性能和效率，但是在提高性能和效率时，不可避免地要违反价格的理论范式，就像编程增加了应用程序的实时并发数量并保持数据准确性一样，程序的实时并发数量增加，就不能保证数据的准确性。为了改善数据，必须减少应用程序系统。无论应用程序实时并发的规模如何，以及数据准确性是否更为重要，实时并发的数量都是一个重要因素，而不是行业中的统一标准。原理是根据实际需求选择两者的权重[3]。

设计数据数据库存储方案时，不能概括相同的原理。重要的是提高存储系统的性能和效率，或者确保理论范式的原理是完整的。通常，为了提高性能，要设计表实体，避免频繁的表联接操作。一般来说，为了减少由表联接操作对系统性能造成的额外开销，一般会考虑在主要业务实体中增加其他辅助业务的信息。尽管这在某种程度上破坏了企业范式的原理，但也是可以接受的，尤其是在响应性优化对大数据业务特别重要的情况下。当然，为了确保业务在的科学合理，不能完全忽略范式原则并盲目追求性能，从而导致实体的过多冗余，并使存储解决方案产生混乱且难以维护。

4 数据分页技术

互联网时代实际上是数据时代。数据分页的效率很重要，是系统性能的重要评估指标。使用这种方法，当数据量和并发访问量较小时，分页就不会出现问题。但是，在有大量数据的情况下，跳过行为非常慢，因此需要改进和优化分页技术，以提高大数据查询和显示性能。目前，国内外改进分页技术的主要方法有两种。一种是限制结果集中的页面数，类似于搜索引擎结果分页策略。当显示的结果非常庞大时，用户只能看到前60到70页的数据，此方法将结果限制为少于10,000条记录，因此可以快速获取页面数据，但是显示的数据不完整。第二种方法是针对数据库和内存的查询，将通过将所有合适的数据放入数组来加快数据分页。但是，随着结果集数据的增长，主机的内存需求太大，这可能导致内存溢出并影响Web应用程序的稳定性。同时，所有记录一次返回，网络数据流量大，系统的第一个查询太慢。

为了提高Web2.0数据分页的响应速度，需要节省带宽并尽可能加快查询速度。查询速度的提高，意味着在查询数据库时，不用返回不需要的字段和记录，仅返回必要的数据。网页的主要任务是处理数据库，从而加快数据库查询的速度，这也是网站设计质量的标准。MongoDB基于类似于关系数据库的索引机制来实现复杂的查询。数据查询速度高度依赖于索引的使用情况。根据查询创建索引，并在必要时创建复合索引。MongoDB的查询优化方法简单明了。选择索引后，可以提高性能。但是，反复选择索引会产生一定量的开销并减慢它的查询速度。因此，查询可以通过在特定应用程序场景中使用一个索引来获得最佳性能，则可以使用MongoDB提供的提示功能在程序中指定索引，以避免对数据库进行不必要的尝试[4]。

5 关系数据库中用户查询计划的优化

5.1 索引的合理使用

索引是数据库将预先排序的数据合并为多种类型的表的有效方法。在关系数据库中对表进行科学合理的索引编制，对于提高查询数据库数据的速度和优化数据库功能具有很大的作用。每种索引类型的应用程序均根据磁盘容量进行调整。应用索引时，数据库需要同时读取两种类型的数据信息，两种类型的数据都被读取为需要输入数据库的信息。读取第一类数据作为实际数据的索引。在数据指针和第二个数据类型指针的特定方向上进行读取。因此，创建的索引应能够与实际应用程序系统的查询要求有效集成，以实现查询优化目标。

在关系数据库中，必须科学地应用索引，并且必须遵循以下规则：在连接到通道但未设置为外键的列上配置索引，链接的字段将通过帮助自动建立索引。在建立索引的情况下，无论配置，维护和运行链接如何，都可以按照代偿行为创建关系数据库，因此科学地应用索引非常必要。错误的索引不仅不利于优化数据库的性能，而且会对输出产生负面影响。

在索引优化中，必须实现索引的包容性和渐进式。所谓的包容性意味着查询中的索引指针必须指向所有索引内容，且不能重复和遗漏，并且必须对索引中的每个语句进行单独分析，然后进行合并和分析以实现索引。所谓渐进式意味着已经从索引中删除或添加的某些选项也必须添加到索引的范围中，并且随着时间的推移，查询内容变化的部分在索引中也可以是准确的展示。索引优化还可以优化数据库的结构。良好的索引优化可以在属性之间的互连方面对数据库结构提出更高的要求，以实现顺畅的查询和数据库的合理设计[5]。

5.2 简化或避免排序

应该简化或避免对大型列表进行多次排序。如果可以使用索引自行生成输出，则优化器不需要经过排序过程。但是，如果索引中等待排序的列不超过一列，则group by或order by子句中的列顺序和索引顺序之间会有所不同，并且来源也会有所不同，这就需要做列排序。添加索引以避免不必要的排序是科学合并数据库表的一种非常有效的方法，有时会影响列表的美观，但可以大大提高效率。如果需要进行排序，应积极寻求简化措施，例如缩小排序范围。

5.3 避免使用字符匹配查询

LIKE具有字符串匹配功能，但是构造工作很耗时且需要大量的人力资源。例如，SELECT * FROM student WHERE xh LIKE“05%”即便是于xh字段上构建索引，在这种情况下，也应该应用顺序扫描模式，并避免子字符串不启动。例如：SELECT * FROM Student WHERE xm LIKE“ Eryo%”，因为where子句中使用了非起始子字符串，因此这一语句不会应用索引。

5.4 范式优化

在数据库的逻辑设计阶段，将范式用于标准化基础表，即范式优化。在范式优化中，主要的逻辑设计是遵守第三范式，消除功能依赖关系，并避免传递依赖关系。第三范式主要优点是消除了大量备份数据对操作的负面影响。同时，没有改变数据库中对象之间的相关关系，确保数据库不受其他方面的负面影响，可以说这是一种非常全面的初始设计方法。在数据存储和备份之间找到了很好的平衡，在开发阶段克服了先前的优化缺陷，并形成了更完整的起点。

当然，范式优化并非没有缺点。在范式优化中，级别不断上升，冗余和更新异常等许多不合理的操作情况已消失，但是随着级别的上升，上一级别的关系模式不断地来回分解，关系的数量不断增加，导致连接复杂。由于复杂的连接而导致操作消耗增加，操作可行性降低，数据库的负担增加，并且在严重的情况下，可能会影响数据库的正常运行。因此，范式优化是一个适度的过程，对关系的连接的合理分配是优化的边界，需要在两者之间找到平衡，为操作带来便利和实用性[6]。

5.5 查询优化

在查询过程中，通常在某些固定查询模式下获得的句子结果会有所不同。查询优化是一种查询阶段的优化技术，通过查询优化，可以在各种执行策略中选择最合理，最合适的执行策略，从而提高查询的准确性和效率。

在查询优化的过程中，许多程序员只注重复杂而美观的界面，忽略了查询效率，并导致许多开发应用程序中的查询效率低下和资源浪费过多。因此，如何在查询优化中做好工作已成为程序员当前面临的主要问题。在设计查询过程时，首先要确保语句合理，高效和方便，还需要注意不要对大型表进行重复排序。如果不可避免，则应简化重复的对齐方式。

6 结语

综上所述，为了有效地增加数据库存储容量并确保系统良好，需要设计良好的使用分页技术来提高查询效率，从而有效地确保数据库系统的稳定运行。随着数据库技术的不断创新，掌握数据库查询优化技能和创建可执行的查询计划，可以极大地提高数据库应用系统的功能，提高人们的工作效率。