测试 Apache Flink SQL 代码是确保应用程序顺利运行并提供预期结果的关键步骤。 Flink SQL 应用程序用于广泛的数据处理任务,从复杂的分析到简单的 SQL 作业。全面的测试流程可以帮助您在开发过程的早期发现潜在问题,并确保您的应用程序按预期工作。
这篇文章将介绍 Flink SQL 应用程序的几种测试可能性。
手动测试和自动测试
使用 SQL 客户端是快速测试的有效方法。并轻松测试您的 Flink SQL 代码。 SQL 客户端旨在提供一个交互式环境,您可以在其中运行 SQL 查询并查看结果。这使得您可以轻松测试代码并快速进行更改。但是,您大多只能使用 SQL 客户端执行手动测试。为了进行更全面的测试,您应该使用自动化测试工具。
自动化测试工具可以提供一种使用多个数据集和各种场景测试代码的方法。这可以帮助识别手动测试中可能无法立即看到的问题。自动化测试包括单元测试和集成测试。单元测试用于测试应用程序的各个组件,而集成测试用于测试不同组件之间的集成。它们都有助于识别与数据处理相关的问题,例如不正确的 SQL 语法或不正确的数据转换。
通过单元和集成测试进行测试
此测试方法涉及使用单元和集成测试来验证代码的行为。它很容易实现自动化,这使得它成为测试较小单元(例如查询或函数的一部分)的便捷选择。此外,它是高度可定制的,允许您使用特定的输入数据定义单独的测试场景,而无需更改日志流并控制行时间属性。这种方法的另一个好处是,它可以在开发用户定义的函数时实现快速周转时间。这可以帮助您在开发过程的早期识别类型推断问题和其他问题。但是,这种测试方法涉及使用非 SQL 代码,这可能需要一些 Java 或 Scala 知识才能有效地使用它。这可能包括理解这些编程语言的语法和基本概念,以及与它们一起使用的任何专用库或框架。虽然这可能需要一些前期学习投资,但对于那些熟悉这些语言并希望自动化某些流程或任务的人来说,这可能是一个很好的方法。
Flink 1.12 或更低版本中的单元和集成测试
如果您需要提供输入数据出于测试目的,一种选择是使用 TableEnvironment.fromValues() 方法。但是,需要注意的是,此方法仅支持插入,不允许更改日志流。此外,它不提供对数据顺序的任何控制,这在某些情况下可能是必要的。此外,没有可用的行时间或水印选项。另一种方法是将值连接器与 TestValuesTableFactory 结合使用。这允许您使用表 DDL 中可用的全部选项来定义输入表。这包括指定行时间和水印属性,以及表 DDL 的任何其他特性。但是,需要注意的是,这是一个非公共 API,这意味着它不适合在生产环境中使用,并且可能不会得到供应商的完全支持。
Flink 1.13 或更高版本中的单元和集成测试
如果您需要在 Flink 1.13(或更高版本)中提供输入数据用于测试目的,一种选择是使用 TableEnvironment.fromValues() 方法。不过,需要注意的是,该方法与之前版本的 Flink(1.12 或更早版本)具有相同的限制。另一种方法是使用 StreamTableEnvironment.fromChangelogStream() 方法,该方法允许您将输入定义为 aDataStreamorDataStream 具有 RowKind 属性。此方法提供自动类型转换并在操作之间保留事件时间和水印。此外,它允许您像在表 DDL 中一样定义自定义架构定义,从而提供更大的灵活性和对输入数据的控制。总的来说,在 Flink 1.13(或更高版本)中,使用 fromChangelogStream() 方法可以是一种更强大、更通用的方法来提供用于测试的输入数据。
在表中收集查询或操作的结果
测试 Apache Flink SQL 代码的注意事项
以下是测试 Apache Flink SQL 代码时需要注意的一些事情:
使用正确的测试工具。 有许多不同的测试工具可用于测试 Apache Flink SQL 代码。选择正确的工具取决于您的特定需求。例如,如果您需要测试复杂的应用程序,则需要使用功能更强大的测试工具。
编写可重复的测试。 您的测试应该是可重复的,这意味着您应该能够在不同的环境中运行它们并获得相同的结果。这将有助于您发现代码中的错误并验证您的更改。
编写可维护的测试。 您的测试应该是可维护的,这意味着您应该能够轻松地添加新测试或更改现有的测试。这将有助于您随着代码的更改保持您的测试库的最新状态。
编写可读的测试。 您的测试应该是可读的,这意味着您应该能够轻松地理解它们的目的和输出。这将有助于您在需要时更轻松地调试您的测试。
编写全面的测试。 您的测试应该全面,这意味着您应该测试代码的所有方面。这将有助于您确保您的代码是正确的和可靠的。