Spark 监控

借助 Spark 插件，您可以直接在 IDE 中监控 Spark 集群及提交的作业。

在本章中：

从头开始建立与 Spark 服务器的连接
除了手动创建连接外，如果您在上面运行了 Spark，您还可以快速从 AWS EMR 集群创建连接。
从 Zeppelin 笔记本建立到 Spark 的连接
查看作业图
筛选监控数据

连接到 Spark 服务器

在 Big Data Tools 窗口中，点击并选择 Spark。
在打开的 Big Data Tools 对话框中，指定连接参数：
- 名称：用于区分其他连接的连接名称。
- URL ：Spark History 服务器的 URL（通常运行在端口 18080）。
此外，您可以设置：
- 启用连接：如果希望禁用此连接，请取消选中复选框。默认情况下，新建的连接是启用的。
- 启用隧道：创建到远程主机的 SSH 隧道。如果目标服务器在一个私有网络中，但可以通过 SSH 连接到网络中的主机，这将非常有用。
  请选择复选框并指定 SSH 连接的配置（点击 ... 以创建新的 SSH 配置）。
- 启用 HTTP 基本身份验证：使用指定的用户名和密码进行 HTTP 认证连接。
- 代理：选择您是想使用 IDE 代理设置还是想指定自定义的代理设置。
填写设置后，点击测试连接以确保所有配置参数正确。然后点击确定。

使用运行中的作业从 Zeppelin 建立连接

如果您有 Zeppelin插件，您可以通过打开Zeppelin notebook中的一个Spark作业快速连接到Spark服务器。

在涉及 Spark 的 Zeppelin 笔记本中，运行一个段落。
点击打开作业链接。在打开的通知中，点击更多 | 创建连接链接。
如果您已经与运行作业的 Spark History server 建立了连接，请点击选择连接并从列表中选择它。
在打开的大数据工具对话框中，验证连接设置，然后点击测试连接。如果连接已成功建立，请点击确定以完成配置。

一旦您建立了与 Spark 服务器的连接， Spark 监控工具窗口就会出现。

Spark 监控：作业

您可以随时通过以下方式之一打开连接设置：

转到工具 | 大数据工具设置设置页面  Ctrl+Alt+S。
打开大数据工具工具窗口 (窗口 | 工具窗口 | Big Data Tools )，选择 Spark 连接，然后点击。
点击在 Spark 监控工具窗口的任何选项卡中。

当您在 Spark 监控工具窗口中选择一个应用程序时，您可以使用以下选项卡来监控数据：

信息：有关已提交应用程序的高级信息，例如 App id 或 Attempt id。
作业：应用程序任务的概述。点击一个作业以查看更多详细信息。请使用可视化选项卡查看作业 DAG。
阶段：各阶段的详细信息。
环境：环境和配置变量的值。
执行器：为应用程序启动的进程，用于运行任务并在其间将数据保留在内存或磁盘存储中。请使用日志选项卡查看执行器的标准输出和标准错误日志。
存储：持久化的 RDD 和 DataFrame。
SQL ：有关 SQL 查询执行的详细信息（如果应用程序使用）。

您还可以预览任务上的信息，发送到一个执行器的工作单位。

有关数据类型的更多信息，请参阅 Spark 文档。

从 DAG 图导航到源代码

DAG（有向无环图）表示 Spark 作业的逻辑执行计划。就像在 Spark UI 中一样，您可以可视化 Spark 作业的 DAG。使用 DataSpell 时，您还可以快速从 DAG 导航到源文件中的相应代码片段。

打开 Spark 监控工具窗口：窗口 | 工具窗口 | Spark。
选择一个应用并打开作业标签。
在可视化列中，点击显示。
这将在新的编辑器标签中打开作业可视化。
在图中，双击任意操作。

您将被重定向到源代码文件，对应的操作。

Spark DAG

筛选监控数据

在 Spark 监控工具窗口中，使用以下过滤器来筛选应用程序：
- 筛选器：键入应用名称或 id。
- 限制：更改显示应用程序的限制或选择全部以显示所有应用程序。
- 已启动：按开始时间筛选应用程序或选择任意。
- 已完成：按完成时间筛选应用程序或选择任意。
- ：仅显示正在运行或已完成的应用程序。
在“ 作业”、“ 阶段 ”和“ SQL ”选项卡中，您还可以使用“ ”按状态筛选数据。

在任何时候，您都可以点击在 Spark 监控工具窗口中以手动刷新监测数据。或者，您可以使用刷新按钮旁边的列表，在某个时间间隔内配置自动更新。

最后修改日期： 2025年 12月 16日