Spark 监控
借助 Spark 插件,您可以直接在 IDE 中监控 Spark 集群及提交的作业。
在本章中:
连接到 Spark 服务器
在 Big Data Tools 窗口中,点击
并选择 Spark。
在打开的 Big Data Tools 对话框中,指定连接参数:

名称 :用于区分其他连接的连接名称。
URL :Spark History 服务器的 URL(通常运行在端口 18080)。
此外,您可以设置:
启用连接 :如果希望禁用此连接,请取消选中复选框。 默认情况下,新建的连接是启用的。
启用隧道 :创建到远程主机的 SSH 隧道。 如果目标服务器在一个私有网络中,但可以通过 SSH 连接到网络中的主机,这将非常有用。
请选择复选框并指定 SSH 连接的配置(点击 ... 以创建新的 SSH 配置)。
启用 HTTP 基本身份验证 :使用指定的用户名和密码进行 HTTP 认证连接。
代理 :选择您是想使用 IDE 代理设置还是想指定自定义的代理设置。
填写设置后,点击 测试连接 以确保所有配置参数正确。 然后点击 确定。
使用运行中的作业从 Zeppelin 建立连接
如果您有 Zeppelin插件,您可以通过打开Zeppelin notebook中的一个Spark作业快速连接到Spark服务器。
在涉及 Spark 的 Zeppelin 笔记本中,运行一个段落。
点击 打开作业 链接。 在打开的通知中,点击 链接。

如果您已经与运行作业的 Spark History server 建立了连接,请点击 选择连接 并从列表中选择它。
在打开的 大数据工具 对话框中,验证连接设置,然后点击 测试连接。 如果连接已成功建立,请点击 确定 以完成配置。
一旦您建立了与 Spark 服务器的连接, Spark 监控 工具窗口就会出现。

您可以随时通过以下方式之一打开连接设置:
转到 工具 | 大数据工具设置 设置页面  Ctrl+Alt+S。
打开 大数据工具 工具窗口 ( ),选择 Spark 连接,然后点击
。
点击
在 Spark 监控 工具窗口的任何选项卡中。
当您在 Spark 监控 工具窗口中选择一个应用程序时,您可以使用以下选项卡来监控数据:
信息 :有关已提交应用程序的高级信息,例如 App id 或 Attempt id。
作业 :应用程序任务的概述。 点击一个作业以查看更多详细信息。 请使用 可视化 选项卡 查看作业 DAG。
阶段 :各阶段的详细信息。
环境 :环境和配置变量的值。
执行器 :为应用程序启动的进程,用于运行任务并在其间将数据保留在内存或磁盘存储中。 请使用 日志 选项卡查看执行器的标准输出和标准错误日志。
存储 :持久化的 RDD 和 DataFrame。
SQL :有关 SQL 查询执行的详细信息(如果应用程序使用)。
您还可以预览 任务 上的信息,发送到一个执行器的工作单位。
有关数据类型的更多信息,请参阅 Spark 文档。
从 DAG 图导航到源代码
DAG(有向无环图)表示 Spark 作业的逻辑执行计划。 就像在 Spark UI 中一样,您可以可视化 Spark 作业的 DAG。 使用 DataSpell 时,您还可以快速从 DAG 导航到源文件中的相应代码片段。
打开 Spark 监控 工具窗口: 。
选择一个应用并打开 作业 标签。
在 可视化 列中,点击 显示。
这将在新的编辑器标签中打开作业可视化。
在图中,双击任意操作。
您将被重定向到源代码文件,对应的操作。

筛选监控数据
在 Spark 监控 工具窗口中,使用以下过滤器来筛选应用程序:
筛选器 :键入应用名称或 id。
限制 :更改显示应用程序的限制或选择 全部 以显示所有应用程序。
已启动 :按开始时间筛选应用程序或选择 任意。
已完成 :按完成时间筛选应用程序或选择 任意。
:仅显示正在运行或已完成的应用程序。

在“ 作业”、“ 阶段 ”和“ SQL ”选项卡中,您还可以使用“
”按状态筛选数据。
在任何时候,您都可以点击 在 Spark 监控 工具窗口中以手动刷新监测数据。 或者,您可以使用 刷新 按钮旁边的列表,在某个时间间隔内配置自动更新。