DataSpell 2025.2 Help

Spark 监控

借助 Spark 插件,您可以直接在 IDE 中监控 Spark 集群及提交的作业。

在本章中:

  1. 从头开始建立与 Spark 服务器的连接

  2. 从 Zeppelin 笔记本建立到 Spark 的连接

  3. 查看作业图

  4. 筛选监控数据

连接到 Spark 服务器

  1. Big Data Tools 窗口中,点击 添加连接 并选择 Spark

  2. 在打开的 Big Data Tools 对话框中,指定连接参数:

    配置 Spark 连接
    • 名称 :用于区分其他连接的连接名称。

    • URL :Spark History 服务器的 URL(通常运行在端口 18080)。

    此外,您可以设置:

    • 启用连接 :如果希望禁用此连接,请取消选中复选框。 默认情况下,新建的连接是启用的。

    • 启用隧道 :创建到远程主机的 SSH 隧道。 如果目标服务器在一个私有网络中,但可以通过 SSH 连接到网络中的主机,这将非常有用。

      请选择复选框并指定 SSH 连接的配置(点击 ... 以创建新的 SSH 配置)。

    • 启用 HTTP 基本身份验证 :使用指定的用户名和密码进行 HTTP 认证连接。

    • 代理 :选择您是想使用 IDE 代理设置还是想指定自定义的代理设置。

  3. 填写设置后,点击 测试连接 以确保所有配置参数正确。 然后点击 确定

使用运行中的作业从 Zeppelin 建立连接

如果您有 Zeppelin插件,您可以通过打开Zeppelin notebook中的一个Spark作业快速连接到Spark服务器。

  1. 在涉及 Spark 的 Zeppelin 笔记本中,运行一个段落。

  2. 点击 打开作业 链接。 在打开的通知中,点击 更多 | 创建连接 链接。

    创建与 Spark 服务器的连接

    如果您已经与运行作业的 Spark History server 建立了连接,请点击 选择连接 并从列表中选择它。

  3. 在打开的 大数据工具 对话框中,验证连接设置,然后点击 测试连接。 如果连接已成功建立,请点击 确定 以完成配置。

一旦您建立了与 Spark 服务器的连接, Spark 监控 工具窗口就会出现。

Spark 监控:作业

您可以随时通过以下方式之一打开连接设置:

  • 转到 工具 | 大数据工具设置 设置页面  Ctrl+Alt+S

  • 打开 大数据工具 工具窗口 (窗口 | 工具窗口 | Big Data Tools ),选择 Spark 连接,然后点击 连接设置

  • 点击 连接设置Spark 监控 工具窗口的任何选项卡中。

当您在 Spark 监控 工具窗口中选择一个应用程序时,您可以使用以下选项卡来监控数据:

  • 信息 :有关已提交应用程序的高级信息,例如 App id 或 Attempt id。

  • 作业 :应用程序任务的概述。 点击一个作业以查看更多详细信息。 请使用 可视化 选项卡 查看作业 DAG

  • 阶段 :各阶段的详细信息。

  • 环境 :环境和配置变量的值。

  • 执行器 :为应用程序启动的进程,用于运行任务并在其间将数据保留在内存或磁盘存储中。 请使用 日志 选项卡查看执行器的标准输出和标准错误日志。

  • 存储 :持久化的 RDD 和 DataFrame。

  • SQL :有关 SQL 查询执行的详细信息(如果应用程序使用)。

您还可以预览 任务 上的信息,发送到一个执行器的工作单位。

有关数据类型的更多信息,请参阅 Spark 文档

从 DAG 图导航到源代码

DAG(有向无环图)表示 Spark 作业的逻辑执行计划。 就像在 Spark UI 中一样,您可以可视化 Spark 作业的 DAG。 使用 DataSpell 时,您还可以快速从 DAG 导航到源文件中的相应代码片段。

  1. 打开 Spark 监控 工具窗口: 窗口 | 工具窗口 | Spark

  2. 选择一个应用并打开 作业 标签。

  3. 可视化 列中,点击 显示

    这将在新的编辑器标签中打开作业可视化。

  4. 在图中,双击任意操作。

您将被重定向到源代码文件,对应的操作。

Spark DAG

筛选监控数据

  • Spark 监控 工具窗口中,使用以下过滤器来筛选应用程序:

    • 筛选器 :键入应用名称或 id。

    • 限制 :更改显示应用程序的限制或选择 全部 以显示所有应用程序。

    • 已启动 :按开始时间筛选应用程序或选择 任意

    • 已完成 :按完成时间筛选应用程序或选择 任意

    • 筛选 :仅显示正在运行或已完成的应用程序。

    作业阶段
  • 在“ 作业”、“ 阶段 ”和“ SQL ”选项卡中,您还可以使用“ 筛选 ”按状态筛选数据。

在任何时候,您都可以点击 刷新Spark 监控 工具窗口中以手动刷新监测数据。 或者,您可以使用 刷新 按钮旁边的列表,在某个时间间隔内配置自动更新。

最后修改日期: 2025年 9月 27日