自定义 Spark 集群
在 Spark Submit 运行配置中,您可以使用 AWS EMR 或 Dataproc 作为远程服务器来运行您的应用程序。 除了这两个选项外,您还可以配置自定义的 Spark 集群:设置一个 SSH 配置以连接到远程服务器,并可选地配置到 Spark History 服务器 和 SFTP connection 的连接。
创建自定义 Spark 集群
在 Big Data Tools 窗口中,点击
并选择 自定义 Spark 集群。
在打开的窗口的第一步中,选择 SSH 配置并点击 下一个。 此 SSH 配置将用于连接安装了 spark-submit 的服务器。

如果您想在 IDE 中 监控 Spark 作业 ,请在向导的第二步中指定与 Spark 历史服务器建立连接的参数。 指定您的自定义参数或使用默认设置,这将通过 SSH tunneling 创建与
localhost:18080的连接。否则,请选择 我不需要连接到 Spark History server。

如果您需要与 Spark 集群建立 SFTP 连接,请在向导的第三步中指定其设置。
否则,请选择 我不需要连接到 Driver Node 的 SFTP。

如果您已设置 Spark History 和 SFTP 连接, 它们将会在 自定义 Spark 集群 中的 Big Data Tools 工具窗口中可用。

现在,您可以在 Spark Submit run configuration 中选择此集群作为远程目标。 当您启动此运行配置时,您可以通过点击应用输出中的链接,在 服务 工具窗口中打开 Spark 作业。
最后修改日期: 2025年 9月 26日