Spark Submit 运行配置

通过 Spark 插件，您可以在 Spark clusters 上执行应用程序。 DataSpell 提供运行/调试配置以运行 Spark 的 bin 目录中的 spark-submit 脚本。您可以在本地或使用 SSH 配置执行应用程序。

安装 Spark 插件

此功能依赖 Spark 插件，您需要安装并启用。

按 Ctrl+Alt+S 打开设置，然后选择 Plugins。
打开 Marketplace 选项卡，找到 Spark插件，然后点击安装（如果出现提示，请重新启动IDE）。

使用 Spark Submit 配置运行应用程序

转到运行 | 编辑配置。或者，按 Alt+Shift+F10 ，然后 0。
点击添加新配置按钮( )，然后选择 Spark Submit | Cluster。
Spark Submit | Local 和 Spark Submit | SSH 配置在 DataSpell 2023.3 中已弃用。
请输入运行配置名称。
在远程目标列表中，执行以下操作之一：
- 如果您已经连接到 AWS EMR 集群，您可以将您的应用程序上传到上面。
- 如果您有 SSH 配置，您可以使用它们将应用程序提交到自定义远程服务器。
- 否则，请点击添加 EMR 连接或添加 SSH 连接。
在应用程序字段中，单击并选择要提交的应用程序。
在类字段中，输入应用程序主类的名称。
若要检查生成的 spark-submit 命令，请向下滚动到结果提交命令部分。
您还可以指定可选参数：
- 运行参数：运行应用程序的参数。
- 在 Spark 配置下设置：
  - 集群管理器：选择在集群上运行应用的管理方法。 SparkContext 可以连接到几种类型的集群管理器（如 Spark 自己的独立集群管理器、Mesos 或 YARN）。详情请参见 Cluster Mode Overview。
  - 部署模式：群集或客户端。
  - 目标上传目录：在远程主机上上传可执行文件的目录。
  - Spark 主目录：Spark 安装目录的路径。
  - 配置：任意 Spark 配置属性，格式为 key=value。
  - 属性文件：具有 Spark 属性的文件路径。
- 在依赖项下，选择应用程序执行所需的文件和归档文件（ jars ）。
- 在 Maven 下，选择 Maven 特定的依赖项。您可以添加仓库或从执行上下文中排除某些包。
- 在驱动程序下，选择 Spark Driver 设置，例如用于驱动程序进程的内存量。在集群模式下，还可以指定核心数。
- 在执行器下，选择执行器设置，例如内存大小和核心数量。
- Kerberos ：与 Kerberos 建立安全连接的设置。
- Shell 选项：选择是否要在 Spark submit 之前执行任何脚本。
  输入 bash 路径并指定要执行的脚本。建议提供脚本的绝对路径。
  如果您希望以交互模式启动脚本，请选中交互式复选框。您还可以指定环境变量，例如 USER=jetbrains。
- 高级提交选项:
  - 代理用户：已启用用于 Spark 连接代理的用户名。
  - 驱动程序 Java 选项、驱动程序库路径和驱动程序类路径：添加额外的驱动程序选项。如需更多信息，请参阅 Runtime Environment。
  - 归档文件：要解压缩到每个执行程序的工作目录中的存档的逗号分隔列表。
  - 打印额外的调试输出：运行 spark-submit 并使用 --verbose 选项来打印调试信息。
点击确定以保存配置。然后从已创建的配置列表中选择配置并点击。
在运行工具窗口中检查执行结果。

最后修改日期： 2025年 12月 16日