PyCharm 2025.3 Help

Amazon EMR

PyCharm 允许您在 Amazon EMR 数据处理平台中监控集群和节点。

连接到 AWS EMR 服务器

  1. Big Data Tools 窗口中,点击 添加连接 并选择 AWS EMR

  2. 在打开的 Big Data Tools 对话框中,指定连接参数:

    配置 AWS EMR 连接
    • 名称 :连接名称,用于与其他连接区分。

    • 区域 :选择用于获取集群的区域。

    • 身份验证类型 允许您选择身份验证方法:

      • 默认凭证提供程序链 :使用默认提供程序链中的凭据。 有关该链的更多信息,请参阅 使用默认凭据提供程序链

      • 凭证文件中的配置文件 :从您的 凭证 文件中选择配置文件。

      • 显式访问密钥和秘密访问密钥 :手动输入您的凭据。

    选择 默认凭证提供程序链凭证文件中的配置文件 选项后,您可以点击 打开凭证 以定位凭据文件所在的目录。 如果您使用默认位置,Linux 或 macOS 上通常为 ~/.aws/credentials ,Windows 上为 C:\Users\<USERNAME>\.aws\credentials 。 或者,如果您选择了 使用自定义配置 ,则可以是您的自定义位置。

    可选,您可以设置:

    • 按项目 :选择仅为当前项目启用这些连接设置。 如果希望此连接在其他项目中可见,请清除此复选框。

    • 启用连接 :如果要禁用此连接,请清除此复选框。 默认情况下,新建的连接处于启用状态。

    • HTTP 代理 :选择是否使用 IDE 代理设置 ,或指定自定义代理设置。

    • 点击 打开 SSH 密钥设置 链接以创建使用私钥文件进行身份验证的 SSH 连接。 您需要在 EMR SSH 密钥库 对话框中指定 Amazon EC2 密钥对私钥

  3. 填写完设置后,点击 测试连接 以确保所有配置参数正确。 然后点击 确定

您可以随时通过以下方式之一打开连接设置:

  • 转到 工具 | Big Data Tools 设置 设置页面&#xa0; Ctrl+Alt+S

  • 点击 设置 ,位于 AWS EMR 工具窗口的工具栏上。

与服务器建立连接后,将显示 AWS EMR 工具窗口。 您可以在此处通过输入名称,并选择其状态或终止时间来筛选集群。

筛选集群

AWS EMR 工具窗口中选择一个集群后,您可以使用以下选项卡监控集群:

集群信息

此选项卡显示所选集群的详细信息。 您可以在 筛选器 字段中输入名称或 ID 来筛选集群。

获取更多信息

  • 您可以在 Web 界面中预览集群详细信息。 点击 浏览集群详细信息打开子网主安全组核心和任务安全组

  • 点击 打开 SFTP 连接 以与目标服务器建立 SFTP 连接,然后在您的文件系统中指定配置文件的路径。

  • 您可以预览所选集群的 EMR 日志。 点击 打开 EMR 日志 ,可在 Big Data Tools 工具窗口中的专用 远程文件系统查看器 打开日志。

  • 若要查看所选集群配置的 JSON 表示,请点击 查看 JSON 表示显示为JSON)。

集群步骤

此选项卡显示应用步骤、其 ID 以及执行状态。 您可以在 筛选器 字段中输入名称或 ID 来筛选步骤。

选择一个步骤,可在工具窗口右侧预览其详细信息,包括主类名、参数以及日志文件夹的链接。

管理步骤

  • 点击 浏览步骤详细信息 可在 Web 界面中预览该应用步骤。

  • 您可以添加更多不同类型的步骤。 点击 更多步骤 并选择要添加的步骤类型。 然后,指定其参数。

    向步骤添加应用
  • 点击 克隆步骤 以复制所选步骤。

  • 要查看所选步骤的 JSON 表示,请点击 查看 JSON 表示

集群实例

此选项卡显示所选集群的实例详细信息。 您可以在 搜索 字段中开始键入任一实例名称,它将被选中。

查看实例

  • 点击 浏览集群详细信息 可在 Web 界面中预览实例详细信息。 您也可以点击 管理实例参数的可见性 以显示或隐藏实例的特定参数。

  • 点击 打开 SFTP 连接 以与目标服务器建立 SFTP 连接,然后在您的文件系统中指定配置文件的路径。

  • 要查看所选集群配置的 JSON 表示,请点击 查看 JSON 表示

集群应用

此选项卡显示在所选集群上运行的应用。 点击 浏览应用详细信息 可在默认浏览器中预览集群详细信息。

打开 Amazon EMR 应用

PyCharm 允许您打开安装在 Amazon EMR 集群上的应用。 您可以直接从 AWS EMR 工具窗口在默认浏览器中将其打开。 此外,如果某个工具由 Big Data Tools 插件 (例如 Hadoop、HDFS、Hive、Spark 或 Zeppelin)支持,您可以在 PyCharm 中为其创建连接。 在这种情况下,将在您的 IDE 中打开专用的工具窗口。 例如,如果您连接到 Zeppelin 服务器,您可以在 PyCharm 编辑器中打开并编辑 Zeppelin 笔记。 与应用的连接基于 SSH 隧道,因此您需要提供 在集群中配置的 SSH 密钥

  1. AWS EMR 工具窗口中,选择您的 Amazon EMR 集群。

  2. 打开 应用程序 选项卡,然后在 名称 列中点击应用的链接。

  3. 对于由 Big Data Tools 插件 支持的应用,选择打开位置:

    • 在浏览器中打开 在默认浏览器中打开。

    • 创建连接 在您的 IDE 中创建与该应用的连接。 新的连接将显示在 Big Data Tools 工具窗口中。

  4. 如果这是您首次尝试连接到某个应用,系统会提示您创建连接。 点击 创建 ,并在打开的对话框中选择您的 SSH 密钥文件,例如 mykey.pem

    加载您的 SSH 密钥后,您只需在 应用程序 选项卡中点击其名称,即可连接到此集群的应用。

  5. 在打开的 创建连接 窗口中,选择以下选项之一:

    • 使用默认值 如果您希望立即使用默认设置建立连接。

    • 自定义 如果您希望在连接之前更改某些设置,例如提供您的 Zeppelin 用户名和密码。

最后修改日期: 2025年 12月 2日