PyCharm 2025.3 Help

Databricks

Databricks 插件 允许您直接在 IDE 中连接到远程 Databricks 工作区。

使用 Databricks 插件,您可以:

先决条件

    连接到 Databricks 工作区

    要创建新的 Databricks 连接:

    1. 转到 视图 | 工具窗口 | Databricks 以打开 Databricks 工具窗口。

    2. 点击 新建连接新建连接。 将打开 大数据工具 对话框。

    您可以使用以下任一选项连接到您的 Databricks 工作区:

    通过配置文件连接

    1. 名称 字段中,输入连接名称,以便与其他连接区分。

    2. 如果在您的用户根目录中有 .databrickscfg 文件,将自动通过配置文件进行身份验证。 如果您有多个配置文件,可以从下拉菜单中选择配置文件。

    3. 如需编辑 .databrickscfg 文件,请点击 打开 .databrickscfg 文件打开 .databrickscfg 文件 ,在编辑器中打开该文件。

    4. 点击 重新加载 .databrickscfg 文件重新加载 .databrickscfg 文件 以重新加载已更改的文件。

    5. 点击 测试连接 以确保所有配置参数均正确。

    6. 点击 确定 以保存更改。

    通过配置文件连接到 Databricks

    通过 Databricks CLI 连接

    1. 名称 字段中,输入连接名称,以便与其他连接区分。

    2. URL 字段中,输入您的 Databricks 工作区的 URL。

    3. 如果未安装 Databricks CLI,PyCharm 将在首次尝试建立连接时安装它。

    4. 点击 测试连接 以确保所有配置参数均正确。

    5. 点击 确定 以保存更改。

    通过 Databricks CLI 连接到 Databricks

    通过 Azure CLI 连接

    1. 名称 字段中,输入连接名称,以便与其他连接区分。

    2. URL 字段中,输入您的 Databricks 工作区的 URL。

    3. 如果未安装 Azure CLI,请点击 安装 CLI 链接,并按照网站上的安装说明进行操作。

    4. 点击 测试连接 以确保所有配置参数均正确。

    5. 点击 确定 以保存更改。

    通过 Azure CLI 连接到 Databricks

    此外,您可以配置以下设置:

    • 启用连接 :如果您想禁用此连接,请取消选择。 默认情况下,新建的连接处于启用状态。

    • 按项目 :选择后仅为当前项目启用这些连接设置。 如果您希望此连接在其他项目中可见,请取消选择。

    运行并同步文件

    作为工作流运行

    在 Databricks 集群上运行工作流时,您的一系列任务或操作会在集群中的多台机器上按特定顺序执行。 工作流中的每个任务可能依赖于前一个任务的输出。

    1. 在编辑器中打开 .py 或 .ipynb 文件。

    2. 执行以下任一操作:

      • 在 Databricks 工具窗口中点击 作为工作流运行

      • 在编辑器中右键点击,然后从上下文菜单中选择 作为工作流运行

    在集群上运行

    在 Databricks 集群上运行作业或笔记本时,您的代码会发送到该集群,并在集群内的多台机器上执行。 这种执行方式有助于更快地进行处理和分析,尤其在处理海量数据时更为有利。

    1. 在编辑器中打开 .py 文件。

    2. 执行以下任一操作:

      • 在 Databricks 工具窗口中点击 在集群上运行

      • 在编辑器中右键点击,然后从上下文菜单中选择 在集群上运行

    同步项目文件

    您可以将项目文件与 Databricks 集群同步:

    1. 指定 Databricks 集群上用于同步文件的文件夹路径。

    2. 点击 开始同步

    将项目文件与 Databricks 集群同步
    最后修改日期: 2025年 12月 2日