Databricks
Databricks 插件允许您直接从 IDE 连接到远程 Databricks 工作区。
使用 Databricks 插件,您可以:
先决条件
确保 Databricks 插件已 安装并启用。
确保您拥有 Databricks 帐户。 要在 AWS 上使用您的 Databricks 帐户,您需要一个现有的 AWS 帐户。
连接到 Databricks 工作区
创建新的 Databricks 连接:
转到 查看 | 工具窗口 | Databricks 以打开 Databricks 工具窗口。
点击
新建连接。 大数据工具 对话框已打开。
您可以使用以下选项之一连接到您的 Databricks 工作区:
通过 Profile 连接
在 名称 字段中,输入连接的名称以区分其他连接。
如果您的用户根目录中有 .databrickscfg 文件,它将自动用于通过 Profile 进行身份验证。 如果您有多个 Profile,可以从下拉菜单中选择 Profile。
如果您想编辑 .databrickscfg 文件,请点击
打开 .databrickscfg 文件 以在编辑器中打开该文件。
点击
重新加载 .databrickscfg 文件 以重新加载更改后的文件。点击 测试连接 以确保所有配置参数正确。
点击 确定 以保存更改。

通过 Databricks CLI 连接
在 名称 字段中,输入连接的名称以区分其他连接。
在 URL 字段中,输入您的 Databricks 工作区的 URL。
如果您尚未安装 Databricks CLI,PyCharm 将在首次尝试建立连接时安装它。
点击 测试连接 以确保所有配置参数正确。
点击 确定 以保存更改。

通过 Azure CLI 连接
在 名称 字段中,输入连接的名称以区分其他连接。
在 URL 字段中,输入您的 Databricks 工作区的 URL。
如果您尚未安装 Azure CLI,请点击 安装 CLI 链接并按照网站上的安装说明进行操作。
点击 测试连接 以确保所有配置参数正确。
点击 确定 以保存更改。

此外,您可以配置以下设置:
启用连接 :如果您要禁用此连接,请取消选中。 默认情况下,新建的连接是启用的。
按项目 :选择仅对当前项目启用这些连接设置。 如果您希望此连接在其他项目中可见,请取消选中它。
运行并同步文件
作为工作流运行
当您在 Databricks 集群上运行工作流时,您的一系列任务或操作会按照特定顺序在集群中的多台机器上执行。 您的工作流中的每个任务可能依赖于前一个任务的输出。
在编辑器中打开一个 .py 或 .ipynb 文件。
请执行以下操作之一:
点击 Databricks 工具窗口中的 作为工作流运行。
在编辑器中右键点击,并从上下文菜单中选择 作为工作流运行。
在集群上运行
当您在 Databricks 集群上运行作业或笔记本时,您的代码会被发送到集群,并在集群中的多台机器上执行。 这种执行方式有助于更快的处理和分析,特别是在处理大量数据时尤为有益。
在编辑器中打开一个 .py 文件。
请执行以下操作之一:
点击 Databricks 工具窗口中的 在集群上运行。
在编辑器中右键点击,并从上下文菜单中选择 在集群上运行。
同步项目文件
您可以将您的项目文件与 Databricks 集群同步:
指定您希望与之同步文件的 Databricks 集群上的文件夹路径。
点击 开始同步。
