Databricks
Databricks 插件 允许您直接在 IDE 中连接到远程 Databricks 工作区。
使用 Databricks 插件,您可以:
先决条件
请确保 Databricks 插件 已 安装并启用。
请确保您拥有 Databricks 帐户。 要在 AWS 上使用您的 Databricks 帐户,您需要现有的 AWS 帐户。
连接到 Databricks 工作区
要创建新的 Databricks 连接:
转到 视图 | 工具窗口 | Databricks 以打开 Databricks 工具窗口。
点击
新建连接。 将打开 大数据工具 对话框。
您可以使用以下任一选项连接到您的 Databricks 工作区:
通过配置文件连接
在 名称 字段中,输入连接名称,以便与其他连接区分。
如果在您的用户根目录中有 .databrickscfg 文件,将自动通过配置文件进行身份验证。 如果您有多个配置文件,可以从下拉菜单中选择配置文件。
如需编辑 .databrickscfg 文件,请点击
打开 .databrickscfg 文件 ,在编辑器中打开该文件。
点击
重新加载 .databrickscfg 文件 以重新加载已更改的文件。点击 测试连接 以确保所有配置参数均正确。
点击 确定 以保存更改。

通过 Databricks CLI 连接
在 名称 字段中,输入连接名称,以便与其他连接区分。
在 URL 字段中,输入您的 Databricks 工作区的 URL。
如果未安装 Databricks CLI,PyCharm 将在首次尝试建立连接时安装它。
点击 测试连接 以确保所有配置参数均正确。
点击 确定 以保存更改。

通过 Azure CLI 连接
在 名称 字段中,输入连接名称,以便与其他连接区分。
在 URL 字段中,输入您的 Databricks 工作区的 URL。
如果未安装 Azure CLI,请点击 安装 CLI 链接,并按照网站上的安装说明进行操作。
点击 测试连接 以确保所有配置参数均正确。
点击 确定 以保存更改。

此外,您可以配置以下设置:
启用连接 :如果您想禁用此连接,请取消选择。 默认情况下,新建的连接处于启用状态。
按项目 :选择后仅为当前项目启用这些连接设置。 如果您希望此连接在其他项目中可见,请取消选择。
运行并同步文件
作为工作流运行
在 Databricks 集群上运行工作流时,您的一系列任务或操作会在集群中的多台机器上按特定顺序执行。 工作流中的每个任务可能依赖于前一个任务的输出。
在编辑器中打开 .py 或 .ipynb 文件。
执行以下任一操作:
在 Databricks 工具窗口中点击 作为工作流运行。
在编辑器中右键点击,然后从上下文菜单中选择 作为工作流运行。
在集群上运行
在 Databricks 集群上运行作业或笔记本时,您的代码会发送到该集群,并在集群内的多台机器上执行。 这种执行方式有助于更快地进行处理和分析,尤其在处理海量数据时更为有利。
在编辑器中打开 .py 文件。
执行以下任一操作:
在 Databricks 工具窗口中点击 在集群上运行。
在编辑器中右键点击,然后从上下文菜单中选择 在集群上运行。
同步项目文件
您可以将项目文件与 Databricks 集群同步:
指定 Databricks 集群上用于同步文件的文件夹路径。
点击 开始同步。
