DataSpell 2025.2 Help

处理数据文件

一旦您与远程存储建立连接,您就可以处理数据文件。 通过 Remote File Systems 插件,您可以管理存储桶、执行基本文件操作、快速查找文件并导航到文件等。

您还可以以表格形式预览大型结构化文件(Parquet、ORC、Avro 和 CSV)。 此功能由 Big Data File Viewer 提供,且会自动随 远程文件系统 插件安装。

管理服务器目录

  1. 展开服务器节点以预览其结构。

  2. 右键点击目录以打开上下文菜单。

    在 Big Data Tools 工具窗口中的上下文菜单

    您可以复制、粘贴、重命名该目录、更改其位置、复制其路径并添加新文件和目录。 选择 从磁盘上传 以向目录中添加更多文件。 您还可以将目录及其文件保存在本地驱动器上。

  3. 要快速创建新存储桶、文件、目录或连接,请按 Alt+Insert

    创建新

Big Data Tools 工具窗口可以让您快速定位存储中的文件和目录。 如果您有很多嵌套目录,并且不希望在查找文件时点击并展开每个目录,这将非常有用。 相反,您可以开始键入它的路径,然后让 DataSpell 显示您的可用文件并自动完成路径。

  1. 选择一个存储连接,然后点击 查找图标 工具窗口顶部的 Big Data Tools 或按 Ctrl+F。 您可以选择特定的 bucket 或目录,以便在其中查找文件。

  2. 在中导航 窗口中,开始输入文件或目录的路径。 按 Tab 以自动完成路径。 或者您可以输入 bucket 名称以快速找到它。

    在窗口中导航
  3. 按下 Enter

这将定位到 Big Data Tools 工具窗口中选择的文件。

管理数据文件

  1. 扩展目标目录并选择一个文件。

  2. 右键点击文件以打开上下文菜单。

    用于处理数据文件的上下文菜单
  3. 您可以复制、粘贴、重命名文件,复制其路径,更改其位置或删除它。

  4. 若要简要预览如 CSV、Parquet、ORC 或 Avro 等结构化文件的详细信息,请在编辑器或 Big Data Tools 工具窗口中展开它。 您应该能够看到这些列及其类型。

    扩展数据文件

    请从上下文菜单中选择 显示信息 以获取有关该文件的更多详细信息:

    文件信息
  5. 若要查看文件,请双击它或从上下文菜单中选择 预览 命令。 文件将在编辑器中打开。 您不能 编辑它 ,但可以将其作为表格或文本预览:

    csv 文件的表格视图
    CSV文件的文本视图

    在表格视图中,您可以操作表格元素。 右键点击以打开上下文菜单,然后选择命令以复制原始数据或列,或将整个表格复制到剪贴板或文件中。

    表格特定命令

    您还可以通过点击列标题来对列中的数据进行排序。

    当您打开 .parquet 文件时,插件只显示文件内容的第一部分。 当您处理非常大的文件时,这尤其有用。

在编辑器中查看文件

  1. 要在编辑器的单独选项卡中打开任何存储或目录,请在 大数据工具 工具窗口中选择项目,然后点击 在编辑器中打开按钮

    在编辑器中打开目录
  2. 选定的目录将会在编辑器的单独标签中打开。

    预览目录

    您可以与在 大数据工具 工具窗口中打开的服务器和目录交换文件。 使用查看器工具栏图标复制、粘贴和剪切文件。

  3. 您可以自定义存储的视觉外观:

    • 点击 文件信息 以管理文件信息详情的可见性。

    • 点击 显示和隐藏列图标 排除视图中的任何列。 默认情况下,所有列都会在查看器中显示。

  4. 点击 刷新 以更新所选目录的内容。

请使用 更多操作 访问其他命令。

拖放文件

使用 DataSpell,您可以轻松地在不同的远程文件系统之间或同一存储中,通过将文件拖动到所需的存储桶、容器或目录来复制和移动文件。 您还可以通过将文件从 Project 工具窗口拖到编辑器来快速将文件从本地文件系统上传到远程文件系统,文件可以在编辑器或 大数据工具 工具窗口中打开。

  1. 将文件拖动到所需的 bucket、container 或目录中

  2. 在打开的窗口中,确认文件名和目标目录。

    拖动文件到存储设备

当您在同一连接内拖动文件时,DataSpell 会从原始位置移除该文件。 当您将文件从项目或一个连接拖动到另一个连接时,DataSpell 会创建该文件的副本。

编辑文件

一旦与远程存储建立连接,您就可以编辑此存储中的文本文件,但 Zeppelin 笔记本和分隔符分隔的文件(如 CSV)除外。

  1. 双击文件以在编辑器中打开。

  2. 修改文件。 在文件顶部,图标变得可用,允许您:

    • 显示差异 (“ Diff ” 图标)

    • 将文件内容恢复到打开时的初始状态(还原 图标)

    • 从服务器获取最新的文件更改(重新加载图标

    • 请将您的文件更改提交至服务器 (保存图标)

    编辑远程文件

查看文件版本

版本控制使您可以在存储中拥有同一对象的多个变体。 如果为存储桶启用了版本控制,您可以直接在 DataSpell 中查看对象的版本。 您还可以上传、下载、删除、恢复和比较特定版本。

  1. 大数据工具 工具窗口中,选择一个存储并点击 在编辑器中打开按钮 以在编辑器中打开它。

  2. 展开启用了版本控制的存储桶,并选择存储桶中的一个文件。

  3. 详细信息 窗格中,打开 版本 选项卡。

此选项卡显示所选文件的所有可用版本。

版本选项卡

当您选择一个版本时,以下图标将变为可用:

  • 上传 从您的本地驱动器上传该文件的新版本。

  • 下载 下载所选版本的文件。

  • 删除 删除所选文件版本。

  • 恢复 恢复文件的选定版本。

  • 显示差异 显示所选文件版本与上一个版本的差异(或者,您可以选择两个版本来显示它们之间的差异)。

创建一个新的 bucket

  1. 要将一个新的 bucket 添加到数据存储中,请在 大数据工具 工具窗口中右键点击存储连接,并从上下文菜单中选择 创建 Bucket

  2. 请指定新的 bucket 名称,然后点击 确定 以完成任务。

筛选存储桶列表

如果您只想处理部分存储而不是整个存储,您可以筛选要在 大数据工具 工具窗口和 编辑器中显示的buckets(或 Microsoft Azure 中的containers)。

您可以指定自定义路径到存储桶和目录,或按名称筛选存储桶。 您可以在配置新连接时执行此操作,或者您可以调整之前配置的连接设置。

  1. 大数据工具 工具窗口中,选择一个服务器并点击窗口工具栏上的 连接设置

  2. 选择筛选 bucket 的方式:

    • 选择 自定义根 ,并在 根目录 字段中指定存储桶的名称或存储桶中目录的路径。 您可以使用逗号分隔指定多个名称或路径。

    • 选择 帐户中的所有存储桶 (或 帐户中的所有容器 适用于 Azure)。 然后您可以使用 bucket 过滤器只显示具有特定名称的 bucket。

    • 对于 AWS S3 连接,您还可以选择 仅限所选区域的 buckets 从特定区域获取 bucket。 对于其他存储,bucket 总是基于为连接选择的区域进行过滤。

    筛选存储桶列表

如果服务器连接已丢失,相应的图标将显示服务器的断开状态 服务器连接丢失

断开连接的服务器

点击 刷新连接 重新建立与服务器的连接。

最后修改日期: 2025年 9月 27日