DataSpell 2025.2 Help

设置环境并加载数据

本教程将引导您在 DataSpell 中完成数据分析的第一步。您将学习如何在 DataSpell 中配置工作环境、加载数据集并创建 Jupyter notebook。 您将学习如何在 DataSpell 中设置工作环境、加载数据集并创建一个 Jupyter 笔记本。

先决条件

在开始之前,请确保:

  • 您已安装 DataSpell。 本教程是在 DataSpell 2025.2 中创建的。

  • 您的计算机上已安装 Python 3.6 或更新版本。 如果您使用的是 macOS 或 Linux,您的计算机已安装 Python。 您可以从 python.org 获取 Python。

运行 IDE

我们从运行 DataSpell 开始。 IDE 将使用默认工作区启动。

DataSpell 默认工作区

准备数据

现在是获取研究数据的时候了。 在本教程中,我们将使用 "2003-2016 年航空延误" 数据集,由 Priank Ravichandar 提供,并根据 CC0 1.0 授权。 此数据集包含 2003-2016 年美国机场航班延误和取消的信息。

我们将加载数据,对其进行分析,并找出哪个机场的航班延误和取消比例最高。

将数据附加到工作区

  1. kaggle.com 下载数据集,使用右上角的 下载 链接。

  2. 从归档文件中提取 airlines.csv

  3. Data 工具窗口中,点击 附加文件 并选择 airlines.csv 文件。

    “数据”工具窗口中的“附加文件”按钮
  4. 现在 airlines.csv 显示在 Data 工具窗口中。 双击该文件将在编辑器中打开:

    在编辑器中查看 airlines.csv

接下来,我们将创建一个 Jupyter notebook

创建 Jupyter notebook

  1. 个文件 工具窗口中,选择要在其中创建 notebook 的目录。 在本例中,它是 workspace。 然后执行以下任一操作:

    • 右键点击目录,并在上下文菜单中选择 新建

    • 按下 Alt+Insert

  2. 创建 列表中选择 Jupyter Notebook

    添加新文件
  3. 在打开的对话框中输入文件名。 例如, my_notebook

DataSpell 将创建一个扩展名为 *.ipynb 的 notebook 文档。 该文档将显示为对应的 Jupyter Notebook 图标 图标。

新创建的笔记本包含一个空单元格:

一个包含一个空单元格的笔记本

将数据导入 notebook

现在我们可以将 airlines.csv 导入至 notebook。

要导入数据,请执行以下任一操作:

  • 在工具栏中点击 数据导入 并在 个文件 列表中选择 airlines.csv ,以创建新的数据导入单元格。

  • airlines.csv 文件拖入 notebook。

一个包含一个空单元格的笔记本

如果出现缺少 pandas 库的错误,点击 安装软件包 按钮并重新运行该单元格:

需要安装 Pandas 包

如果您看到 未为项目配置 Python 解释器 警告,请点击任一链接以配置解释器:

  • 点击 安装 Miniconda 链接安装 miniconda。

  • 点击 配置 Python 解释器 为您的工作区配置 Python 解释器。 有关解释器的更多信息,请参见 创建新的虚拟环境

警告:未配置 Python 解释器

运行 notebook

接下来,让我们运行 notebook。 有几种方法可以做到这一点:

  • 要执行笔记本中的所有代码单元,请单击 运行全部 位于 笔记本工具栏

  • 要仅运行当前单元格,请按 Ctrl+Enter

    当每次执行一个单元格时,请注意代码依赖关系。 如果某个单元格依赖于另一个单元格中的某些代码,则应先执行该单元格。

输出显示在导入单元格下方:

编辑器窗口中单元格的输出

您可以滚动输出单元格。 DataSpell 将动态加载并显示数据。

摘要

恭喜您完成本基本数据分析教程! 以下是您完成的内容:

  • 下载了数据集并为研究做好了准备

  • 创建了一个笔记本并首次运行了它

下一步,学习如何使用 matplotlib 可视化数据

最后修改日期: 2025年 9月 27日