PyCharm 2025.3 Help

使用 Data Wrangler

Data Wrangler 是一款简化数据清洗与准备的无代码工具。

它提供交互式用户界面,使您能够查看和分析数据,显示列统计信息和可视化,并自动生成 Python 代码。

打开 Data Wrangler

  1. 打开 Jupyter 笔记本

  2. 运行代码单元格以创建一个 pandas DataFrame。 例如,运行包含以下代码的单元格:

    import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df
  3. 在输出单元格的右上角,点击 更多操作,并在上下文菜单中选择 在 Data Wrangler 中编辑

    点击 Edit in Data Wrangler
  4. Data Wrangler 将在新选项卡中打开:

    Data Wrangler 选项卡已打开

使用 Data Wrangler 转换

Data Wrangler 选项卡中的转换

转换

描述

查找并替换

查找并替换

替换所选列中符合指定匹配模式的单元格

排序和筛选

筛选

根据指定条件和值筛选所选列中的行

清理与删除

删除列

从表中删除所选列

删除重复项

删除在所选列中具有重复值的所有行

删除缺失值

删除所选列中包含缺失值的所有行

删除包含 NaN 值的行

从表中删除包含空值的行

删除行

从表中删除所选行

创建附加列

转换字符串列

转换所选列中的字符串 您可以选择以下转换之一:

  • 将首字符大写

  • 将文本转换为小写

  • 将文本转换为大写

对分类变量进行 One-hot 编码

将所选列中的分类数据拆分为多个新列,每个类别一个新列

归一化与缩放

Min-Max 缩放

将所选数值列缩放到介于最小值与最大值之间的范围

Z-Score 归一化

将所选列的数据转换为均值为 0、标准差为 1 的分布

处理异常值或偏态分布

使用 IQR 检测离群点

使用四分位距在所选列中检测离群点

降低偏度

通过对所选列中的数据应用对数或平方根变换来降低偏度

使用 MAD 检测离群点

使用中位数绝对偏差在所选列中检测离群点

使用欧氏距离检测离群点

使用欧氏距离在所选列中检测离群点

其他

填充缺失值

将所选列中缺失值的单元格替换为新值

数值取整

将所选列中的数字舍入到指定的小数位数:

  • Round:将数字舍入到最接近的整数。

    如果数字的小数部分为 0.5 或更高,则向上舍入。 如果小于 0.5,则向下舍入。

  • Floor:将数字向下舍入到最接近的整数。

  • Ceil:将数字向上舍入到最接近的整数。

拆分列

根据用户定义的分隔符将所选列拆分为多个列

更改列类型

更改所选列的数据类型

管理转换后的数据

您可以在您的 Jupyter 笔记本中创建包含生成的数据转换代码的新单元,将代码复制到剪贴板,或将转换后的数据集保存为新文件。

  1. 步骤 窗格的右上角,点击 导出

    在该窗格中,您可以查看应用于数据的更改历史。

    点击导出
  2. 从打开的下拉菜单中选择该选项。

    选择该选项

示例:删除重复条目

常见的数据清洗任务之一是删除重复条目,以防分析结果产生偏差。

您可以使用 Data Wrangler 通过界面转换您的数据。 Data Wrangler 将自动生成去重所需的 Python 代码。

  1. 打开Data Wrangler

  2. 转换 列表中选择 删除重复项

  3. 下拉列表中选择列。

  4. 检查生成的代码。

    检查由 Data Wrangler 生成的代码
  5. 点击 应用

  6. 如果您希望将生成的代码作为新的代码单元添加到您的笔记本、将代码复制到剪贴板,或将转换后的数据保存为文件,请点击 导出

最后修改日期: 2025年 12月 2日