使用 Data Wrangler

Data Wrangler 是一款简化数据清洗与准备的无代码工具。

它提供交互式用户界面，使您能够查看和分析数据，显示列统计信息和可视化，并自动生成 Python 代码。

打开 Data Wrangler

打开 Jupyter 笔记本。
运行代码单元格以创建一个 pandas DataFrame。例如，运行包含以下代码的单元格：
import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df
在输出单元格的右上角，点击更多操作，并在上下文菜单中选择在 Data Wrangler 中编辑。
Data Wrangler 将在新选项卡中打开：

使用 Data Wrangler 转换

转换	描述
查找并替换
查找并替换	替换所选列中符合指定匹配模式的单元格
排序和筛选
过滤	根据指定条件和值筛选所选列中的行当前不支持字符串值
清理与删除
删除列	从表中删除所选列
删除重复项	删除在所选列中具有重复值的所有行
删除缺失值	删除所选列中包含缺失值的所有行
删除包含 NaN 值的行	从表中删除包含空值的行
删除行	从表中删除所选行
创建附加列
转换字符串列	转换所选列中的字符串您可以选择以下转换之一：将首字符大写将文本转换为小写将文本转换为大写
对分类变量进行 One-hot 编码	将所选列中的分类数据拆分为多个新列，每个类别一个新列
归一化与缩放
Min-Max 缩放	将所选数值列缩放到介于最小值与最大值之间的范围
Z-Score 归一化	将所选列的数据转换为均值为 0、标准差为 1 的分布
处理异常值或偏态分布
使用 IQR 检测离群点	使用四分位距在所选列中检测离群点
降低偏度	通过对所选列中的数据应用对数或平方根变换来降低偏度
使用 MAD 检测离群点	使用中位数绝对偏差在所选列中检测离群点
使用欧氏距离检测离群点	使用欧氏距离在所选列中检测离群点
其他
填充缺失值	将所选列中缺失值的单元格替换为新值
数值取整	将所选列中的数字舍入到指定的小数位数： Round：将数字舍入到最接近的整数。如果数字的小数部分为 0.5 或更高，则向上舍入。如果小于 0.5，则向下舍入。 Floor：将数字向下舍入到最接近的整数。 Ceil：将数字向上舍入到最接近的整数。
拆分列	根据用户定义的分隔符将所选列拆分为多个列
更改列类型	更改所选列的数据类型

管理转换后的数据

您可以在您的 Jupyter 笔记本中创建包含生成的数据转换代码的新单元，将代码复制到剪贴板，或将转换后的数据集保存为新文件。

在步骤窗格的右上角，点击导出。
在该窗格中，您可以查看应用于数据的更改历史。
从打开的下拉菜单中选择该选项。

示例：删除重复条目

常见的数据清洗任务之一是删除重复条目，以防分析结果产生偏差。

您可以使用 Data Wrangler 通过界面转换您的数据。 Data Wrangler 将自动生成去重所需的 Python 代码。

打开Data Wrangler。
从转换列表中选择删除重复项。
从列下拉列表中选择列。
检查生成的代码。
单击 Apply。
如果您希望将生成的代码作为新的代码单元添加到您的笔记本、将代码复制到剪贴板，或将转换后的数据保存为文件，请点击导出。

2026年 7月 14日