使用 Data Wrangler

Data Wrangler 是一个简化数据清理和准备的无代码工具。

它提供了一个交互式用户界面，允许您查看和分析数据，显示列统计信息和可视化内容，并自动生成 Python 代码。

打开 Data Wrangler

打开一个 Jupyter notebook。
运行代码单元格以创建 pandas dataframe。例如，运行包含以下代码的单元格：
import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df
在输出单元格的右上角，单击 “更多操作”，然后从上下文菜单中选择在 Data Wrangler 中编辑。
Data Wrangler 将在新选项卡中打开：

使用 Data Wrangler 转换

转换	描述
查找并替换
查找并替换	用指定的匹配模式替换选定列中的单元格
排序和筛选
筛选	根据指定的条件和值过滤选定列中的行目前不支持字符串值
清理和移除
删除列	从表中删除选定的列
删除重复项	删除选定列中具有重复值的所有行
删除缺失值	从选定列中删除所有缺失值的行
删除包含 NaN 值的行	从表中删除包含空值的行
删除行	从表中删除选定的行
创建附加列
转换包含字符串的列	转换选定列中的字符串。您可以选择以下转换之一：将首字符大写将文本转换为小写将文本转换为大写
对分类变量进行独热编码	将选定列中的分类数据拆分为每个类别的新列
标准化和缩放
最小-最大缩放	将选定的数值列重新缩放到最小值和最大值之间
Z 分数归一化	将选定列中的数据转换为均值为 0、标准差为 1 的分布
处理异常值或偏态分布
使用四分位距检测异常值	使用四分位距检测选定列中的异常值
减少偏度	通过对选定列中的数据应用对数或平方根转换来减少偏度
使用中位数绝对偏差检测异常值	使用中位数绝对偏差检测选定列中的异常值
使用欧几里得距离检测异常值	使用欧几里得距离检测选定列中的异常值
其他
填充缺失值	用新值替换选定列中缺失值的单元格
数值取整	将选定列中的数字四舍五入到指定的小数位数：四舍五入：将数字四舍五入到最接近的整数。如果数字的小数部分为 0.5 或更高，则向上取整。如果小于 0.5，则向下取整。向下取整：将数字向下取整到最接近的整数向上取整：将数字向上取整到最接近的整数
拆分列	根据用户定义的分隔符将选定列拆分为多个列
更改列的类型	更改所选列的数据类型

管理已转换的数据

您可以在 Jupyter Notebook 中创建一个新单元格，包含生成的数据转换代码，将代码复制到剪贴板，或将转换后的数据集保存为新文件。

单击导出，位于步骤窗格的右上角。
在窗格中，您可以查看应用于数据的更改历史记录。
从打开的下拉菜单中选择选项。

示例：删除重复条目

常见的数据清理任务之一是删除重复条目，以防止分析结果产生偏差。

您可以使用 Data Wrangler 通过界面转换数据。 Data Wrangler 将自动生成所需的 Python 代码以删除重复项。

打开Data Wrangler。
从转换的列表中选择删除重复项。
从列下拉列表中选择列。
检查生成的代码。
点击 Apply。
单击导出，若要在笔记本中添加一个包含生成代码的新代码单元格，将代码复制到剪贴板，或将转换后的数据保存为文件。

最后修改日期： 2025年 12月 16日