使用 Data Wrangler
Data Wrangler 是一款简化数据清洗与准备的无代码工具。
它提供交互式用户界面,使您能够查看和分析数据,显示列统计信息和可视化,并自动生成 Python 代码。
打开 Data Wrangler
打开 Jupyter 笔记本。
运行代码单元格以创建一个
pandasDataFrame。 例如,运行包含以下代码的单元格:import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df在输出单元格的右上角,点击
更多操作,并在上下文菜单中选择
在 Data Wrangler 中编辑。 
将在新选项卡中打开:

使用 Data Wrangler 转换

转换 | 描述 | |
|---|---|---|
查找并替换 | 替换所选列中符合指定匹配模式的单元格 | |
筛选 | 根据指定条件和值筛选所选列中的行 | |
删除列 | 从表中删除所选列 | |
删除重复项 | 删除在所选列中具有重复值的所有行 | |
删除缺失值 | 删除所选列中包含缺失值的所有行 | |
删除包含 NaN 值的行 | 从表中删除包含空值的行 | |
删除行 | 从表中删除所选行 | |
转换字符串列 | 转换所选列中的字符串 您可以选择以下转换之一:
| |
对分类变量进行 One-hot 编码 | 将所选列中的分类数据拆分为多个新列,每个类别一个新列 | |
Min-Max 缩放 | 将所选数值列缩放到介于最小值与最大值之间的范围 | |
Z-Score 归一化 | 将所选列的数据转换为均值为 0、标准差为 1 的分布 | |
使用 IQR 检测离群点 | 使用四分位距在所选列中检测离群点 | |
降低偏度 | 通过对所选列中的数据应用对数或平方根变换来降低偏度 | |
使用 MAD 检测离群点 | 使用中位数绝对偏差在所选列中检测离群点 | |
使用欧氏距离检测离群点 | 使用欧氏距离在所选列中检测离群点 | |
填充缺失值 | 将所选列中缺失值的单元格替换为新值 | |
数值取整 | 将所选列中的数字舍入到指定的小数位数:
| |
拆分列 | 根据用户定义的分隔符将所选列拆分为多个列 | |
更改列类型 | 更改所选列的数据类型 | |
管理转换后的数据
您可以在您的 Jupyter 笔记本中创建包含生成的数据转换代码的新单元,将代码复制到剪贴板,或将转换后的数据集保存为新文件。
在 步骤 窗格的右上角,点击 导出。
在该窗格中,您可以查看应用于数据的更改历史。

从打开的下拉菜单中选择该选项。

示例:删除重复条目
常见的数据清洗任务之一是删除重复条目,以防分析结果产生偏差。
您可以使用 Data Wrangler 通过界面转换您的数据。 Data Wrangler 将自动生成去重所需的 Python 代码。
