使用 Data Wrangler
Data Wrangler 是一个简化数据清理和准备的无代码工具。
它提供了一个交互式用户界面,允许您查看和分析数据,显示列统计信息和可视化内容,并自动生成 Python 代码。
打开 Data Wrangler
打开一个 Jupyter notebook。
运行代码单元格以创建
pandasdataframe。 例如,运行包含以下代码的单元格:import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df在输出单元格的右上角,单击
“更多操作”,然后从上下文菜单中选择
在 Data Wrangler 中编辑。 
将在新选项卡中打开:

使用 Data Wrangler 转换

转换 | 描述 | |
|---|---|---|
查找并替换 | 用指定的匹配模式替换选定列中的单元格 | |
筛选 | 根据指定的条件和值过滤选定列中的行 | |
删除列 | 从表中删除选定的列 | |
删除重复项 | 删除选定列中具有重复值的所有行 | |
删除缺失值 | 从选定列中删除所有缺失值的行 | |
删除包含 NaN 值的行 | 从表中删除包含空值的行 | |
删除行 | 从表中删除选定的行 | |
转换包含字符串的列 | 转换选定列中的字符串。 您可以选择以下转换之一:
| |
对分类变量进行独热编码 | 将选定列中的分类数据拆分为每个类别的新列 | |
最小-最大缩放 | 将选定的数值列重新缩放到最小值和最大值之间 | |
Z 分数归一化 | 将选定列中的数据转换为均值为 0、标准差为 1 的分布 | |
使用四分位距检测异常值 | 使用四分位距检测选定列中的异常值 | |
减少偏度 | 通过对选定列中的数据应用对数或平方根转换来减少偏度 | |
使用中位数绝对偏差检测异常值 | 使用中位数绝对偏差检测选定列中的异常值 | |
使用欧几里得距离检测异常值 | 使用欧几里得距离检测选定列中的异常值 | |
填充缺失值 | 用新值替换选定列中缺失值的单元格 | |
数值取整 | 将选定列中的数字四舍五入到指定的小数位数:
| |
拆分列 | 根据用户定义的分隔符将选定列拆分为多个列 | |
更改列的类型 | 更改所选列的数据类型 | |
管理已转换的数据
您可以在 Jupyter Notebook 中创建一个新单元格,包含生成的数据转换代码,将代码复制到剪贴板,或将转换后的数据集保存为新文件。
单击 导出 ,位于 步骤 窗格的右上角。
在窗格中,您可以查看应用于数据的更改历史记录。

从打开的下拉菜单中选择选项。

示例:删除重复条目
常见的数据清理任务之一是删除重复条目,以防止分析结果产生偏差。
您可以使用 Data Wrangler 通过界面转换数据。 Data Wrangler 将自动生成所需的 Python 代码以删除重复项。
