PyCharm 2025.2 Help

使用 Data Wrangler

Data Wrangler 是一个简化数据清理和准备的无代码工具。

它提供了一个交互式用户界面,允许您查看和分析数据,显示列统计信息和可视化内容,并自动生成 Python 代码。

打开 Data Wrangler

  1. 打开一个 Jupyter notebook

  2. 运行代码单元以创建一个 pandas dataframe。 例如,运行包含以下代码的单元:

    import pandas as pd # Data data = { 'Name': ['John', 'Anna', 'Peter', 'Linda', 'Dina', 'Kate', 'Tom', 'Emily'], 'Age': [22, 78, 22, 30, 45, 30, 35, 40], 'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female', 'Male', 'Female'], 'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'Philadelphia', 'San Antonio', 'San Diego'], 'Occupation': ['Engineer', 'Doctor', 'Teacher', 'Nurse', 'Architect', 'Lawyer', 'Accountant', 'Scientist'] } # Create a DataFrame df = pd.DataFrame(data) # Display the DataFrame df
  3. 在输出单元的右上角,点击 更多操作,然后在上下文菜单中选择 在 Data Wrangler 中编辑

    单击 Data Wrangler 中的编辑
  4. Data Wrangler 将在新选项卡中打开:

    Data Wrangler 选项卡已打开

使用 Data Wrangler 转换

Data Wrangler 选项卡中的 Data Wrangler 转换

转换

描述

查找并替换

查找并替换

用指定的匹配模式替换选定列中的单元格

排序和筛选

过滤器

根据指定的条件和值过滤选定列中的行

清理和移除

删除列

从表中删除选定的列

删除重复项

删除选定列中具有重复值的所有行

删除缺失值

从选定列中删除所有缺失值的行

删除包含 NaN 值的行

从表中删除包含空值的行

删除行

从表中删除选定的行

创建附加列

转换包含字符串的列

转换选定列中的字符串。 您可以选择以下转换之一:

  • 将首字符大写

  • 将文本转换为小写

  • 将文本转换为大写

对分类变量进行独热编码

将选定列中的分类数据拆分为每个类别的新列

标准化和缩放

最小-最大缩放

将选定的数值列重新缩放到最小值和最大值之间

Z 分数归一化

将选定列中的数据转换为均值为 0、标准差为 1 的分布

处理异常值或偏态分布

使用四分位距检测异常值

使用四分位距检测选定列中的异常值

减少偏度

通过对选定列中的数据应用对数或平方根转换来减少偏度

使用中位数绝对偏差检测异常值

使用中位数绝对偏差检测选定列中的异常值

使用欧几里得距离检测异常值

使用欧几里得距离检测选定列中的异常值

其他

填充缺失值

用新值替换选定列中缺失值的单元格

数值取整

将选定列中的数字四舍五入到指定的小数位数:

  • 四舍五入:将数字四舍五入到最接近的整数。

    如果数字的小数部分为 0.5 或更高,则向上取整。 如果小于 0.5,则向下取整。

  • 向下取整:将数字向下取整到最接近的整数

  • 向上取整:将数字向上取整到最接近的整数

拆分列

根据用户定义的分隔符将选定列拆分为多个列

更改列的类型

更改所选列的数据类型

管理已转换的数据

您可以在 Jupyter Notebook 中创建一个新单元格,包含生成的数据转换代码,将代码复制到剪贴板,或将转换后的数据集保存为新文件。

  1. 单击 导出 ,位于 步骤 窗格的右上角。

    在窗格中,您可以查看应用于数据的更改历史记录。

    单击导出
  2. 从打开的下拉菜单中选择选项。

    选择选项

示例:删除重复条目

常见的数据清理任务之一是删除重复条目,以防止分析结果产生偏差。

您可以使用 Data Wrangler 通过界面转换数据。 Data Wrangler 将自动生成所需的 Python 代码以删除重复项。

  1. 打开Data Wrangler

  2. 转换 的列表中选择 删除重复项

  3. 下拉列表中选择列。

  4. 检查生成的代码。

    检查由 Data Wrangler 生成的代码
  5. 点击 应用

  6. 单击 导出 ,若要在笔记本中添加一个包含生成代码的新代码单元格,将代码复制到剪贴板,或将转换后的数据保存为文件。

最后修改日期: 2025年 9月 26日