PyCharm 2025.3 Help

Spark DataFrame 编码辅助

Spark 插件在您的 Python 代码中为 Apache Spark DataFrame 提供编码辅助。

可用列名补全

如果您创建一个 DataFrame 或从文件读取,PyCharm 将在访问 DataFrame 列时为您提供帮助,例如在选择或筛选 DataFrame 时。

PySpark 中的列名补全

检测未解析的列

如果您引用了 DataFrame 中不存在的列,PyCharm 会将其高亮显示,并建议将其替换为可用的列名之一。

您可以在 IDE 设置(Ctrl+Alt+S )的 编辑器 | 检查 | Spark | 未解析的列 下启用或禁用此检查。

PySpark 中的列名补全

获取架构

如果 PyCharm 可以访问 DataFrame 架构,则可使用列名补全及相应检查。 可以通过多种方式指定架构:

  • read 方法中直接指定列及其类型:

    df = (spark.read .schema("name STRING, value BIGINT, planet STRING") .parquet("aliens.parquet")) .parquet("aliens.parquet"))
  • 将架构指定为单独的变量,然后在 read 方法中使用:

    schema = StructType([ StructField("name", StringType(), False), StructField("value", LongType(), False), StructField("planet", StringType(), False), ]) df = spark.read.schema(schema).parquet("aliens.parquet")

如果您未通过上述任一方式指定架构,您可以使用专用内联提示从 Parquet 文件推断架构。 该文件可以位于本地或远程存储中。

从文件推断架构

  1. 在您的 Spark 代码中使用 read.parquet() 方法,例如:

    df = spark.read.parquet("/myfilepath")
  2. 点击 Choose schema 内联提示。

    为 DataFrame 选择架构
  3. 在打开的窗口中,选择可用于推断架构的文件。

    从所选文件推断的架构将作为内联提示显示在该方法旁边。 您可以将鼠标悬停其上以预览可用列及其类型。 您还可以点击它,使用 schema 方法插入架构,或选择其他架构。

    DataFrame 架构

您可以在 IDE 设置(Ctrl+Alt+S )的 编辑器 | 内联提示 | 其他 | Python | DataFrame 分析 下启用或禁用此内联提示。

最后修改日期: 2025年 12月 2日