Spark DataFrame 编码辅助

Spark 插件在您的 Python 代码中为 Apache Spark DataFrame 提供编码辅助。

可用列名补全

如果您创建一个 DataFrame 或从文件读取，PyCharm 将在访问 DataFrame 列时为您提供帮助，例如在选择或筛选 DataFrame 时。

如果您引用了 DataFrame 中不存在的列，PyCharm 会将其高亮显示，并建议将其替换为可用的列名之一。

您可以在 IDE 设置（Ctrl+Alt+S ）的编辑器 | 检查 | Spark | 未解析的列下启用或禁用此检查。

如果 PyCharm 可以访问 DataFrame 架构，则可使用列名补全及相应检查。可以通过多种方式指定架构：

在 read 方法中直接指定列及其类型：
df = (spark.read .schema("name STRING, value BIGINT, planet STRING") .parquet("aliens.parquet")) .parquet("aliens.parquet"))
将架构指定为单独的变量，然后在 read 方法中使用：
schema = StructType([ StructField("name", StringType(), False), StructField("value", LongType(), False), StructField("planet", StringType(), False), ]) df = spark.read.schema(schema).parquet("aliens.parquet")

如果您未通过上述任一方式指定架构，您可以使用专用内联提示从 Parquet 文件推断架构。该文件可以位于本地或远程存储中。

在您的 Spark 代码中使用 read.parquet() 方法，例如：
df = spark.read.parquet("/myfilepath")
点击 Choose schema 内联提示。
在打开的窗口中，选择可用于推断架构的文件。
您可以连接到由 Remote File Systems 插件支持的任意存储。如果您想指定位于您计算机上的文件，配置本地连接。
从所选文件推断的架构将作为内联提示显示在该方法旁边。您可以将鼠标悬停其上以预览可用列及其类型。您还可以点击它，使用 schema 方法插入架构，或选择其他架构。

您可以在 IDE 设置（Ctrl+Alt+S ）的编辑器 | 内联提示 | 其他 | Python | DataFrame 分析下启用或禁用此内联提示。

最后修改日期： 2025年 12月 2日