Spark DataFrame 编码辅助
Spark 插件在您的 Python 代码中为 Apache Spark DataFrame 提供编码辅助。
可用列名补全
如果您创建一个 DataFrame 或从文件读取,PyCharm 将在访问 DataFrame 列时为您提供帮助,例如在选择或筛选 DataFrame 时。

检测未解析的列
如果您引用了 DataFrame 中不存在的列,PyCharm 会将其高亮显示,并建议将其替换为可用的列名之一。
您可以在 IDE 设置(Ctrl+Alt+S )的 下启用或禁用此检查。

获取架构
如果 PyCharm 可以访问 DataFrame 架构,则可使用列名补全及相应检查。 可以通过多种方式指定架构:
在
read方法中直接指定列及其类型:df = (spark.read .schema("name STRING, value BIGINT, planet STRING") .parquet("aliens.parquet")) .parquet("aliens.parquet"))将架构指定为单独的变量,然后在
read方法中使用:schema = StructType([ StructField("name", StringType(), False), StructField("value", LongType(), False), StructField("planet", StringType(), False), ]) df = spark.read.schema(schema).parquet("aliens.parquet")
如果您未通过上述任一方式指定架构,您可以使用专用内联提示从 Parquet 文件推断架构。 该文件可以位于本地或远程存储中。
从文件推断架构
在您的 Spark 代码中使用
read.parquet()方法,例如:df = spark.read.parquet("/myfilepath")点击
Choose schema内联提示。
在打开的窗口中,选择可用于推断架构的文件。
从所选文件推断的架构将作为内联提示显示在该方法旁边。 您可以将鼠标悬停其上以预览可用列及其类型。 您还可以点击它,使用
schema方法插入架构,或选择其他架构。
您可以在 IDE 设置(Ctrl+Alt+S )的 下启用或禁用此内联提示。
最后修改日期: 2025年 12月 2日