集成 Apache Spark 与 ClickHouse - ClickHouse Documentation

Apache Spark 是一个多语言引擎，可在单节点机器或集群上执行数据工程、数据科学和机器学习工作。连接 Apache Spark 和 ClickHouse 主要有两种方式：

Spark Connector - Spark Connector 实现了 DataSourceV2，并提供自己的 Catalog 管理功能。目前，这是集成 ClickHouse 与 Spark 的推荐方式。
Spark JDBC - 使用 JDBC 数据源来集成 Spark 和 ClickHouse。

这两种方案都已成功通过测试，并与多种 API 完全兼容，包括 Java、Scala、PySpark 和 Spark SQL。

Spark 运行时环境

标准 Spark 运行时环境

Spark Connector 可在与上游 Apache Spark 运行时高度一致的环境中直接使用，例如 Amazon EMR 或基于 Kubernetes 的 Spark 部署环境。

托管 Spark 平台

AWS Glue 和 Databricks 等平台会引入额外的抽象层以及特定环境下的行为差异。虽然核心集成方式不变，但它们可能需要专门的配置和设置步骤。详情请参阅相应的文档页面。

最后修改于 2026年6月10日

Spark 原生连接器Apache Spark 与 ClickHouse 简介