跳转到主要内容
Apache Spark 是一个多语言引擎,可在单节点机器或集群上执行数据工程、数据科学和机器学习工作。 连接 Apache Spark 和 ClickHouse 主要有两种方式:
  1. Spark Connector - Spark Connector 实现了 DataSourceV2,并提供自己的 Catalog 管理功能。目前,这是集成 ClickHouse 与 Spark 的推荐方式。
  2. Spark JDBC - 使用 JDBC 数据源 来集成 Spark 和 ClickHouse。

这两种方案都已成功通过测试,并与多种 API 完全兼容,包括 Java、Scala、PySpark 和 Spark SQL。

Spark 运行时环境

标准 Spark 运行时环境

Spark Connector 可在与上游 Apache Spark 运行时高度一致的环境中直接使用,例如 Amazon EMR 或基于 Kubernetes 的 Spark 部署环境。

托管 Spark 平台

AWS GlueDatabricks 等平台会引入额外的抽象层以及特定环境下的行为差异。 虽然核心集成方式不变,但它们可能需要专门的配置和设置步骤。详情请参阅相应的文档页面。
最后修改于 2026年6月10日