跳转到主要内容
这是 deltaLake 表函数的扩展。 它允许在指定集群中由多个节点并行处理 Amazon S3 中 Delta Lake 表的文件。发起节点会与集群中的所有节点建立连接,并动态分发各个文件。工作线程所在节点会向发起节点请求下一个要处理的任务并执行处理。此过程会持续重复,直到所有任务都处理完成。

语法

deltaLakeCluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])
deltaLakeCluster(cluster_name, named_collection[, option=value [,..]])

deltaLakeS3Cluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])
deltaLakeS3Cluster(cluster_name, named_collection[, option=value [,..]])

deltaLakeAzureCluster(cluster_name, connection_string|storage_account_url, container_name, blobpath, [,account_name], [,account_key] [,format] [,compression_method])
deltaLakeAzureCluster(cluster_name, named_collection[, option=value [,..]])
deltaLakeS3ClusterdeltaLakeCluster 的别名,二者都用于 S3。

参数

  • cluster_name — 用于构建远程和本地服务器的地址集合及连接参数的集群名称。
  • 其他所有参数的说明与等效的 deltaLake 表函数中的参数说明一致。
  • 可选的 extra_credentials 参数可用于传递 role_arn,以便在 ClickHouse Cloud 中实现基于角色的访问。有关配置步骤,请参见 Secure S3

返回值

一个具有指定结构的表,用于从集群中 S3 上指定的 Delta Lake 表读取数据。

虚拟列

  • _path — 文件路径。类型:LowCardinality(String)
  • _file — 文件名。类型:LowCardinality(String)
  • _size — 文件大小 (单位为字节) 。类型:Nullable(UInt64)。如果文件大小未知,则值为 NULL
  • _time — 文件的最后修改时间。类型:Nullable(DateTime)。如果时间未知,则值为 NULL
  • _etag — 文件的 ETag。类型:LowCardinality(String)。如果 ETag 未知,则值为 NULL
最后修改于 2026年6月10日