URL(URL [,Format] [,CompressionMethod])
-
URL参数必须符合统一资源定位符的结构。指定的 URL 必须指向使用 HTTP 或 HTTPS 的服务器。获取服务器响应时,不需要额外的请求头。 -
Format必须是 ClickHouse 可在SELECT查询中使用的格式,并且在需要时也可用于INSERT。有关受支持格式的完整列表,请参阅 Formats。 如果未指定此参数,ClickHouse 会根据URL参数的后缀自动检测格式。如果URL参数的后缀与任何受支持的格式都不匹配,则创建表会失败。例如,对于引擎表达式URL('http://localhost/test.json'),将使用JSON格式。 -
CompressionMethod表示是否应压缩 HTTP 请求体。如果启用了压缩,URL 引擎发送的 HTTP 数据包会包含Content-Encoding请求头,以指示所使用的压缩方法。
URL 参数指定的远程 HTTP 端点支持相应的压缩算法。
支持的 CompressionMethod 必须是以下之一:
- gzip or gz
- deflate
- brotli or br
- lzma or xz
- zstd or zst
- lz4
- bz2
- snappy
- none
- auto
CompressionMethod,则默认为 auto。这意味着 ClickHouse 会根据 URL 参数的后缀自动检测压缩方法。如果后缀与上面列出的任一压缩方法匹配,则会应用相应的压缩;否则不会启用压缩。
例如,对于引擎表达式 URL('http://localhost/test.gzip'),将使用 gzip 压缩方法;而对于 URL('http://localhost/test.fr'),则不会启用压缩,因为后缀 fr 与上述任何压缩方法都不匹配。
用法
INSERT 和 SELECT 查询会分别转换为 POST 和 GET 请求。
要处理 POST 请求,远程服务器必须支持
分块传输编码。
你可以使用 max_http_get_redirects 设置来限制 HTTP GET 重定向的最大跳转次数。
示例
url_engine_table 表:
实现细节
- 读写可并行进行
- 不支持:
ALTER和SELECT...SAMPLE操作。- 索引。
- 复制。
虚拟列
_path—URL的路径。类型:LowCardinality(String)。_file—URL的资源名。类型:LowCardinality(String)。_size— 资源大小 (以字节为单位) 。类型:Nullable(UInt64)。如果大小未知,则值为NULL。_time— 文件的最后修改时间。类型:Nullable(DateTime)。如果时间未知,则值为NULL。_headers- HTTP 响应头。类型:Map(LowCardinality(String), LowCardinality(String))。
解析相对 URL
URL 引擎 中使用相对 URL。设置 url_base 后,传递给该 引擎 的 URL 会按照 RFC 3986 相对于它进行解析。有关解析规则的完整说明,请参见 url 表函数文档。
示例
存储设置
- engine_url_skip_empty_files - 允许在读取时跳过空文件。默认禁用。
- enable_url_encoding - 允许对 URI 中的 path 启用/禁用解码和编码。默认启用。
- url_base - 用于解析传递给引擎的相对 URL 的基础 URL。