Pular para o conteúdo principal
Esta é uma extensão da hudi função de tabela. Permite processar arquivos de tabelas Apache Hudi no Amazon S3 em paralelo com vários nós em um cluster especificado. No iniciador, ela cria uma conexão com todos os nós do cluster e distribui dinamicamente cada arquivo. No nó worker, ela consulta o iniciador sobre a próxima tarefa a ser processada e a processa. Isso se repete até que todas as tarefas sejam concluídas.

Sintaxe

hudiCluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])

Argumentos

ArgumentoDescrição
cluster_nameNome de um cluster usado para montar um conjunto de endereços e parâmetros de conexão para servidores remotos e locais.
urlURL do bucket com o caminho para uma tabela Hudi existente no S3.
aws_access_key_id, aws_secret_access_keyCredenciais de longo prazo para o usuário da conta AWS. Você pode usá-las para autenticar suas requisições. Esses parâmetros são opcionais. Se as credenciais não forem especificadas, serão usadas as da configuração do ClickHouse. Para mais informações, consulte Usando o S3 para armazenamento de dados.
formatO formato do arquivo.
structureEstrutura da tabela. Formato 'column1_name column1_type, column2_name column2_type, ...'.
compressionO parâmetro é opcional. Valores compatíveis: none, gzip/gz, brotli/br, xz/LZMA, zstd/zst. Por padrão, a compressão será detectada automaticamente pela extensão do arquivo.
extra_credentialsO parâmetro é opcional. Usado para passar um role_arn para controle de acesso baseado em funções no ClickHouse Cloud. Consulte S3 seguro para ver as etapas de configuração.

Valor retornado

Uma tabela com a estrutura especificada para ler dados do cluster a partir da tabela Hudi especificada no S3.

Colunas Virtuais

  • _path — Caminho do arquivo. Tipo: LowCardinality(String).
  • _file — Nome do arquivo. Tipo: LowCardinality(String).
  • _size — Tamanho do arquivo em bytes. Tipo: Nullable(UInt64). Se o tamanho do arquivo for desconhecido, o valor é NULL.
  • _time — Data e hora da última modificação do arquivo. Tipo: Nullable(DateTime). Se esse horário for desconhecido, o valor é NULL.
  • _etag — O etag do arquivo. Tipo: LowCardinality(String). Se o etag for desconhecido, o valor é NULL.
Última modificação em 10 de junho de 2026