Formatos suportados
Funcionalidades
Ingestão única
Ingestão contínua
Ordem lexicográfica
file1, file2 e file3 serão ingeridos em sequência, mas, se um novo file 0 for adicionado ao bucket, ele será ignorado, porque o nome do arquivo não é lexicograficamente maior que o do último arquivo ingerido.
Nesse modo, o GCS ClickPipe faz a carga inicial de todos os arquivos no caminho especificado e, em seguida, verifica periodicamente se há novos arquivos em um intervalo configurável (por padrão, 30 segundos). Não é possível iniciar a ingestão a partir de um arquivo específico ou de um ponto específico no tempo — o ClickPipes sempre carregará todos os arquivos no caminho especificado.
Qualquer ordem
O modo não ordenado não é compatível com buckets públicos. Ele exige autenticação com Service Account e uma assinatura do Google Cloud Pub/Sub conectada ao bucket.
OBJECT_FINALIZE via a assinatura do Pub/Sub que correspondam ao caminho especificado. Qualquer mensagem referente a um arquivo já visto, a um arquivo que não corresponda ao caminho ou a um evento de outro tipo será ignorada. Não é possível iniciar a ingestão a partir de um arquivo específico ou de um ponto específico no tempo — o ClickPipes sempre carregará todos os arquivos no caminho selecionado.
Correspondência de padrões de arquivos
data-2024-*.csv em vez de *.csv).
Padrões compatíveis
| Padrão | Descrição | Exemplo | Correspondências |
|---|---|---|---|
? | Corresponde a exatamente um caractere (excluindo /) | data-?.csv | data-1.csv, data-a.csv, data-x.csv |
* | Corresponde a zero ou mais caracteres (excluindo /) | data-*.csv | data-1.csv, data-001.csv, data-report.csv, data-.csv |
** Recursivo | Corresponde a zero ou mais caracteres (incluindo /). Permite percorrer diretórios recursivamente. | logs/**/error.log | logs/error.log, logs/2024/error.log, logs/2024/01/error.log |
https://bucket.s3.amazonaws.com/folder/*.csvhttps://bucket.s3.amazonaws.com/logs/**/data.jsonhttps://bucket.s3.amazonaws.com/file-?.parquethttps://bucket.s3.amazonaws.com/data-2024-*.csv.gz
Padrões sem suporte
| Padrão | Descrição | Exemplo | Alternativas |
|---|---|---|---|
{abc,def} | Expansão com chaves — alternativas | {logs,data}/file.csv | Crie ClickPipes separados para cada path. |
{N..M} | Expansão de intervalo numérico | file-{1..100}.csv | Use file-*.csv ou file-?.csv. |
https://bucket.s3.amazonaws.com/{documents-01,documents-02}.jsonhttps://bucket.s3.amazonaws.com/file-{1..100}.csvhttps://bucket.s3.amazonaws.com/{logs,metrics}/data.parquet
Semântica de exactly-once
Colunas virtuais
_file na lista de mapeamento de colunas. A coluna virtual _file contém o nome do arquivo do objeto de origem, que pode ser usado para consultar quais arquivos já foram processados.
Controle de acesso
Permissões
GCS bucket
storage.objects.list e `storage.objects.get, que permitem ao ClickPipes listar e recuperar objetos no bucket especificado.
Assinatura do Pub/Sub
roles/pubsub.subscriber— para receber e confirmar o recebimento de mensagens.roles/pubsub.viewer— para obter os metadados da assinatura.
Autenticação
Conta de serviço
Credenciais HMAC
Credentials em Método de autenticação ao configurar a conexão do ClickPipe. Em seguida, informe a chave de acesso (por exemplo, GOOGTS7C7FUP3AIRVJTE2BCDKINBTES3HC2GY5CBFJDCQ2SYHV6A6XXVTJFSA) e a chave secreta (por exemplo, bGoa+V7g/yqDXvKRqq+JTFn4uQZbPiQJo4pf9RzJ) nos campos Access key e Secret key, respectivamente.
Siga este guia para criar uma conta de serviço com uma chave HMAC.
Acesso de rede
-
Para controle de acesso baseado em IP, as regras de filtragem de IP do seu GCS bucket devem permitir os IPs estáticos da região do serviço ClickPipes listados aqui, bem como os IPs estáticos do serviço ClickHouse Cloud. Para obter os IPs estáticos da sua região do ClickHouse Cloud, abra um terminal e execute:
Configurações avançadas
| Configuração | Valor padrão | Descrição |
|---|---|---|
Max insert bytes | 10GB | Número de bytes a processar em um único lote de inserção. |
Max file count | 100 | Número máximo de arquivos a processar em um único lote de inserção. |
Max threads | auto(3) | Número máximo de threads simultâneas para o processamento de arquivos. |
Max insert threads | 1 | Número máximo de threads de inserção simultâneas para o processamento de arquivos. |
Min insert block size bytes | 1GB | Tamanho mínimo, em bytes, do bloco que pode ser inserido em uma tabela. |
Max download threads | 4 | Número máximo de threads de download simultâneas. |
Object storage polling interval | 30s | Configura o tempo máximo de espera antes de inserir dados no cluster do ClickHouse. |
Parallel distributed insert select | 2 | Configuração de insert select distribuído em paralelo. |
Parallel view processing | false | Se deve habilitar o envio para views anexadas em paralelo em vez de sequencialmente. |
Use cluster function | true | Se os arquivos devem ser processados em paralelo em vários nós. |
Escalonamento
Limitações conhecidas
Tamanho do arquivo
Compatibilidade
https://storage.googleapis.com/ (em vez de gs://) e de chaves HMAC para autenticação.