Ingestão de dados - ClickHouse Documentation

O ClickHouse se integra a diversas soluções de integração e transformação de dados. Para mais informações, confira as páginas abaixo:

Ferramenta de ingestão de dados	Descrição
Airbyte	Uma plataforma de integração de dados de código aberto. Permite criar pipelines de dados ELT e vem com mais de 140 conectores prontos para uso.
Apache Spark	Um mecanismo multilíngue para executar engenharia de dados, ciência de dados e machine learning em máquinas de nó único ou clusters.
Apache Flink	Ingestão e processamento de dados em tempo real no ClickHouse por meio da API DataStream do Flink, com suporte a gravações em lote.
Amazon Glue	Um serviço de integração de dados totalmente gerenciado e sem servidor fornecido pela Amazon Web Services (AWS), que simplifica o processo de descoberta, preparação e transformação de dados para análises, machine learning e desenvolvimento de aplicações.
Artie	Uma plataforma de streaming de dados em tempo real totalmente gerenciada que replica dados de produção no ClickHouse, viabilizando análises voltadas ao cliente, fluxos de trabalho operacionais e Agentic AI em produção.
Azure Synapse	Um serviço de analytics em nuvem totalmente gerenciado, fornecido pelo Microsoft Azure, que combina big data e armazenamento de dados para simplificar a integração, a transformação e a análise de dados em escala usando SQL, Apache Spark e pipelines de dados.
Azure Data Factory	Um serviço de integração de dados baseado em nuvem que permite criar, agendar e orquestrar fluxos de trabalho de dados em escala.
Apache Beam	Um modelo de programação unificado de código aberto que permite aos desenvolvedores definir e executar pipelines de processamento de dados tanto em lote quanto em fluxo contínuo (stream).
BladePipe	Uma ferramenta de integração de dados ponta a ponta em tempo real, com latência abaixo de um segundo, que impulsiona um fluxo de dados contínuo entre plataformas.
dbt	Permite que engenheiros de analytics transformem dados em seus data warehouses simplesmente escrevendo instruções SELECT.
dlt	Uma biblioteca de código aberto que você pode adicionar aos seus scripts Python para carregar dados de várias fontes de dados, muitas vezes desorganizadas, em conjuntos de dados ativos e bem estruturados.
Estuary	Uma plataforma de dados right-time que viabiliza pipelines ETL com latência de milissegundos e opções flexíveis de implantação.
Fivetran	Uma plataforma automatizada de movimentação de dados que move dados para fora, para dentro e entre suas plataformas de dados em nuvem.
NiFi	Um software de gerenciamento de fluxos de trabalho de código aberto projetado para automatizar o fluxo de dados entre sistemas de software.
Vector	Um pipeline de dados de observabilidade de alto desempenho que dá às organizações controle sobre seus dados de observabilidade.