Principais recursos
- Engine SQL OLAP em processo - Com tecnologia ClickHouse, não é necessário instalar o servidor ClickHouse
- Vários formatos de dados - Suporte de entrada e saída para Parquet, CSV, JSON, Arrow, ORC e mais de 70 outros formatos
- Cópia de dados minimizada - De C++ para Python com python memoryview
- Integração avançada com o ecossistema Python - Suporte nativo a Pandas, Arrow e DB API 2.0, integrando-se perfeitamente aos fluxos de trabalho de ciência de dados existentes
- Zero dependências - Não é necessário instalar bancos de dados externos
- API DataStore - API compatível com Pandas, com otimização SQL e suporte a mais de 630 métodos
DataStore: API compatível com pandas
Migração em uma linha
Destaques de desempenho
| Operação | pandas | DataStore | Aceleração |
|---|---|---|---|
| Contagem por GroupBy | 347ms | 17ms | 19.93x |
| Pipeline complexo | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
Funcionalidades do DataStore
- Mais de 630 métodos de API - 209 métodos de DataFrame do pandas, mais de 185 métodos de accessor
- Avaliação preguiçosa - As operações são compiladas em SQL otimizado
- Pushdown SQL - Filtros e agregações são executados na fonte de dados
- Fontes de dados universais - Leitura de arquivos, S3, bancos de dados e lagos de dados
Quais linguagens têm suporte no chDB?
Como começar?
- Se você estiver usando Go, Rust, NodeJS, Bun ou C and C++, consulte as páginas correspondentes de cada linguagem.
- Se você estiver usando Python, consulte o guia do desenvolvedor para começar ou o curso sob demanda do chDB.
Para usuários do pandas
- Guia rápido do DataStore - Instalação e migração em uma linha
- Migração a partir do pandas - Guia de migração passo a passo
- Cookbook do pandas - Padrões comuns
- Principais diferenças - Diferenças importantes em relação ao pandas
- Guia de desempenho - Dicas de otimização
Referência da API do DataStore
- Métodos de fábrica - Criar a partir de arquivos, bancos de dados e armazenamento na nuvem
- Construção de consultas - Operações em estilo SQL
- Compatibilidade com Pandas - 209 métodos compatíveis
- Acessores - .str, .dt, .arr, .json, .url, .ip, .geo
- Configuração - Engine, logging, profiling
- Depuração - explain(), profiling, logging
Guias da API SQL
- Referência da API do Python - Documentação completa da API SQL
- JupySQL
- Consultando o Pandas
- Consultando o Apache Arrow
- Consultando dados no S3
- Consultando arquivos Parquet
- Consultando um ClickHouse remoto
- Usando o banco de dados clickhouse-local
Um vídeo introdutório
Benchmarks de desempenho
- ClickBench de motores embutidos - Comparação de desempenho da API SQL
- DataFrame Benchmark - Comparação de motores DataFrame
- DataStore vs Pandas - Até 20x mais rápido que o Pandas em operações comuns
Sobre o chDB
- Leia a história completa sobre o surgimento do projeto chDB no blog
- Saiba mais sobre o chDB e seus casos de uso no Blog
- Faça o curso on-demand sobre chDB
- Conheça o chDB no seu navegador usando exemplos do codapi
- Veja mais exemplos em (https://github.com/chdb-io/chdb/tree/main/examples)