Início rápido do DataStore - ClickHouse Documentation

Coloque o DataStore em funcionamento em minutos. Este guia aborda a instalação, a migração a partir do pandas e o uso básico.

Instalação

Instale o chDB com o pip:

pip install "chdb>=4.0"

Para dependências opcionais:

# Para suporte a DataFrame do pandas
pip install "chdb[pandas]>=4.0"

# Para suporte ao PyArrow
pip install "chdb[arrow]>=4.0"

# Todas as dependências opcionais
pip install "chdb[all]>=4.0"

Verifique a instalação

import chdb
print(chdb.__version__)  # Deve imprimir 4.x.x ou superior

from chdb import datastore as pd
print("DataStore ready!")

Migração em uma linha do Pandas

A maneira mais simples de começar a usar o DataStore é alterar a instrução de importação:

# Antes (pandas)
import pandas as pd

# Depois (DataStore)
from chdb import datastore as pd

É isso! Seu código existente em pandas agora usará o DataStore e se beneficiará da otimização por SQL.

Exemplo de migração

from pathlib import Path
Path("employees.csv").write_text("""\
name,age,city,salary,department,dept_id,status,email
Alice,28,NYC,75000,Engineering,1,active,alice@company.com
Bob,35,LA,85000,Engineering,1,active,bob@company.com
Charlie,52,NYC,95000,Product,2,active,charlie@company.com
Diana,32,SF,70000,Design,3,active,diana@company.com
Eve,23,LA,48000,Product,2,inactive,eve@company.com
""")

# Código pandas original
import pandas as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)

# Versão DataStore - basta mudar o import!
from chdb import datastore as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)  # Mesmo resultado, execução mais rápida!

Uso básico

Criando um DataStore

from chdb import datastore as pd

# A partir de um dicionário
ds = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'NYC']
})

# A partir de um pandas DataFrame
import pandas
pdf = pandas.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
ds = pd.DataFrame(pdf)

# A partir de um arquivo CSV
ds = pd.read_csv("data.csv")

# A partir de um arquivo Parquet (recomendado para grandes conjuntos de dados)
ds = pd.read_parquet("data.parquet")

Filtragem de dados

from chdb import datastore as pd

ds = pd.read_csv("employees.csv")

# Condição única
senior = ds[ds['age'] > 30]

# Múltiplas condições (AND)
senior_nyc = ds[(ds['age'] > 30) & (ds['city'] == 'NYC')]

# Múltiplas condições (OR)
young_or_senior = ds[(ds['age'] < 25) | (ds['age'] > 50)]

# Usando o método filter (estilo SQL)
result = ds.filter(ds['salary'] > 50000)

Selecionando colunas

# Estilo Pandas
subset = ds[['name', 'age']]

# Estilo SQL
subset = ds.select('name', 'age')

Ordenação

# Estilo Pandas
sorted_ds = ds.sort_values('salary', ascending=False)

# Estilo SQL
sorted_ds = ds.sort('salary', ascending=False)

Agrupamento e agregação

from pathlib import Path
Path("sales.csv").write_text("""\
region,product,category,amount,quantity,price,date,order_id
East,Widget,Electronics,5200,10,120,2024-01-15,1001
West,Gadget,Electronics,800,5,160,2024-02-20,1002
East,Gizmo,Home,6500,3,100,2024-03-10,1003
North,Widget,Electronics,4500,6,150,2024-06-18,1004
West,Gadget,Electronics,2000,8,250,2024-09-14,1005
""")

from chdb import datastore as pd

ds = pd.read_csv("sales.csv")

# Agrupar por coluna única
by_region = ds.groupby('region')['amount'].sum()

# Agrupar por múltiplas colunas
by_region_product = ds.groupby(['region', 'product']).agg({
    'amount': ['sum', 'mean'],
    'quantity': 'sum'
})

# Múltiplas agregações
summary = ds.groupby('category').agg({
    'price': ['min', 'max', 'mean'],
    'quantity': 'sum'
})

Junção de DataStores

from pathlib import Path
Path("departments.csv").write_text("""\
dept_id,department_name
1,Engineering
2,Product
3,Design
""")

from chdb import datastore as pd

employees = pd.read_csv("employees.csv")
departments = pd.read_csv("departments.csv")

# Inner join
result = employees.join(departments, on='dept_id', how='inner')

# Left join
result = employees.join(departments, on='dept_id', how='left')

# Usando merge (estilo pandas)
result = pd.merge(employees, departments, on='dept_id')

Obtendo resultados

O DataStore usa avaliação preguiçosa: as operações só são executadas quando você precisa dos resultados.

Disparando a execução

# Gatilhos automáticos
print(ds)           # Exibindo resultados
len(ds)             # Obtendo contagem de linhas
ds.columns          # Acessando propriedades
list(ds)            # Convertendo para lista

# Conversão explícita
df = ds.to_df()     # Converter para pandas DataFrame
df = ds.to_pandas() # Mesmo que to_df()

Visualizar SQL gerado

Query

# Veja qual SQL o DataStore irá executar
query = ds.filter(ds['age'] > 25).groupby('city').agg({'salary': 'mean'})
print(query.to_sql())

Response

SELECT city, AVG(salary) AS mean
FROM file('data.csv', 'CSVWithNames')
WHERE age > 25
GROUP BY city

Usando diferentes fontes de dados

Arquivos locais

from chdb import datastore as pd

# CSV
ds = pd.read_csv("data.csv")

# Parquet (melhor desempenho)
ds = pd.read_parquet("data.parquet")

# JSON
ds = pd.read_json("data.json")

Armazenamento em nuvem

from chdb.datastore import DataStore

# S3 (anônimo)
ds = DataStore.uri("s3://bucket/data.parquet?nosign=true")

# S3 (com credenciais)
ds = DataStore.from_s3(
    "s3://bucket/data.parquet",
    access_key_id="KEY",
    secret_access_key="SECRET"
)

# HTTP/HTTPS
ds = DataStore.uri("https://example.com/data.csv")

Bancos de dados

from chdb.datastore import DataStore

# MySQL
ds = DataStore.from_mysql(
    host="localhost",
    database="mydb",
    table="users",
    user="root",
    password="pass"
)

# PostgreSQL
ds = DataStore.from_postgresql(
    host="localhost",
    database="mydb",
    table="users",
    user="postgres",
    password="pass"
)

# Usando URI
ds = DataStore.uri("mysql://user:pass@localhost:3306/mydb/users")

Operações com String e DateTime

Operações com strings

# Todos os métodos .str do pandas funcionam
ds['name_upper'] = ds['name'].str.upper()
ds['name_len'] = ds['name'].str.len()
ds['has_a'] = ds['name'].str.contains('a')

Operações com DateTime

# Todos os métodos .dt do pandas funcionam
ds['year'] = ds['date'].dt.year
ds['month'] = ds['date'].dt.month
ds['day_of_week'] = ds['date'].dt.dayofweek

Extensões do ClickHouse

# Análise de URL (não disponível no pandas!)
ds['domain'] = ds['url'].url.domain()

# Extração de JSON
ds['user_name'] = ds['json_data'].json.get_string('name')

# Operações com endereço IP
ds['is_ipv4'] = ds['ip_addr'].ip.is_ipv4_string()

Práticas recomendadas

1. Use Parquet para arquivos grandes

# CSV - mais lento, lê o arquivo inteiro
ds = pd.read_csv("large_data.csv")

# Parquet - mais rápido, formato colunar, lê apenas as colunas necessárias
ds = pd.read_parquet("large_data.parquet")

2. Aplique filtros no início

# Bom - filtre primeiro, depois agregue
result = (ds
    .filter(ds['date'] >= '2024-01-01')
    .groupby('category')['amount'].sum()
)

# Menos otimizado - agregue primeiro
result = ds.groupby('category')['amount'].sum()

3. Selecione apenas as colunas necessárias

# Bom - selecionar colunas específicas
result = ds.select('name', 'age', 'city').filter(ds['age'] > 25)

# Menos otimizado - trabalhar com todas as colunas
result = ds.filter(ds['age'] > 25)

4. Use SQL para operações complexas

# Para consultas complexas, use SQL diretamente
ds = DataStore()
result = ds.sql("""
    SELECT category, 
           SUM(amount) as total,
           COUNT(*) as count,
           AVG(amount) as avg
    FROM file('sales.csv', 'CSVWithNames')
    WHERE date >= '2024-01-01'
    GROUP BY category
    HAVING total > 10000
    ORDER BY total DESC
    LIMIT 10
""")

Próximos passos

Saiba mais sobre todos os métodos de fábrica para criar um DataStore
Explore a criação de consultas para operações no estilo SQL
Confira os Acessores para strings, datetime e muito mais
Leia o Performance Guide para dicas de otimização

​Instalação

​Verifique a instalação

​Migração em uma linha do Pandas

​Exemplo de migração

​Uso básico

​Criando um DataStore

​Filtragem de dados

​Selecionando colunas

​Ordenação

​Agrupamento e agregação

​Junção de DataStores

​Obtendo resultados

​Disparando a execução

​Visualizar SQL gerado

​Usando diferentes fontes de dados

​Arquivos locais

​Armazenamento em nuvem

​Bancos de dados

​Operações com String e DateTime

​Operações com strings

​Operações com DateTime

​Extensões do ClickHouse

​Práticas recomendadas

​1. Use Parquet para arquivos grandes

​2. Aplique filtros no início

​3. Selecione apenas as colunas necessárias

​4. Use SQL para operações complexas

​Próximos passos