DataStore: API compatible con pandas con optimización de SQL

DataStore es la API compatible con pandas de chDB que combina la conocida interfaz de pandas DataFrame con la potencia de la optimización de consultas SQL y le permite escribir código al estilo de pandas mientras obtiene el rendimiento de ClickHouse.

Características principales

Compatibilidad con pandas: 209 métodos de DataFrame de pandas, 56 métodos .str, 42+ métodos .dt
Optimización de SQL: Las operaciones se convierten automáticamente en consultas SQL optimizadas
Evaluación diferida: Las operaciones se posponen hasta que se necesitan los resultados
Más de 630 métodos de API: Una API completa para la manipulación de datos
Extensiones de ClickHouse: Accesores adicionales (.arr, .json, .url, .ip, .geo) no disponibles en pandas

Arquitectura

DataStore usa evaluación diferida con ejecución con doble motor:

Cadena de operaciones diferidas: las operaciones se registran; no se ejecutan de inmediato
Selección inteligente del motor: QueryPlanner dirige cada segmento al motor óptimo (chDB para SQL, Pandas para operaciones complejas)
Almacenamiento en caché intermedio: los resultados se almacenan en caché en cada paso para agilizar la exploración iterativa

Consulta modelo de ejecución para más detalles.

Migración desde Pandas en una sola línea

# Antes (pandas)
import pandas as pd
df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

# Después (DataStore) - ¡solo cambia el import!
from chdb import datastore as pd
df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

Tu código actual de pandas funciona sin cambios, pero ahora se ejecuta sobre el ClickHouse engine.

Comparación de rendimiento

DataStore ofrece mejoras significativas de rendimiento frente a pandas, especialmente en la agregación y en las canalizaciones complejas:

Operación	Pandas	DataStore	Mejora
Recuento con GroupBy	347ms	17ms	19.93x
Pipeline complejo	2,047ms	380ms	5.39x
Filter+Sort+Head	1,537ms	350ms	4.40x
Agregación con GroupBy	406ms	141ms	2.88x

Benchmark con 10 M de filas. Consulta el script de benchmark y la guía de rendimiento para obtener más información.

Cuándo usar DataStore

Usa DataStore cuando:

Trabajas con conjuntos de datos grandes (millones de filas)
Realizas agregaciones y operaciones de agrupación (groupby)
Consultas datos desde archivos, bases de datos o almacenamiento en la nube
Creas canalizaciones de datos complejas
Quieres la API de pandas con mejor rendimiento

Usa la API de SQL directo cuando:

Prefieres escribir SQL directamente
Necesitas un control detallado sobre la ejecución de consultas
Trabajas con funcionalidades específicas de ClickHouse que no están expuestas en la API de pandas

Comparación de funcionalidades

Característica	Pandas	Polars	DuckDB	DataStore
Compatible con la API de Pandas	-	Parcial	No	Completa
Evaluación diferida	No	Sí	Sí	Sí
Compatibilidad con consultas SQL	No	Sí	Sí	Sí
Funciones de ClickHouse	No	No	No	Sí
Accesores de String/DateTime	Sí	Sí	No	Sí + extras
Array/JSON/URL/IP/Geo	No	Parcial	No	Sí
Consultas directas sobre archivos	No	Sí	Sí	Sí
Compatibilidad con almacenamiento en la nube	No	Limitado	Sí	Sí

Estadísticas de la API

Categoría	Cantidad	Cobertura
Métodos de DataFrame	209	100% de pandas
Accesor `str` de Series	56	100% de pandas
Accesor `dt` de Series	42+	100%+ (incluye funciones adicionales de ClickHouse)
Accesor `arr` de Series	37	específico de ClickHouse
Accesor `json` de Series	13	específico de ClickHouse
Accesor `url` de Series	15	específico de ClickHouse
Accesor `ip` de Series	9	específico de ClickHouse
Accesor `geo` de Series	14	específico de ClickHouse
Total de métodos de la API	630+	-

Primeros pasos

Inicio rápido - Instalación y uso básico
Migración desde Pandas - Guía de migración paso a paso

Referencia de la API

Métodos de fábrica - Crear DataStore a partir de diversas fuentes
Construcción de consultas - Operaciones de consulta de estilo SQL
Compatibilidad con pandas - Los 209 métodos compatibles con pandas
Accesores - Accesores de String, DateTime, Array, JSON, URL, IP y Geo
Agregación - Funciones de agregación y de ventana
Operaciones de E/S - Lectura y escritura de datos

Temas avanzados

Modelo de ejecución - Evaluación diferida y almacenamiento en caché
Referencia de clases - Referencia completa de la API

Configuración y depuración

Configuración - Todas las opciones de configuración
Modo de rendimiento - Modo centrado en SQL para un rendimiento máximo
Depuración - Explain, profiling y logging

Guías de usuario de Pandas

Pandas Cookbook - Patrones comunes
Diferencias clave - Diferencias importantes respecto a pandas
Guía de rendimiento - Consejos de optimización
SQL para usuarios de Pandas - Comprender el SQL detrás de las operaciones de pandas

Ejemplo rápido

from chdb import datastore as pd

# Leer datos de varias fuentes
ds = pd.read_csv("sales.csv")
# o: ds = pd.DataStore.uri("s3://bucket/sales.parquet")
# o: ds = pd.DataStore.from_mysql("mysql://user:pass@host/db/table")

# Operaciones familiares de pandas - optimizadas automáticamente a SQL
result = (ds
    .filter(ds['amount'] > 1000)           # WHERE amount > 1000
    .groupby('region')                      # GROUP BY region
    .agg({'amount': ['sum', 'mean']})       # SUM(amount), AVG(amount)
    .sort_values('sum', ascending=False)    # ORDER BY sum DESC
    .head(10)                               # LIMIT 10
)

# Ver el SQL generado
print(result.to_sql())

# Ejecutar y obtener resultados
df = result.to_df()  # Devuelve un DataFrame de pandas

Siguientes pasos

¿Es la primera vez que usas DataStore? Empieza con la Guía de inicio rápido
¿Vienes de pandas? Lee la Guía de migración
¿Quieres saber más? Consulta la Referencia de la API

​Características principales

​Arquitectura

​Migración desde Pandas en una sola línea

​Comparación de rendimiento

​Cuándo usar DataStore

​Comparación de funcionalidades

​Estadísticas de la API

​Navegación de la documentación

​Primeros pasos

​Referencia de la API

​Temas avanzados

​Configuración y depuración

​Guías de usuario de Pandas

​Ejemplo rápido

​Siguientes pasos