Saltar al contenido principal
El perfilador de DataStore ayuda a medir el tiempo de ejecución e identificar cuellos de botella en el rendimiento.

Inicio rápido

from chdb import datastore as pd
from chdb.datastore.config import config, get_profiler

# Habilitar el perfilado
config.enable_profiling()

# Ejecutar las operaciones
ds = pd.read_csv("large_data.csv")
result = (ds
    .filter(ds['amount'] > 100)
    .groupby('category')
    .agg({'amount': 'sum'})
    .sort('sum', ascending=False)
    .head(10)
    .to_df()
)

# Ver el informe
profiler = get_profiler()
print(profiler.report())

Habilitar el perfilado

from chdb.datastore.config import config

# Habilitar el perfilado
config.enable_profiling()

# Deshabilitar el perfilado
config.disable_profiling()

# Comprobar si el perfilado está habilitado
print(config.profiling_enabled)  # True or False

API del perfilador

Obtener el perfilador

from chdb.datastore.config import get_profiler

profiler = get_profiler()

report()

Muestra un informe de rendimiento.
profiler.report(min_duration_ms=0.1)
Parámetros:
ParámetroTipoPredeterminadoDescripción
min_duration_msfloat0.1Muestra solo pasos con una duración >= esta
Salida de ejemplo:
======================================================================
EXECUTION PROFILE
======================================================================
   45.79ms (100.0%) Total Execution
     23.25ms ( 50.8%) Query Planning [ops_count=2]
     22.29ms ( 48.7%) SQL Segment 1 [ops=2]
       20.48ms ( 91.9%) SQL Execution
        1.74ms (  7.8%) Result to DataFrame
----------------------------------------------------------------------
      TOTAL:    45.79ms
======================================================================
El informe muestra:
  • Duración en milisegundos de cada paso
  • Porcentaje del tiempo con respecto al padre/al total
  • Anidamiento jerárquico de operaciones
  • Metadatos de cada paso (p. ej., ops_count, ops)

step()

Mide manualmente el tiempo de ejecución de un bloque de código.
with profiler.step("custom_operation"):
    # Tu código aquí
    expensive_operation()

clear()

Elimina todos los datos de perfilado.
profiler.clear()

summary()

Obtenga un diccionario con los nombres de los pasos y sus duraciones (ms).
summary = profiler.summary()
for name, duration in summary.items():
    print(f"{name}: {duration:.2f}ms")
Salida de ejemplo:
Total Execution: 45.79ms
Total Execution.Cache Check: 0.00ms
Total Execution.Query Planning: 23.25ms
Total Execution.SQL Segment 1: 22.29ms
Total Execution.SQL Segment 1.SQL Execution: 20.48ms
Total Execution.SQL Segment 1.Result to DataFrame: 1.74ms

Comprender el informe

Nombres de los pasos

Nombre del pasoDescripción
Total ExecutionTiempo total de ejecución
Query PlanningTiempo dedicado a planificar la consulta
SQL Segment NEjecución del segmento SQL N
SQL ExecutionEjecución real de la consulta SQL
Result to DataFrameConversión de los resultados a un DataFrame de pandas
Cache CheckVerificación de la caché de consultas
Cache WriteEscritura de los resultados en la caché

Duración

  • Pasos de planificación (Planificación de consultas): Suelen ser rápidos
  • Pasos de ejecución (Ejecución de SQL): Donde se realiza el trabajo real
  • Pasos de transferencia (Resultado a DataFrame): Conversión de datos a pandas

Identificación de cuellos de botella

======================================================================
EXECUTION PROFILE
======================================================================
  200.50ms (100.0%) Total Execution
    10.25ms (  5.1%) Query Planning [ops_count=4]
   190.00ms ( 94.8%) SQL Segment 1 [ops=4]
     185.00ms ( 97.4%) SQL Execution    <- Main bottleneck
       5.00ms (  2.6%) Result to DataFrame
----------------------------------------------------------------------
      TOTAL:   200.50ms
======================================================================

Patrones de perfilado

Perfilar una sola consulta

config.enable_profiling()
profiler = get_profiler()
profiler.clear()  # Limpiar datos anteriores

# Ejecutar consulta
result = ds.filter(...).groupby(...).agg(...).to_df()

# Ver el perfil de esta consulta
print(profiler.report())

Perfilar varias consultas

config.enable_profiling()
profiler = get_profiler()
profiler.clear()

# Consulta 1
with profiler.step("Query 1"):
    result1 = query1.to_df()

# Consulta 2
with profiler.step("Query 2"):
    result2 = query2.to_df()

print(profiler.report())

Comparar enfoques

profiler = get_profiler()

# Enfoque 1: Filtrar y luego agrupar
profiler.clear()
with profiler.step("filter_then_groupby"):
    result1 = ds.filter(ds['x'] > 10).groupby('y').sum().to_df()
summary1 = profiler.summary()
time1 = summary1.get('filter_then_groupby', 0)

# Enfoque 2: Agrupar y luego filtrar
profiler.clear()
with profiler.step("groupby_then_filter"):
    result2 = ds.groupby('y').sum().filter(ds['x'] > 10).to_df()
summary2 = profiler.summary()
time2 = summary2.get('groupby_then_filter', 0)

print(f"Approach 1: {time1:.2f}ms")
print(f"Approach 2: {time2:.2f}ms")
print(f"Winner: {'Approach 1' if time1 < time2 else 'Approach 2'}")

Consejos para la optimización

1. Compruebe el tiempo de ejecución de SQL

Si SQL execution es el cuello de botella:
  • Añada más filtros para reducir los datos
  • Use Parquet en lugar de CSV
  • Compruebe que haya índices adecuados (para fuentes de datos de bases de datos)

2. Verifique el tiempo de E/S

Si read_csv o read_parquet es el cuello de botella:
  • Use Parquet (columnar, comprimido)
  • Lea solo las columnas necesarias
  • Filtre en origen si es posible

3. Comprobar la transferencia de datos

Si to_df es lento:
  • El conjunto de resultados puede ser demasiado grande
  • Añade más filtros o un límite
  • Usa head() para obtener una vista previa

4. Compare los motores

from chdb.datastore.config import config

# Perfilar con chdb
config.use_chdb()
profiler.clear()
result_chdb = query.to_df()
time_chdb = profiler.total_duration_ms

# Perfilar con pandas
config.use_pandas()
profiler.clear()
result_pandas = query.to_df()
time_pandas = profiler.total_duration_ms

print(f"chdb: {time_chdb:.2f}ms")
print(f"pandas: {time_pandas:.2f}ms")

Buenas prácticas

1. Perfila antes de optimizar

# ¡No adivines, mide!
config.enable_profiling()
result = your_query.to_df()
print(get_profiler().report())

2. Limpiar entre cada prueba

profiler.clear()  # Limpiar datos anteriores
# Ejecutar prueba
print(profiler.report())

3. Usa min_duration_ms para enfocarte

# Mostrar solo operaciones >= 100ms
profiler.report(min_duration_ms=100)

4. Perfila datos representativos

# Perfila con tamaños de datos reales
# Los datos de prueba pequeños pueden no mostrar los verdaderos cuellos de botella

5. Deshabilitar en producción

# Desarrollo
config.enable_profiling()

# Producción
config.set_profiling_enabled(False)  # Evitar sobrecarga

Ejemplo: sesión de perfilado completa

from chdb import datastore as pd
from chdb.datastore.config import config, get_profiler

# Configuración inicial
config.enable_profiling()
config.enable_debug()  # Vea también qué está pasando
profiler = get_profiler()

# Cargar datos
profiler.clear()
print("=== Loading Data ===")
ds = pd.read_csv("sales_2024.csv")  # 10 M de filas
print(profiler.report())

# Consulta 1: Filtro simple
profiler.clear()
print("\n=== Query 1: Simple Filter ===")
result1 = ds.filter(ds['amount'] > 1000).to_df()
print(profiler.report())

# Consulta 2: Agregación compleja
profiler.clear()
print("\n=== Query 2: Complex Aggregation ===")
result2 = (ds
    .filter(ds['amount'] > 100)
    .groupby('region', 'category')
    .agg({
        'amount': ['sum', 'mean', 'count'],
        'quantity': 'sum'
    })
    .sort('sum', ascending=False)
    .head(20)
    .to_df()
)
print(profiler.report())

# Resumen
print("\n=== Summary ===")
print(f"Query 1: {len(result1)} rows")
print(f"Query 2: {len(result2)} rows")
Última modificación el 10 de junio de 2026