Перейти к основному содержанию
DataStore поддерживает два режима совместимости, которые определяют, будут ли выходные данные формироваться для совместимости с pandas или оптимизироваться для производительности Raw SQL.

Обзор

Режимзначение compat_modeОписание
Pandas (по умолчанию)"pandas"Полная совместимость с поведением pandas. Сохраняется порядок строк, поддерживаются MultiIndex и set_index, применяются исправления dtype, стабильная сортировка при равенстве ключей и обёртки -If/isNaN.
Performance"performance"Выполнение с приоритетом SQL. Полностью устранены все накладные расходы на совместимость с pandas. Максимальная пропускная способность, но структура результатов может отличаться от pandas.

Что отключает режим производительности

Накладные расходыПоведение в режиме PandasПоведение в режиме производительности
Сохранение порядка строквнедрение _row_id, rowNumberInAllBlocks(), подзапросы __orig_row_num__Отключено — порядок строк не гарантируется
Стабильное разрешение равенства при сортировкек ORDER BY добавляется rowNumberInAllBlocks() ASCОтключено — строки с одинаковыми значениями могут идти в произвольном порядке
Parquet preserve_orderinput_format_parquet_preserve_order=1Отключено — разрешено параллельное чтение Parquet
Автоматический ORDER BY для GroupByдобавляется ORDER BY group_key (поведение pandas по умолчанию: sort=True)Отключено — группы возвращаются в произвольном порядке
WHERE dropna для GroupByдобавляется WHERE key IS NOT NULL (поведение pandas по умолчанию: dropna=True)Отключено — группы с NULL включаются
set_index для GroupByключи групп задаются как индексОтключено — ключи групп остаются столбцами
Столбцы MultiIndexagg({'col': ['sum','mean']}) возвращает столбцы MultiIndexОтключено — плоские имена столбцов (col_sum, col_mean)
Обёртки -If/isNaNsumIf(col, NOT isNaN(col)) для skipnaОтключено — обычный sum(col) (ClickHouse нативно пропускает NULL)
toInt64 для counttoInt64(count()) для соответствия pandas int64Отключено — возвращается нативный SQL-тип данных
fillna(0) для sum из одних NaNсумма из одних NaN возвращает 0 (поведение pandas)Отключено — возвращает NULL
Коррекция dtypeabs() беззнаковый→знаковый и т. д.Отключено — нативные SQL-типы данных
Сохранение индексавосстанавливает исходный индекс после выполнения SQLОтключено
first()/last()argMin/argMax(col, rowNumberInAllBlocks())any(col) / anyLast(col) — быстрее, но недетерминированно
Агрегация одним SQL-запросомColumnExpr groupby материализует промежуточный DataFrameВнедряет LazyGroupByAgg в цепочку lazy-операций — один SQL-запрос

Включение режима производительности

Использование объекта config

from chdb.datastore.config import config

# Включить режим производительности
config.use_performance_mode()

# Вернуться к совместимости с pandas
config.use_pandas_compat()

# Проверить текущий режим
print(config.compat_mode)  # 'pandas' или 'performance'

Использование функций модуля

from chdb.datastore.config import set_compat_mode, CompatMode, is_performance_mode

# Включить режим производительности
set_compat_mode(CompatMode.PERFORMANCE)

# Проверка
print(is_performance_mode())  # True

# Вернуться к значению по умолчанию
set_compat_mode(CompatMode.PANDAS)

Использование удобных импортов

from chdb import use_performance_mode, use_pandas_compat

use_performance_mode()
# ... высокопроизводительные операции ...
use_pandas_compat()
При включении режима производительности движок выполнения автоматически устанавливается в chdb. Отдельно вызывать config.use_chdb() не нужно.

Когда использовать режим производительности

Используйте режим производительности, если:
  • Обрабатываете большие наборы данных (от сотен тысяч до миллионов строк)
  • Выполняете рабочие нагрузки с интенсивной агрегацией (groupby, sum, mean, count)
  • Порядок строк не имеет значения (например, для агрегированных результатов, отчетов, панелей мониторинга)
  • Вам нужна максимальная пропускная способность SQL и минимальные накладные расходы
  • Важно использование памяти (параллельное чтение Parquet, без промежуточных DataFrame)
Оставайтесь в режиме pandas, если:
  • Вам нужно точное поведение pandas (порядок строк, MultiIndex, dtypes)
  • Вам важно, чтобы first()/last() возвращали действительно первую/последнюю строку
  • Вы используете shift(), diff(), cumsum(), которые зависят от порядка строк
  • Вы пишете тесты, сравнивающие вывод DataStore с pandas

Различия в поведении

Порядок строк

В режиме производительности порядок строк не гарантируется ни для одной операции. Это относится к следующему:
  • Результаты фильтрации
  • Результаты агрегации GroupBy
  • head() / tail() без явного sort_values()
  • Агрегации first() / last()
Если вам нужны упорядоченные результаты, добавьте явный sort_values():
config.use_performance_mode()

ds = pd.read_csv("data.csv")

# Без сортировки (быстро)
result = ds.groupby("region")["revenue"].sum()

# С сортировкой (всё ещё быстро, просто добавляет ORDER BY)
result = ds.groupby("region")["revenue"].sum().sort_values()

Результаты GroupBy

АспектРежим Pandasрежим производительности
Расположение ключа группировкиИндекс (через set_index)Обычный столбец
Порядок группСортируются по ключу (по умолчанию)Произвольный порядок
Группы с NULLИсключаются (по умолчанию dropna=True)Включаются
Формат столбцовMultiIndex для нескольких агрегацийПлоские имена (col_func)
first()/last()Детерминированные (порядок строк)Недетерминированные (any()/anyLast())

Агрегация

config.use_performance_mode()

# Сумма группы, состоящей только из NaN, возвращает NULL (не 0)
# Count возвращает native uint64 (не принудительный int64)
# Без обёрток -If: sum() вместо sumIf()
result = ds.groupby("cat")["val"].sum()

Выполнение одним SQL-запросом

В режиме производительности агрегирование ColumnExpr с groupby (например, ds[condition].groupby('col')['val'].sum()) выполняется одним SQL-запросом, а не в два этапа, как в режиме pandas:
config.use_performance_mode()

# Режим Pandas: два SQL-запроса (filter → materialize → groupby)
# Режим производительности: один SQL-запрос (WHERE + GROUP BY в одном запросе)
result = ds[ds["rating"] > 3.5].groupby("category")["revenue"].sum()

# Сгенерированный SQL (один запрос):
# SELECT category, sum(revenue) FROM data WHERE rating > 3.5 GROUP BY category
Это позволяет избежать промежуточной материализации DataFrame и может значительно сократить использование памяти и время выполнения.

Сравнение с движком выполнения

Режим производительности (compat_mode) и движок выполнения (execution_engine) — независимые параметры конфигурации:
ПараметрУправляетЗначения
execution_engineКакой движок выполняет вычисленияauto, chdb, pandas
compat_modeНужно ли преобразовывать вывод для совместимости с pandaspandas, performance
При установке compat_mode='performance' значение execution_engine автоматически задаётся как chdb, поскольку режим производительности предназначен для выполнения SQL.
from chdb.datastore.config import config

# Это независимые настройки
config.use_chdb()              # Принудительно использовать движок chDB, сохранить совместимость с pandas
config.use_performance_mode()  # Принудительно использовать chDB + убрать накладные расходы pandas

Тестирование в режиме производительности

При написании тестов для режима производительности результаты могут отличаться от pandas порядком строк и структурой данных. Используйте следующие стратегии:

Сравнение после сортировки (агрегации, фильтры)

# Отсортировать обе стороны по одинаковым столбцам перед сравнением
ds_result = ds.groupby("cat")["val"].sum()
pd_result = pd_df.groupby("cat")["val"].sum()

ds_sorted = ds_result.sort_index()
pd_sorted = pd_result.sort_index()
np.testing.assert_array_equal(ds_sorted.values, pd_sorted.values)

Проверка диапазона значений (первое/последнее)

# first() с any() возвращает произвольный элемент из группы
result = ds.groupby("cat")["val"].first()
for group_key in groups:
    assert result.loc[group_key] in group_values[group_key]

Схема и число строк (LIMIT без ORDER BY)

# head() без sort_values: набор строк недетерминирован
result = ds.head(5)
assert len(result) == 5
assert set(result.columns) == expected_columns

Рекомендации

1. Включайте в начале скрипта

from chdb.datastore.config import config

config.use_performance_mode()

# Все последующие операции получают преимущество
ds = pd.read_parquet("data.parquet")
result = ds[ds["amount"] > 100].groupby("region")["amount"].sum()

2. Явно задавайте сортировку, когда важен порядок

# Для отображения или последующей обработки, требующей определённого порядка
result = (ds
    .groupby("region")["revenue"].sum()
    .sort_values(ascending=False)
)

3. Используйте для батч- и ETL-нагрузок

config.use_performance_mode()

# ETL-конвейер — порядок не важен, важна пропускная способность
summary = (ds
    .filter(ds["date"] >= "2024-01-01")
    .groupby(["region", "product"])
    .agg({"revenue": "sum", "quantity": "sum", "rating": "mean"})
)
summary.to_df().to_parquet("summary.parquet")

4. Переключение режимов в одном сеансе

# Режим производительности для ресурсоёмких вычислений
config.use_performance_mode()
aggregated = ds.groupby("cat")["val"].sum()

# Возврат в режим pandas для точного сравнения
config.use_pandas_compat()
detailed = ds[ds["val"] > 100].head(10)

Последнее изменение 10 июня 2026 г.