Базовые агрегации
Встроенные методы
| Метод | Эквивалент SQL | Описание |
|---|---|---|
sum() | SUM() | Сумма значений |
mean() | AVG() | Среднее арифметическое |
count() | COUNT() | Количество значений, отличных от NULL |
min() | MIN() | Минимальное значение |
max() | MAX() | Максимальное значение |
median() | MEDIAN() | Медиана |
std() | stddevPop() | Стандартное отклонение |
var() | varPop() | Дисперсия |
nunique() | COUNT(DISTINCT) | Количество уникальных значений |
Агрегации GroupBy
Одна агрегация
Несколько агрегаций
Именованные агрегации
Несколько ключей GroupBy
Статистические агрегации
| Метод | Эквивалент SQL | Описание |
|---|---|---|
quantile(q) | quantile(q) | q-й квантиль (0–1) |
skew() | skewPop() | Коэффициент асимметрии |
kurt() | kurtPop() | Коэффициент эксцесса |
corr() | corr() | Корреляция |
cov() | covar() | Ковариация |
sem() | - | Стандартная ошибка среднего |
Условные агрегации
| Function | ClickHouse | Description |
|---|---|---|
sum_if(cond) | sumIf() | Сумма по условию |
count_if(cond) | countIf() | Количество по условию |
avg_if(cond) | avgIf() | Среднее по условию |
min_if(cond) | minIf() | Минимум по условию |
max_if(cond) | maxIf() | Максимум по условию |
Агрегации для сбора значений
| Function | ClickHouse | Description |
|---|---|---|
group_array() | groupArray() | Собирает в массив |
group_uniq_array() | groupUniqArray() | Собирает уникальные значения в массив |
group_concat(sep) | groupConcat() | Объединяет строки |
top_k(n) | topK(n) | K наиболее частых значений |
any() | any() | Любое значение |
any_last() | anyLast() | Последнее значение |
first_value() | first_value() | Первое значение по порядку |
last_value() | last_value() | Последнее значение по порядку |
Оконные функции
Функции ранжирования
| Функция | SQL | Описание |
|---|---|---|
row_number() | ROW_NUMBER() | Порядковый номер строки |
rank() | RANK() | Ранг с пропусками |
dense_rank() | DENSE_RANK() | Ранг без пропусков |
ntile(n) | NTILE(n) | Разделение на n групп |
percent_rank() | PERCENT_RANK() | Процентильный ранг (0-1) |
cume_dist() | CUME_DIST() | Кумулятивное распределение |
Функции значений
| Функция | SQL | Описание |
|---|---|---|
lag(n) | LAG(col, n) | Значение из предыдущей строки |
lead(n) | LEAD(col, n) | Значение из следующей строки |
first_value() | FIRST_VALUE() | Первое значение в окне |
last_value() | LAST_VALUE() | Последнее значение в окне |
nth_value(n) | NTH_VALUE(col, n) | N-е значение в окне |
Накопительные функции
| Метод | Описание |
|---|---|
cumsum() | Накопительная сумма |
cummax() | Накопительный максимум |
cummin() | Накопительный минимум |
cumprod() | Накопительное произведение |
diff(n) | Разность со значением n строк назад |
pct_change(n) | Процентное изменение относительно значения n строк назад |
Скользящие окна
Пространство имен F
F предоставляет доступ к функциям ClickHouse.
Импорт
Использование функций из F
F с оконными функциями
Типичные приёмы агрегирования
Топ-N в каждой группе
Нарастающий итог
Скользящее среднее
Сравнение по годам
Процентильное ранжирование
Сводка по методам агрегации
| Категория | Методы |
|---|---|
| Базовые | sum, mean, count, min, max, median |
| Статистические | std, var, quantile, skew, kurt, corr, cov |
| Условные | sum_if, count_if, avg_if, min_if, max_if |
| Коллекции | group_array, group_uniq_array, group_concat, top_k |
| Ранжирование | row_number, rank, dense_rank, ntile, percent_rank |
| Значения | lag, lead, first_value, last_value, nth_value |
| Накопительные | cumsum, cummax, cummin, cumprod, diff, pct_change |
| Скользящие | rolling().mean/sum/std/..., expanding().mean/sum/... |