topK

Introducido en: v1.1.0 Devuelve un array con los valores aproximadamente más frecuentes de la columna especificada. El array resultante se ordena de forma descendente según la frecuencia aproximada de los valores (no por los valores en sí). Implementa el algoritmo Filtered Space-Saving para analizar TopK, basado en el algoritmo reduce-and-combine de Parallel Space Saving. Esta función no garantiza el resultado. En determinadas situaciones, pueden producirse errores y podría devolver valores frecuentes que no sean los más frecuentes. Véase también

Sintaxis

topK(N)(column)
topK(N, load_factor)(column)
topK(N, load_factor, 'counts')(column)

Parámetros

N — El número de elementos que se devolverán. Valor predeterminado: 10. El valor máximo de N es 65536. UInt64
load_factor — Opcional. Define cuántas celdas se reservan para los valores. Si uniq(column) > N * load_factor, el resultado de la función topK será aproximado. Valor predeterminado: 3. UInt64
counts — Opcional. Define si el resultado debe incluir un recuento aproximado y un valor de error. Bool

Argumentos

column — El nombre de la columna en la que se buscarán los valores más frecuentes. String

Valor devuelto Devuelve un array con los valores más frecuentes de forma aproximada, ordenados en orden descendente de frecuencia aproximada. Array Ejemplos Ejemplo de uso

Query

SELECT topK(3)(AirlineID) AS res
FROM ontime;

Response

┌─res─────────────────┐
│ [19393,19790,19805] │
└─────────────────────┘

Véase también

​topK

topK