ALTER que manipulan los datos de una tabla mediante borrados. En particular, incluyen consultas como ALTER TABLE DELETE, etc. Ejecutar este tipo de consultas genera nuevas versiones mutadas de las partes de datos. Esto significa que dichas sentencias desencadenan la reescritura de partes de datos completas para todos los datos insertados antes de la mutación, lo que se traduce en una gran cantidad de operaciones de escritura.
Para los borrados, puede evitar esta gran cantidad de operaciones de escritura usando motores de tabla especializados como ReplacingMergeTree o CollapsingMergeTree en lugar del motor de tabla MergeTree predeterminado.
DELETE de eliminación ligera elimina las filas de la tabla [db.]table que coinciden con la expresión expr. Solo está disponible para la familia de motores de tabla *MergeTree.
DELETE ligero” para diferenciarlo del comando ALTER TABLE … DELETE, que es un proceso costoso.
Ejemplos
eliminación ligera no elimina los datos de inmediato
DELETE esperan a que se complete el marcado de las filas como eliminadas antes de finalizar. Esto puede llevar mucho tiempo si el volumen de datos es grande. Como alternativa, puede ejecutarlo de forma asíncrona en segundo plano mediante la configuración lightweight_deletes_sync. Si está deshabilitada, la sentencia DELETE devolverá el resultado de inmediato, pero los datos pueden seguir siendo visibles para las consultas hasta que finalice la mutación en segundo plano.
La mutación no elimina físicamente las filas que se han marcado como eliminadas; esto solo ocurrirá durante la siguiente fusión. Como resultado, es posible que, durante un período no especificado, los datos no se eliminen realmente del almacenamiento y solo queden marcados como eliminados.
Si necesita garantizar que sus datos se eliminen del almacenamiento en un tiempo predecible, considere usar la configuración de tabla min_age_to_force_merge_seconds. O bien, puede usar el comando ALTER TABLE … DELETE. Tenga en cuenta que eliminar datos con ALTER TABLE ... DELETE puede consumir una cantidad significativa de recursos, ya que vuelve a crear todas las partes afectadas.
Eliminación de grandes volúmenes de datos
TRUNCATE TABLE.
Si prevé eliminaciones frecuentes, considere usar una clave de particionamiento personalizada. Después, puede usar el comando ALTER TABLE ... DROP PARTITION para eliminar rápidamente todas las filas asociadas a esa partición.
Limitaciones de la eliminación ligera
Eliminaciones ligeras con proyecciones
DELETE no funciona en tablas con proyecciones. Esto se debe a que las filas de una proyección pueden verse afectadas por una operación DELETE. Sin embargo, existe la configuración de MergeTree lightweight_mutation_projection_mode para cambiar este comportamiento.
Consideraciones de rendimiento al usar eliminación ligera
- Una condición
WHEREcompleja en una consultaDELETE. - Si la cola de mutaciones está llena de muchas otras mutaciones, esto puede provocar problemas de rendimiento, ya que todas las mutaciones de una tabla se ejecutan de forma secuencial.
- La tabla afectada tiene una cantidad muy grande de partes de datos.
- Tener muchos datos en partes compactas. En una parte Compact, todas las columnas se almacenan en un único archivo.
Permisos de DELETE
DELETE requiere el privilegio ALTER DELETE. Para habilitar las Sentencias DELETE en una tabla específica para un usuario determinado, ejecute el siguiente comando:
Cómo funcionan internamente las eliminaciones ligeras en ClickHouse
-
Se aplica una “máscara” a las filas afectadas
Cuando se ejecuta una consulta
DELETE FROM table ..., ClickHouse guarda una máscara en la que cada fila queda marcada como “existente” o “eliminada”. Esas filas “eliminadas” se omiten en las consultas posteriores. Sin embargo, las filas en realidad solo se eliminan más adelante, durante fusiones posteriores. Escribir esta máscara es mucho más ligero que lo que se hace con una consultaALTER TABLE ... DELETE. La máscara se implementa como una columna de sistema oculta,_row_exists, que almacenaTruepara todas las filas visibles yFalsepara las eliminadas. Esta columna solo está presente en una parte si se eliminaron algunas filas de esa parte. No existe cuando una parte tiene todos sus valores iguales aTrue. -
Las consultas
SELECTse transforman para incluir la máscara Cuando se usa una columna enmascarada en una consulta, la consultaSELECT ... FROM table WHERE conditionse amplía internamente con el predicado sobre_row_existsy se transforma en:En tiempo de ejecución, la columna_row_existsse lee para determinar qué filas no deben devolverse. Si hay muchas filas eliminadas, ClickHouse puede determinar qué gránulos pueden omitirse por completo al leer el resto de las columnas. -
Las consultas
DELETEse transforman en consultasALTER TABLE ... UPDATEDELETE FROM table WHERE conditionse traduce en una mutaciónALTER TABLE table UPDATE _row_exists = 0 WHERE condition. Internamente, esta mutación se ejecuta en dos pasos:-
Se ejecuta un comando
SELECT count() FROM table WHERE conditionpara cada parte individual, a fin de determinar si esa parte está afectada. -
A partir de los comandos anteriores, se aplican mutaciones a las partes afectadas y se crean enlaces físicos para las partes no afectadas. En el caso de las partes wide, se actualiza la columna
_row_existsde cada fila, y los archivos de todas las demás columnas se enlazan mediante enlaces físicos. En el caso de las partes compact, todas las columnas se reescriben porque se almacenan juntas en un solo archivo.
ALTER TABLE ... DELETEtradicional porque no reescribe todos los archivos de columnas de las partes afectadas. -
Se ejecuta un comando