Formatos compatibles
Características
Ingestión única
Ingestión continua
Orden lexicográfico
file1, file2 y file3 se ingestarán secuencialmente, pero si se agrega un nuevo file 0 al bucket, se ignorará porque el nombre del archivo no es lexicográficamente mayor que el del último archivo ingerido.
En este modo, el ClickPipe de GCS realiza una carga inicial de todos los archivos de la ruta especificada y luego sondea en busca de archivos nuevos a un intervalo configurable (de forma predeterminada, cada 30 segundos). No es posible iniciar la ingestión desde un archivo específico o desde un momento concreto: ClickPipes siempre cargará todos los archivos de la ruta especificada.
En cualquier orden
El modo no ordenado no es compatible con buckets públicos. Requiere autenticación con Service Account y una suscripción de Google Cloud Pub/Sub conectada al bucket.
OBJECT_FINALIZE a través de la suscripción de Pub/Sub que coincidan con la ruta especificada. Cualquier mensaje correspondiente a un archivo ya visto, a un archivo que no coincida con la ruta o a un evento de otro tipo se ignorará. No es posible iniciar la ingestión desde un archivo específico o un momento concreto: ClickPipes siempre cargará todos los archivos de la ruta seleccionada.
Coincidencia de patrones de archivos
data-2024-*.csv en lugar de *.csv).
Patrones admitidos
| Patrón | Descripción | Ejemplo | Coincide con |
|---|---|---|---|
? | Coincide exactamente con un carácter (excluyendo /) | data-?.csv | data-1.csv, data-a.csv, data-x.csv |
* | Coincide con cero o más caracteres (excluyendo /) | data-*.csv | data-1.csv, data-001.csv, data-report.csv, data-.csv |
** Recursivo | Coincide con cero o más caracteres (incluyendo /). Permite recorrer directorios de forma recursiva. | logs/**/error.log | logs/error.log, logs/2024/error.log, logs/2024/01/error.log |
https://bucket.s3.amazonaws.com/folder/*.csvhttps://bucket.s3.amazonaws.com/logs/**/data.jsonhttps://bucket.s3.amazonaws.com/file-?.parquethttps://bucket.s3.amazonaws.com/data-2024-*.csv.gz
Patrones no compatibles
| Patrón | Descripción | Ejemplo | Alternativas |
|---|---|---|---|
{abc,def} | Expansión con llaves: alternativas | {logs,data}/file.csv | Cree ClickPipes separados para cada ruta. |
{N..M} | Expansión de rango numérico | file-{1..100}.csv | Use file-*.csv o file-?.csv. |
https://bucket.s3.amazonaws.com/{documents-01,documents-02}.jsonhttps://bucket.s3.amazonaws.com/file-{1..100}.csvhttps://bucket.s3.amazonaws.com/{logs,metrics}/data.parquet
Semántica de exactly-once
Columnas virtuales
_file en la lista de asignación de columnas. La columna virtual _file contiene el nombre del archivo del objeto de origen, que puede usarse para consultar qué archivos se han procesado.
Control de acceso
Permisos
bucket de GCS
storage.objects.list y `storage.objects.get, que permiten a ClickPipes listar y recuperar objetos en el bucket especificado.
Suscripción de Pub/Sub
roles/pubsub.subscriber— para recibir y confirmar la recepción de mensajes.roles/pubsub.viewer— para obtener los metadatos de la suscripción.
Autenticación
Cuenta de servicio
Credenciales HMAC
Credentials en Authentication method al configurar la conexión de ClickPipe. Luego, proporciona la clave de acceso (p. ej., GOOGTS7C7FUP3AIRVJTE2BCDKINBTES3HC2GY5CBFJDCQ2SYHV6A6XXVTJFSA) y la clave secreta (p. ej., bGoa+V7g/yqDXvKRqq+JTFn4uQZbPiQJo4pf9RzJ) en Access key y Secret key, respectivamente.
Sigue esta guía para crear una cuenta de servicio con una clave HMAC.
Acceso de red
-
Para el control de acceso basado en IP, las reglas de filtrado de IP de su bucket de GCS deben permitir las IP estáticas de la región del servicio ClickPipes indicadas aquí, así como las IP estáticas del servicio ClickHouse Cloud. Para obtener las IP estáticas de su región de ClickHouse Cloud, abra una terminal y ejecute:
Configuración avanzada
| Setting | Default value | Description |
|---|---|---|
Max insert bytes | 10GB | Número de bytes que se procesan en un único lote de inserción. |
Max file count | 100 | Número máximo de archivos que se procesan en un único lote de inserción. |
Max threads | auto(3) | Número máximo de hilos concurrentes para el procesamiento de archivos. |
Max insert threads | 1 | Número máximo de hilos de inserción concurrentes para el procesamiento de archivos. |
Min insert block size bytes | 1GB | Tamaño mínimo en bytes del bloque que puede insertarse en una tabla. |
Max download threads | 4 | Número máximo de hilos de descarga concurrentes. |
Object storage polling interval | 30s | Configura el tiempo máximo de espera antes de insertar datos en el clúster de ClickHouse. |
Parallel distributed insert select | 2 | Configuración de parallel distributed insert select. |
Parallel view processing | false | Si se debe habilitar el envío a vistas adjuntas de forma concurrente en lugar de secuencial. |
Use cluster function | true | Si los archivos deben procesarse en paralelo en varios nodos. |
Escalado
Limitaciones conocidas
Tamaño del archivo
Compatibilidad
https://storage.googleapis.com/ (en lugar de gs://) y claves HMAC para la autenticación.