Saltar al contenido principal
Permite procesar archivos desde una URL en paralelo desde varios nodos de un clúster especificado. En el iniciador, crea una conexión con todos los nodos del clúster, expande el asterisco en la ruta del archivo de la URL y distribuye dinámicamente cada archivo. En el nodo worker, le pregunta al iniciador cuál es la siguiente tarea que debe procesar y la procesa. Esto se repite hasta que se hayan completado todas las tareas.

Sintaxis

urlCluster(cluster_name, URL, format, structure)

Argumentos

ArgumentoDescripción
cluster_nameNombre de un clúster que se utiliza para construir un conjunto de direcciones y parámetros de conexión para servidores remotos y locales.
URLDirección del servidor HTTP o HTTPS que puede aceptar solicitudes GET. Tipo: String.
formatFormato de los datos. Tipo: String.
structureEstructura de la tabla en el formato 'UserID UInt64, Name String'. Determina los nombres y tipos de las columnas. Tipo: String.

Valor devuelto

Una tabla con el formato y la estructura especificados, y con datos de la URL indicada.

Ejemplos

Obtener las 3 primeras líneas de una tabla que contiene columnas de tipo String y UInt32 de un servidor HTTP que responde en formato CSV.
  1. Cree un servidor HTTP básico con las herramientas estándar de Python 3 e inícielo:
from http.server import BaseHTTPRequestHandler, HTTPServer

class CSVHTTPServer(BaseHTTPRequestHandler):
    def do_GET(self):
        self.send_response(200)
        self.send_header('Content-type', 'text/csv')
        self.end_headers()

        self.wfile.write(bytes('Hello,1\nWorld,2\n', "utf-8"))

if __name__ == "__main__":
    server_address = ('127.0.0.1', 12345)
    HTTPServer(server_address, CSVHTTPServer).serve_forever()
SELECT * FROM urlCluster('cluster_simple','http://127.0.0.1:12345', CSV, 'column1 String, column2 UInt32')

Globs en la URL

Los patrones entre { } se usan para generar un conjunto de segmentos o para especificar direcciones de failover. Para ver los tipos de patrones admitidos y ejemplos, consulte la descripción de la función remote. El carácter | dentro de los patrones se usa para especificar direcciones de failover. Se recorren en el mismo orden en que aparecen en el patrón. El número de direcciones generadas está limitado por el ajuste glob_expansion_max_elements.
Última modificación el 10 de junio de 2026