Saltar al contenido principal
Este conjunto de datos contiene observaciones meteorológicas históricas de los últimos 128 años. Cada fila corresponde a una medición en una fecha y hora concretas y en una estación meteorológica. El origen de este conjunto de datos puede consultarse aquí, y la lista de números de estaciones meteorológicas puede encontrarse aquí.
Las fuentes de estos conjuntos de datos meteorológicos incluyen las estaciones meteorológicas establecidas por la Central Weather Administration (el código de estación empieza por C0, C1 y 4) y las estaciones meteorológicas agrícolas pertenecientes al Council of Agriculture (códigos de estación distintos de los mencionados anteriormente):
  • StationId
    • MeasuredDate, la hora de observación
    • StnPres, la presión atmosférica de la estación
    • SeaPres, la presión al nivel del mar
    • Td, la temperatura del punto de rocío
    • RH, la humedad relativa
    • Otros elementos cuando estén disponibles

Descarga de los datos

  • Una versión preprocesada de los datos para ClickHouse, que ha sido limpiada, reestructurada y enriquecida. Este conjunto de datos abarca los años de 1896 a 2023.
  • Descargue los datos sin procesar originales y conviértalos al formato requerido por ClickHouse. Los usuarios que quieran añadir sus propias columnas quizá prefieran desarrollar o completar su propio enfoque.

Datos preprocesados

El conjunto de datos también se ha reestructurado, pasando de una medición por línea a una fila por ID de estación meteorológica y fecha de medición, es decir.
StationId,MeasuredDate,StnPres,Tx,RH,WS,WD,WSGust,WDGust,Precp,GloblRad,TxSoil0cm,TxSoil5cm,TxSoil20cm,TxSoil50cm,TxSoil100cm,SeaPres,Td,PrecpHour,SunShine,TxSoil10cm,EvapA,Visb,UVI,Cloud Amount,TxSoil30cm,TxSoil200cm,TxSoil300cm,TxSoil500cm,VaporPressure
C0X100,2016-01-01 01:00:00,1022.1,16.1,72,1.1,8.0,,,,,,,,,,,,,,,,,,,,,,,
C0X100,2016-01-01 02:00:00,1021.6,16.0,73,1.2,358.0,,,,,,,,,,,,,,,,,,,,,,,
C0X100,2016-01-01 03:00:00,1021.3,15.8,74,1.5,353.0,,,,,,,,,,,,,,,,,,,,,,,
C0X100,2016-01-01 04:00:00,1021.2,15.8,74,1.7,8.0,,,,,,,,,,,,,,,,,,,,,,,
Es fácil consultar y asegurarse de que la tabla resultante sea menos dispersa y de que algunos elementos sean nulos, ya que no pueden medirse en esta estación meteorológica. Este conjunto de datos está disponible en la siguiente ubicación de Google CloudStorage. Descargue el conjunto de datos en su sistema de archivos local (e insértelo con el cliente de ClickHouse) o insértelo directamente en ClickHouse (consulte Inserción desde URL). Para descargar:
wget https://storage.googleapis.com/taiwan-weather-observaiton-datasets/preprocessed_weather_daily_1896_2023.tar.gz

# Opción: Validar la suma de comprobación
md5sum preprocessed_weather_daily_1896_2023.tar.gz
# La suma de comprobación debe ser igual a: 11b484f5bd9ddafec5cfb131eb2dd008

tar -xzvf preprocessed_weather_daily_1896_2023.tar.gz
daily_weather_preprocessed_1896_2023.csv

# Opción: Validar la suma de comprobación
md5sum daily_weather_preprocessed_1896_2023.csv
# La suma de comprobación debe ser igual a: 1132248c78195c43d93f843753881754

Datos originales sin procesar

A continuación se detallan los pasos para descargar los datos originales sin procesar y transformarlos o convertirlos como desee.

Descargar

Para descargar los datos sin procesar originales:
mkdir tw_raw_weather_data && cd tw_raw_weather_data

wget https://storage.googleapis.com/taiwan-weather-observaiton-datasets/raw_data_weather_daily_1896_2023.tar.gz

# Opción: Validar la suma de comprobación
md5sum raw_data_weather_daily_1896_2023.tar.gz
# La suma de comprobación debe ser igual a: b66b9f137217454d655e3004d7d1b51a

tar -xzvf raw_data_weather_daily_1896_2023.tar.gz
466920_1928.csv
466920_1929.csv
466920_1930.csv
466920_1931.csv
...

# Opción: Validar la suma de comprobación
cat *.csv | md5sum
# La suma de comprobación debe ser igual a: b26db404bf84d4063fac42e576464ce1

Obtener las estaciones meteorológicas de Taiwán

wget -O weather_sta_list.csv https://github.com/Raingel/weather_station_list/raw/main/data/weather_sta_list.csv

# Opción: Convertir la codificación UTF-8-BOM a UTF-8
sed -i '1s/^\xEF\xBB\xBF//' weather_sta_list.csv

Crear el esquema de la tabla

Cree la tabla MergeTree en ClickHouse (desde el cliente de ClickHouse).
CREATE TABLE tw_weather_data (
    StationId String null,
    MeasuredDate DateTime64,
    StnPres Float64 null,
    SeaPres Float64 null,
    Tx Float64 null,
    Td Float64 null,
    RH Float64 null,
    WS Float64 null,
    WD Float64 null,
    WSGust Float64 null,
    WDGust Float64 null,
    Precp Float64 null,
    PrecpHour Float64 null,
    SunShine Float64 null,
    GloblRad Float64 null,
    TxSoil0cm Float64 null,
    TxSoil5cm Float64 null,
    TxSoil10cm Float64 null,
    TxSoil20cm Float64 null,
    TxSoil50cm Float64 null,
    TxSoil100cm Float64 null,
    TxSoil30cm Float64 null,
    TxSoil200cm Float64 null,
    TxSoil300cm Float64 null,
    TxSoil500cm Float64 null,
    VaporPressure Float64 null,
    UVI Float64 null,
    "Cloud Amount" Float64 null,
    EvapA Float64 null,
    Visb Float64 null
)
ENGINE = MergeTree
ORDER BY (MeasuredDate);

Insertar en ClickHouse

Inserción desde un archivo local

Se pueden insertar datos desde un archivo local de la siguiente manera (desde el cliente de ClickHouse):
INSERT INTO tw_weather_data FROM INFILE '/path/to/daily_weather_preprocessed_1896_2023.csv'
donde /path/to representa la ruta específica que utiliza el usuario para acceder al archivo local en el disco. Y la salida de respuesta de ejemplo, después de insertar datos en ClickHouse, es la siguiente:
Query id: 90e4b524-6e14-4855-817c-7e6f98fbeabb

Ok.
131985329 rows in set. Elapsed: 71.770 sec. Processed 131.99 million rows, 10.06 GB (1.84 million rows/s., 140.14 MB/s.)
Peak memory usage: 583.23 MiB.

Insertar desde una URL

INSERT INTO tw_weather_data SELECT *
FROM url('https://storage.googleapis.com/taiwan-weather-observaiton-datasets/daily_weather_preprocessed_1896_2023.csv', 'CSVWithNames')

Para saber cómo acelerar este proceso, consulta nuestra entrada del blog sobre cómo optimizar grandes cargas de datos.

Comprobar el número y el tamaño de las filas de datos

  1. Veamos cuántas filas se han insertado:
SELECT formatReadableQuantity(count())
FROM tw_weather_data;
┌─formatReadableQuantity(count())─┐
│ 131.99 million                  │
└─────────────────────────────────┘
  1. Veamos cuánto espacio en disco se está utilizando para esta tabla:
SELECT
    formatReadableSize(sum(bytes)) AS disk_size,
    formatReadableSize(sum(data_uncompressed_bytes)) AS uncompressed_size
FROM system.parts
WHERE (`table` = 'tw_weather_data') AND active
┌─disk_size─┬─uncompressed_size─┐
│ 2.13 GiB  │ 32.94 GiB         │
└───────────┴───────────────────┘

Consultas de ejemplo

Q1: Obtener la temperatura del punto de rocío más alta de cada estación meteorológica en el año especificado

SELECT
    StationId,
    max(Td) AS max_td
FROM tw_weather_data
WHERE (year(MeasuredDate) = 2023) AND (Td IS NOT NULL)
GROUP BY StationId
┌─StationId─┬─max_td─┐
│ 466940    │      1 │
│ 467300    │      1 │
│ 467540    │      1 │
│ 467490    │      1 │
│ 467080    │      1 │
│ 466910    │      1 │
│ 467660    │      1 │
│ 467270    │      1 │
│ 467350    │      1 │
│ 467571    │      1 │
│ 466920    │      1 │
│ 467650    │      1 │
│ 467550    │      1 │
│ 467480    │      1 │
│ 467610    │      1 │
│ 467050    │      1 │
│ 467590    │      1 │
│ 466990    │      1 │
│ 467060    │      1 │
│ 466950    │      1 │
│ 467620    │      1 │
│ 467990    │      1 │
│ 466930    │      1 │
│ 467110    │      1 │
│ 466881    │      1 │
│ 467410    │      1 │
│ 467441    │      1 │
│ 467420    │      1 │
│ 467530    │      1 │
│ 466900    │      1 │
└───────────┴────────┘

30 filas en el conjunto. Tiempo transcurrido: 0.045 s. Procesadas 6.41 millones de filas, 187.33 MB (143.92 millones de filas/s., 4.21 GB/s.)

Q2: Obtención de datos sin procesar con un intervalo de tiempo específico, campos y estación meteorológica

SELECT
    StnPres,
    SeaPres,
    Tx,
    Td,
    RH,
    WS,
    WD,
    WSGust,
    WDGust,
    Precp,
    PrecpHour
FROM tw_weather_data
WHERE (StationId = 'C0UB10') AND (MeasuredDate >= '2023-12-23') AND (MeasuredDate < '2023-12-24')
ORDER BY MeasuredDate ASC
LIMIT 10
┌─StnPres─┬─SeaPres─┬───Tx─┬───Td─┬─RH─┬──WS─┬──WD─┬─WSGust─┬─WDGust─┬─Precp─┬─PrecpHour─┐
│  1029.5 │    ᴺᵁᴸᴸ │ 11.8 │ ᴺᵁᴸᴸ │ 78 │ 2.7 │ 271 │    5.5 │    275 │ -99.8 │     -99.8 │
│  1029.8 │    ᴺᵁᴸᴸ │ 12.3 │ ᴺᵁᴸᴸ │ 78 │ 2.7 │ 289 │    5.5 │    308 │ -99.8 │     -99.8 │
│  1028.6 │    ᴺᵁᴸᴸ │ 12.3 │ ᴺᵁᴸᴸ │ 79 │ 2.3 │ 251 │    6.1 │    289 │ -99.8 │     -99.8 │
│  1028.2 │    ᴺᵁᴸᴸ │   13 │ ᴺᵁᴸᴸ │ 75 │ 4.3 │ 312 │    7.5 │    316 │ -99.8 │     -99.8 │
│  1027.8 │    ᴺᵁᴸᴸ │ 11.1 │ ᴺᵁᴸᴸ │ 89 │ 7.1 │ 310 │   11.6 │    322 │ -99.8 │     -99.8 │
│  1027.8 │    ᴺᵁᴸᴸ │ 11.6 │ ᴺᵁᴸᴸ │ 90 │ 3.1 │ 269 │   10.7 │    295 │ -99.8 │     -99.8 │
│  1027.9 │    ᴺᵁᴸᴸ │ 12.3 │ ᴺᵁᴸᴸ │ 89 │ 4.7 │ 296 │    8.1 │    310 │ -99.8 │     -99.8 │
│  1028.2 │    ᴺᵁᴸᴸ │ 12.2 │ ᴺᵁᴸᴸ │ 94 │ 2.5 │ 246 │    7.1 │    283 │ -99.8 │     -99.8 │
│  1028.4 │    ᴺᵁᴸᴸ │ 12.5 │ ᴺᵁᴸᴸ │ 94 │ 3.1 │ 265 │    4.8 │    297 │ -99.8 │     -99.8 │
│  1028.3 │    ᴺᵁᴸᴸ │ 13.6 │ ᴺᵁᴸᴸ │ 91 │ 1.2 │ 273 │    4.4 │    256 │ -99.8 │     -99.8 │
└─────────┴─────────┴──────┴──────┴────┴─────┴─────┴────────┴────────┴───────┴───────────┘

10 filas en el conjunto. Tiempo transcurrido: 0.009 s. Se procesaron 91.70 mil filas, 2.33 MB (9.67 millones de filas/s, 245.31 MB/s.)

Créditos

Nos gustaría reconocer la labor de la Administración Meteorológica Central y de la Red de Observación Meteorológica Agrícola (Station) del Consejo de Agricultura en la preparación, depuración y distribución de este conjunto de datos. Les agradecemos su esfuerzo. Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. Modelo de aprendizaje profundo orientado a aplicaciones para la alerta temprana del añublo del arroz en Taiwán. Ecological Informatics 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]
Última modificación el 10 de junio de 2026