GHCN-Daily 是一个包含全球陆地区域每日观测数据的数据集。它收录了来自全球陆地测站的观测数据,其中约有三分之二仅包含降水测量 (Menne et al., 2012) 。GHCN-Daily 由来自众多来源的气候记录合并而成,并经过一套统一的质量保证审查 (Durre et al., 2010) 。该档案包含以下气象要素:
- 每日最高气温
- 每日最低气温
- 观测时气温
- 降水量 (即雨水和融雪)
- 降雪量
- 积雪深度
- 其他可用要素
下载数据
- 适用于 ClickHouse 的预先准备好的数据版本,已完成清洗、重组和富化。该数据涵盖 1900 年至 2022 年。
- 下载原始数据,并将其转换为 ClickHouse 所需的格式。想要添加自定义列的用户可能更适合采用这种方式。
预先整理的数据
原始数据
下载
数据采样
- 一个由 11 个字符组成的测站识别代码,其中本身就编码了一些有用信息
- YEAR/MONTH/DAY = 采用 YYYYMMDD 格式的 8 个字符日期 (例如 19860529 = 1986 年 5 月 29 日)
- ELEMENT = 表示元素类型的 4 个字符标识,本质上就是测量类型。虽然可用的测量项很多,我们选择以下这些:
- PRCP - 降水量 (十分之一毫米)
- SNOW - 降雪量 (毫米)
- SNWD - 积雪深度 (毫米)
- TMAX - 最高气温 (十分之一摄氏度)
- TAVG - 平均气温 (十分之一摄氏度)
- TMIN - 最低气温 (十分之一摄氏度)
- PSUN - 每日可能日照百分比 (百分比)
- AWND - 日平均风速 (十分之一米/秒)
- WSFG - 最大阵风风速 (十分之一米/秒)
- WT** = 天气类型,其中 ** 用于定义具体天气类型。天气类型完整列表见此处。
- DATA VALUE = ELEMENT 对应的 5 个字符数据值,即测量值。
- M-FLAG = 1 个字符的测量标志。它有 10 个可能值,其中一些值表示数据准确性存疑。我们接受该值为 “P” 的数据——即标记为缺失但推定为零,因为这只与 PRCP、SNOW 和 SNWD 测量相关。
- Q-FLAG 是测量质量标志,共有 14 个可能值。我们只关注值为空的数据,也就是未触发任何质量保证检查失败的数据。
- S-FLAG 是观测来源标志。它对我们的分析没有用处,因此会被忽略。
- OBS-TIME = 4 个字符的观测时间,采用小时-分钟格式 (即 0700 = 上午 7:00) 。在较早的数据中通常不存在。出于我们的用途,我们会忽略它。
qFlag 等于空字符串的行。
清洗数据
透视数据
GROUP BY,我们可以将数据重新整理为这种结构。为限制内存开销,我们一次只处理一个文件。
noaa.csv。
富化数据
noaa_enriched.parquet。
创建表
向 ClickHouse 插入数据
从本地文件导入
<path> 表示磁盘上本地文件的完整路径。
有关如何加快此加载速度,请参见此处。