Log 引擎家族。有关 Log 引擎的通用特性及其差异,请参阅 Log Engine Family 一文。
Log 与 TinyLog 的不同之处在于,列文件旁边会有一个较小的“标记”文件。这些标记会在每个数据块处写入,包含偏移量,用于指示从文件的何处开始读取,以跳过指定数量的行。因此,可以使用多个线程读取表数据。
在并发数据访问场景下,读取操作可以同时执行,而写入操作会阻塞读取操作以及其他写入操作。
Log 引擎不支持索引。同样,如果向表写入失败,该表就会损坏,读取时会返回错误。Log 引擎适用于临时数据、只写入一次的表,以及测试或演示用途。
创建表
写入数据
Log 引擎通过将每一列分别写入各自的文件来高效存储数据。对于每个表,Log 引擎会将以下文件写入指定的存储路径:
<column>.bin:每一列对应的数据文件,包含序列化并压缩后的数据。__marks.mrk:标记文件,存储每个插入数据块的偏移量和行数。标记可让引擎在读取时跳过无关的数据块,从而提高查询执行效率。
写入过程
Log 表时:
- 数据会被序列化并压缩为块。
- 对于每一列,压缩后的数据都会追加到对应的
<column>.bin文件中。 __marks.mrk文件中会添加相应的条目,用于记录新插入数据的偏移量和行数。
读取数据
SELECT 查询返回的行顺序是不可预测的。请使用 ORDER BY 子句对行进行排序。
使用示例
INSERT 查询,在 <column>.bin 文件中创建了两个数据块。
ClickHouse 在查询数据时会使用多个线程。每个线程会读取一个单独的数据块,并在完成后独立返回相应的结果行。因此,输出中各个行块的顺序可能与输入中这些块的顺序不一致。例如: