Перейти к основному содержанию
Источник YAMLRegExpTree загружает дерево регулярных выражений из YAML-файла в локальной файловой системе. Он предназначен исключительно для использования со структурой словаря regexp_tree и обеспечивает иерархическое сопоставление регулярных выражений с атрибутами для поиска по шаблону, например при разборе user agent.
Источник YAMLRegExpTree доступен только в ClickHouse Open Source. В ClickHouse Cloud вместо этого экспортируйте словарь в CSV и загрузите его через источник ClickHouse table. Подробности см. в разделе Использование словарей regexp_tree в ClickHouse Cloud.

Конфигурация

CREATE DICTIONARY regexp_dict
(
    regexp String,
    name String,
    version String
)
PRIMARY KEY(regexp)
SOURCE(YAMLRegExpTree(PATH '/var/lib/clickhouse/user_files/regexp_tree.yaml'))
LAYOUT(regexp_tree)
LIFETIME(0);
Поля параметра:
НастройкаОписание
PATHАбсолютный путь к YAML-файлу, содержащему дерево регулярных выражений. При создании через DDL файл должен находиться в каталоге user_files.

Структура YAML-файла

YAML-файл содержит список узлов дерева регулярных выражений. У каждого узла могут быть атрибуты и дочерние узлы, образующие иерархию:
- regexp: 'Linux/(\d+[\.\d]*).+tlinux'
  name: 'TencentOS'
  version: '\1'

- regexp: '\d+/tclwebkit(?:\d+[\.\d]*)'
  name: 'Android'
  versions:
    - regexp: '33/tclwebkit'
      version: '13'
    - regexp: '3[12]/tclwebkit'
      version: '12'
    - regexp: '30/tclwebkit'
      version: '11'
    - regexp: '29/tclwebkit'
      version: '10'
Каждый узел имеет следующую структуру:
  • regexp: Регулярное выражение для этого узла.
  • attributes: Задаваемые пользователем атрибуты словаря (например, name, version). Значения атрибутов могут содержать обратные ссылки на группы захвата в регулярном выражении, записанные как \1 или $1 (числа 1–9). При выполнении запроса они заменяются на соответствующую совпавшую группу захвата.
  • child nodes: Список дочерних узлов, каждый со своими атрибутами и, при необходимости, дополнительными дочерними узлами. Имя списка дочерних узлов произвольное (например, versions выше). Сопоставление строк выполняется в глубину: если строка соответствует узлу, проверяются и его дочерние узлы. Атрибуты самого глубокого совпавшего узла имеют приоритет и переопределяют одноимённые атрибуты родительского узла.
Последнее изменение 10 июня 2026 г.