Простой инструмент для обфускации табличных данных.
Он читает входную таблицу и создаёт выходную таблицу, которая сохраняет некоторые свойства исходных данных, но содержит другие данные.
Это позволяет публиковать почти реальные production-данные для использования в бенчмарках.
Он предназначен для сохранения следующих свойств данных:
-
кардинальностей значений (количества различных значений) для каждого столбца и каждого кортежа столбцов;
-
условных кардинальностей: количества различных значений одного столбца при условии на значение другого столбца;
-
распределений вероятностей абсолютного значения целых чисел; знака целых чисел со знаком; экспоненты и знака для чисел с плавающей точкой;
-
распределений вероятностей длины строк;
-
вероятности нулевых значений чисел; пустых строк и массивов,
NULL;
-
коэффициента сжатия данных при сжатии с помощью LZ77 и кодеков семейства entropy;
-
непрерывности (величины разницы) значений времени по таблице; непрерывности значений с плавающей точкой;
-
компонента даты значений
DateTime;
-
корректности UTF-8 в строковых значениях;
-
строковые значения выглядят естественно.
Большинство перечисленных выше свойств важны для тестирования производительности:
чтение данных, фильтрация, агрегация и сортировка будут работать почти с той же скоростью,
что и на исходных данных, благодаря сохранённым кардинальностям, величинам, коэффициентам сжатия и т. д.
Он работает детерминированно: вы задаёте значение seed, и преобразование определяется входными данными и seed.
Некоторые преобразования взаимно однозначны и могут быть обращены, поэтому seed должен быть достаточно большим и храниться в секрете.
Для преобразования данных он использует некоторые криптографические примитивы, но с точки зрения криптографии делает это некорректно, поэтому результат не следует считать безопасным, если только у вас нет иных оснований. В результате могут сохраниться некоторые данные, которые вы не хотите публиковать.
Он всегда оставляет числа 0, 1 и -1, даты, длины массивов и флаги null в точности такими же, как в исходных данных.
Например, если в вашей таблице есть столбец IsMobile со значениями 0 и 1, то в преобразованных данных он будет иметь те же значения.
Таким образом, пользователь сможет точно посчитать долю мобильного трафика.
Рассмотрим ещё один пример. Если в вашей таблице есть приватные данные, например email пользователя, и вы не хотите публиковать ни один отдельный адрес электронной почты.
Если таблица достаточно большая, содержит много разных email-адресов и ни один из них не встречается значительно чаще остальных, инструмент анонимизирует все данные. Но если в столбце мало разных значений, он может воспроизвести некоторые из них.
Вам следует изучить алгоритм работы этого инструмента и точно настроить его параметры командной строки.
Этот инструмент хорошо работает только при наличии хотя бы умеренного объёма данных (не менее нескольких тысяч строк). Последнее изменение 10 июня 2026 г.