Перейти к основному содержанию
Простой инструмент для обфускации табличных данных. Он читает входную таблицу и создаёт выходную таблицу, которая сохраняет некоторые свойства исходных данных, но содержит другие данные. Это позволяет публиковать почти реальные production-данные для использования в бенчмарках. Он предназначен для сохранения следующих свойств данных:
  • кардинальностей значений (количества различных значений) для каждого столбца и каждого кортежа столбцов;
  • условных кардинальностей: количества различных значений одного столбца при условии на значение другого столбца;
  • распределений вероятностей абсолютного значения целых чисел; знака целых чисел со знаком; экспоненты и знака для чисел с плавающей точкой;
  • распределений вероятностей длины строк;
  • вероятности нулевых значений чисел; пустых строк и массивов, NULL;
  • коэффициента сжатия данных при сжатии с помощью LZ77 и кодеков семейства entropy;
  • непрерывности (величины разницы) значений времени по таблице; непрерывности значений с плавающей точкой;
  • компонента даты значений DateTime;
  • корректности UTF-8 в строковых значениях;
  • строковые значения выглядят естественно.
Большинство перечисленных выше свойств важны для тестирования производительности: чтение данных, фильтрация, агрегация и сортировка будут работать почти с той же скоростью, что и на исходных данных, благодаря сохранённым кардинальностям, величинам, коэффициентам сжатия и т. д. Он работает детерминированно: вы задаёте значение seed, и преобразование определяется входными данными и seed. Некоторые преобразования взаимно однозначны и могут быть обращены, поэтому seed должен быть достаточно большим и храниться в секрете. Для преобразования данных он использует некоторые криптографические примитивы, но с точки зрения криптографии делает это некорректно, поэтому результат не следует считать безопасным, если только у вас нет иных оснований. В результате могут сохраниться некоторые данные, которые вы не хотите публиковать. Он всегда оставляет числа 0, 1 и -1, даты, длины массивов и флаги null в точности такими же, как в исходных данных. Например, если в вашей таблице есть столбец IsMobile со значениями 0 и 1, то в преобразованных данных он будет иметь те же значения. Таким образом, пользователь сможет точно посчитать долю мобильного трафика. Рассмотрим ещё один пример. Если в вашей таблице есть приватные данные, например email пользователя, и вы не хотите публиковать ни один отдельный адрес электронной почты. Если таблица достаточно большая, содержит много разных email-адресов и ни один из них не встречается значительно чаще остальных, инструмент анонимизирует все данные. Но если в столбце мало разных значений, он может воспроизвести некоторые из них. Вам следует изучить алгоритм работы этого инструмента и точно настроить его параметры командной строки. Этот инструмент хорошо работает только при наличии хотя бы умеренного объёма данных (не менее нескольких тысяч строк).
Последнее изменение 10 июня 2026 г.