- 各カラムおよび各カラムの組み合わせごとの値のカーディナリティ (異なる値の数) ;
- 条件付きカーディナリティ: あるカラムの値を条件にしたときの、別のカラムにおける異なる値の数;
- 整数の絶対値の確率分布、符号付き整数の符号、浮動小数点数の指数と符号の確率分布;
- 文字列長の確率分布;
-
数値が 0 となる確率、空文字列や空の配列、
NULLの出現確率; - LZ77 および entropy 系の codec で圧縮した場合のデータの圧縮率;
- テーブル全体にわたる時刻値の連続性 (差分の大きさ) ; 浮動小数点値の連続性;
-
DateTime値の日付部分; - 文字列値の UTF-8 としての妥当性;
- 文字列値が自然に見えること。
IsMobile というカラムがあるとします。変換後のデータでも、その値は同じままです。
そのため、ユーザーはモバイルトラフィックの正確な比率を算出できます。
別の例を挙げます。テーブルにユーザーのメールアドレスのような非公開データがあり、どのメールアドレスも公開したくない場合です。
テーブルが十分に大きく、複数の異なるメールアドレスを含み、かつ他と比べて極端に高頻度のメールアドレスが存在しなければ、すべてのデータは匿名化されます。しかし、あるカラム内の異なる値の数が少ない場合は、その一部が再現されることがあります。
このツールの動作アルゴリズムを確認し、コマンドラインパラメータを適切に調整する必要があります。
このツールが適切に機能するのは、少なくとも中程度以上のデータ量 (少なくとも数千行) がある場合に限られます。