データの読み取り
CSVファイル
Parquet ファイル
JSONファイル
Excel ファイル
SQL データベース
その他のフォーマット
データの書き込み
to_csv
to_parquet
to_json
to_excel
to_sql
その他のエクスポート方法
ファイルフォーマットの比較
| フォーマット | 読み取り速度 | 書き込み速度 | ファイルサイズ | スキーマ | 最適な用途 |
|---|---|---|---|---|---|
| Parquet | 高速 | 高速 | 小 | あり | 大規模データセット、分析 |
| CSV | 中程度 | 高速 | 大 | なし | 互換性、シンプルなデータ |
| JSON | 低速 | 中程度 | 大 | 一部対応 | API、ネストされたデータ |
| Excel | 低速 | 低速 | 中 | 一部対応 | 非技術系ユーザーとの共有 |
| Feather | 非常に高速 | 非常に高速 | 中 | あり | プロセス間連携、pandas |
推奨事項
-
分析ワークロード向け: Parquet を使用します
- 列指向フォーマットのため、必要なカラムだけを読み取れます
- 高い圧縮率
- データ型を保持できます
-
データ交換向け: CSV または JSON を使用します
- 幅広い互換性
- 人間が読みやすい形式
-
pandas との相互運用向け: Feather または Arrow を使用します
- 最も高速なシリアライゼーション
- 型を保持できます
圧縮サポート
圧縮ファイルの読み込み
圧縮ファイルの書き込み
圧縮オプション
| 圧縮 | 速度 | 圧縮率 | 用途 |
|---|---|---|---|
snappy | 非常に高速 | 低い | Parquet のデフォルト |
lz4 | 非常に高速 | 低い | 速度優先 |
gzip | 中程度 | 高い | 互換性重視 |
zstd | 高速 | 非常に高い | バランスが最適 |
bz2 | 低速 | 非常に高い | 最大限の圧縮 |