Чтение данных
CSV-файлы
Файлы Parquet
JSON‑файлы
Файлы Excel
SQL-базы данных
Другие форматы
Запись данных
to_csv
to_parquet
to_json
to_excel
to_sql
Другие способы экспорта
Сравнение форматов файлов
| Формат | Скорость чтения | Скорость записи | Размер файла | Схема | Лучше всего подходит для |
|---|---|---|---|---|---|
| Parquet | Высокая | Высокая | Небольшой | Да | Крупных наборов данных, аналитики |
| CSV | Средняя | Высокая | Большой | Нет | Совместимости, простых данных |
| JSON | Низкая | Средняя | Большой | Частично | API, вложенных данных |
| Excel | Низкая | Низкая | Средний | Частично | Обмена с нетехническими пользователями |
| Feather | Очень высокая | Очень высокая | Средний | Да | Межпроцессного обмена, pandas |
Рекомендации
-
Для аналитических рабочих нагрузок: используйте Parquet
- Столбцовый формат позволяет считывать только нужные столбцы
- Отличное сжатие
- Сохраняет типы данных
-
Для обмена данными: используйте CSV или JSON
- Универсальная совместимость
- Удобочитаемый формат
-
Для интеграции с pandas: используйте Feather или Arrow
- Самая быстрая сериализация
- Сохранение типов
Поддержка сжатия
Чтение сжатых файлов
Запись сжатых файлов
Параметры сжатия
| Сжатие | Скорость | Степень сжатия | Сценарий использования |
|---|---|---|---|
snappy | Очень высокая | Низкая | По умолчанию для Parquet |
lz4 | Очень высокая | Низкая | Приоритет — скорость |
gzip | Средняя | Высокая | Совместимость |
zstd | Высокая | Очень высокая | Оптимальный баланс |
bz2 | Низкая | Очень высокая | Максимальное сжатие |