chDB - ClickHouse Documentation

chDB は、ClickHouse v25.8.2.1 を基盤とする高速なインプロセス SQL OLAP エンジンです。 ClickHouse server に接続しなくても、プログラミング言語から ClickHouse の能力を活用したい場合に利用できます。

主な特長

インプロセス SQL OLAP エンジン - ClickHouse を基盤としており、ClickHouse server をインストールする必要はありません
複数のデータフォーマット - Parquet、CSV、JSON、Arrow、ORC、さらに70種類以上のフォーマットでの入出力をサポート
データコピーを最小化 - C++ から Python への受け渡しに python memoryview を使用
豊富な Python エコシステムとのインテグレーション - Pandas、Arrow、DB API 2.0 をネイティブにサポートし、既存のデータサイエンスワークフローにシームレスに組み込めます
依存関係ゼロ - 外部データベースをインストールする必要はありません
DataStore API - SQL 最適化を備えた Pandas 互換 API で、630 以上のメソッドをサポート

DataStore: Pandas互換 API

新機能！ DataStore は、使い慣れた pandas 構文と ClickHouse のパフォーマンスを組み合わせた、Pandas互換 API を提供します。

Hex ですぐに始める

📖 入門チュートリアル — 初めての接続を設定
🚀 Hex の 30 日間延長トライアル — ClickHouse インテグレーションをフルに利用可能

ワンライナーでの移行

# インポートを変更するだけ - pandasのコードはそのまま動作します
- import pandas as pd
+ from chdb import datastore as pd

df = pd.read_csv("data.csv")
result = df[df['age'] > 25].groupby('city')['salary'].mean()

パフォーマンスのハイライト

操作	pandas	DataStore	高速化率
GroupBy のカウント	347ms	17ms	19.93x
複雑なパイプライン	2,047ms	380ms	5.39x
フィルタ+ソート+Head	1,537ms	350ms	4.40x

1,000万行でのベンチマーク

DataStore の機能

630+ APIメソッド - 209 の pandas DataFrame メソッドと 185 以上のアクセサメソッド
遅延評価 - 操作は最適化された SQL にコンパイルされます
SQL pushdown - フィルターと集計はデータソース側で実行されます
幅広いデータソースに対応 - ファイル、S3、データベース、データレイクから読み取れます

詳細: DataStore ドキュメント

chDB はどの言語に対応していますか？

chDB では、次の言語バインディングを利用できます。

使い始めるにはどうすればよいですか？

Go、Rust、NodeJS、Bun、または C and C++ を使用している場合は、それぞれの言語に対応するページを参照してください。
Python を使用している場合は、Getting Started 開発者ガイドまたは chDB オンデマンドコースを参照してください。

pandas ユーザー向け

ClickHouse のパフォーマンスを活かしながら、使い慣れた pandas ライクな操作感を得るには、まず DataStore API から始めてください。

DataStore Quickstart - インストールとワンライナーでの移行
pandas からの移行 - 手順を追った移行ガイド
Pandas Cookbook - よくあるパターン
主な違い - pandas との重要な違い
Performance Guide - 最適化のヒント

DataStore API リファレンス

ファクトリメソッド - ファイル、データベース、クラウドストレージから作成
クエリ構築 - SQL スタイルの操作
Pandas 互換性 - 209 の対応メソッド
アクセサ - .str, .dt, .arr, .json, .url, .ip, .geo
設定 - エンジン、ログ、プロファイリング
デバッグ - explain()、プロファイリング、ログ

SQL API ガイド

紹介ビデオ

chDB の概要を手短に紹介するビデオで、ClickHouse の強力な機能を Python 環境で活用する方法をご覧ください。

パフォーマンスベンチマーク

chDBは、さまざまなシナリオで卓越したパフォーマンスを発揮します。

埋め込みエンジンの ClickBench - SQL API パフォーマンス比較
DataFrame Benchmark - DataFrameエンジンの比較
DataStore と Pandas の比較 - 一般的な処理では pandas より最大20倍高速

chDB について

chDB プロジェクト誕生の詳しい経緯は、ブログをご覧ください
chDB とそのユースケースについては、ブログをお読みください
chDB のオンデマンドコースを受講する
codapi examples を使ってブラウザーで chDB を試す
その他の例は (https://github.com/chdb-io/chdb/tree/main/examples) を参照

ライセンス

chDB は Apache License 2.0 に基づいて提供されています。詳細については LICENSE を参照してください。

​主な特長

​DataStore: Pandas互換 API

​ワンライナーでの移行

​パフォーマンスのハイライト

​DataStore の機能

​chDB はどの言語に対応していますか？

​使い始めるにはどうすればよいですか？

​pandas ユーザー向け

​DataStore API リファレンス

​SQL API ガイド

​紹介ビデオ

​パフォーマンスベンチマーク

​chDB について

​ライセンス

主な特長

DataStore: Pandas互換 API

ワンライナーでの移行

パフォーマンスのハイライト

DataStore の機能

chDB はどの言語に対応していますか？

使い始めるにはどうすればよいですか？

pandas ユーザー向け

DataStore API リファレンス

SQL API ガイド

紹介ビデオ

パフォーマンスベンチマーク

chDB について

ライセンス