Ингестия данных из MongoDB в ClickHouse Cloud через ClickPipes находится на стадии публичной беты.
В консоли ClickHouse Cloud и в документации для MongoDB термины “таблица” и “коллекция” используются как взаимозаменяемые.
Предварительные требования
Создайте ClickPipe
- В консоли ClickHouse Cloud перейдите к своему сервису ClickHouse Cloud.
- Нажмите кнопку
Data Sourcesв меню слева, затем — “Set up a ClickPipe”.
- Выберите плитку
MongoDB CDC.
Добавьте подключение к исходной базе данных MongoDB
- Заполните сведения о подключении к исходной базе данных MongoDB, которую вы настроили на этапе предварительной подготовки.
Прежде чем вводить сведения о подключении, убедитесь, что IP-адреса ClickPipes добавлены в белый список в правилах межсетевого экрана. На следующей странице вы найдете список IP-адресов ClickPipes.
Дополнительные сведения см. в руководствах по настройке исходной MongoDB, ссылки на которые приведены в верхней части этой страницы.
(Необязательно) Настройка SSH-туннелирования
- Включите переключатель “Use SSH Tunnelling”.
- Заполните сведения об SSH-подключении.
-
Чтобы использовать аутентификацию по ключу, нажмите “Отозвать и сгенерировать пару ключей”, чтобы создать новую пару ключей, и скопируйте сгенерированный открытый ключ на SSH-сервер в
~/.ssh/authorized_keys. - Нажмите “Verify Connection”, чтобы проверить подключение.
Убедитесь, что ClickPipes IP addresses добавлены в правила межсетевого экрана для SSH-бастиона, чтобы ClickPipes мог установить SSH-туннель.
Next.
Настройте дополнительные параметры
- Интервал синхронизации: интервал, с которым ClickPipes будет опрашивать исходную базу данных на наличие изменений. Это влияет на целевой сервис ClickHouse, поэтому пользователям, чувствительным к стоимости, рекомендуется устанавливать более высокое значение (свыше
3600). - Размер батча Pull: количество строк, получаемых за один батч. Это параметр best effort, поэтому он может соблюдаться не во всех случаях.
- Количество таблиц, обрабатываемых параллельно при создании снимка: количество таблиц, которые будут извлекаться параллельно во время создания первоначального снимка. Это полезно, если у вас много таблиц и вы хотите контролировать, сколько из них обрабатывается параллельно.
Настройте таблицы
- Здесь вы можете выбрать целевую базу данных для вашего ClickPipe. Можно выбрать существующую базу данных или создать новую.
- Вы можете выбрать таблицы, которые хотите реплицировать из исходной базы данных MongoDB. При выборе таблиц вы также можете переименовать их в целевой базе данных ClickHouse.
Проверьте разрешения и запустите ClickPipe
- Выберите роль «Полный доступ» в раскрывающемся списке разрешений и нажмите «Завершить настройку».
Что дальше?
Важные замечания
- Требуется MongoDB версии 5.1.0 и выше.
- Для CDC мы используем нативный API Change Streams в MongoDB, который опирается на MongoDB oplog для фиксации изменений в реальном времени.
- По умолчанию документы из MongoDB реплицируются в ClickHouse в типе JSON. Это обеспечивает гибкое управление схемой и позволяет использовать в ClickHouse богатый набор JSON-операторов для запросов и аналитики. Подробнее о запросах к данным JSON можно узнать здесь.
- Самостоятельная настройка PrivateLink в настоящее время недоступна. Если вы используете AWS и вам нужен PrivateLink, свяжитесь с нами по адресу db-integrations-support@clickhouse.com или создайте обращение в службу поддержки — мы поможем вам его включить.