Узнайте, как ClickHouse поддерживает агентную аналитику
ИИ-нагрузки предъявляют единый набор требований независимо от сценария использования:
высокий параллелизм запросов
время ответа менее секунды
полные данные без потерь в большом масштабе
В этом документе объясняется, как ClickHouse отвечает этим требованиям в сфере Real-time аналитики, хранилищ данных и обсервабилити, а также как эти сценарии использования объединяются в единую платформу данных для агентных приложений.
Возможности приложений на базе ИИ — например, сгенерированные инсайты, обнаружение аномалий, рекомендации и интерфейсы на естественном языке для работы с данными продукта — требуют тесного цикла обратной связи между транзакционной записью и аналитическим чтением.
Стандартная архитектура для этого — Postgres + ClickHouse:
Postgres отвечает за транзакции и состояние приложения, ClickHouse — за аналитику.
ClickHouse обеспечивает быструю ингестию, выполнение запросов к миллиардам строк менее чем за секунду и уровень параллелизма, необходимый клиентским приложениям.
По мере того как приложения становятся агентными, эта связка приобретает ещё большее значение.
Агентам нужно непрерывно запрашивать актуальные данные продукта, что увеличивает и частоту запросов, и параллелизм.
ClickHouse решает эту задачу с помощью нативной интеграции Postgres + ClickHouse, которая обеспечивает автоматическую репликацию данных и единый опыт для разработчиков, избавляя от необходимости управлять отдельным CDC-конвейером.
Интерфейсы аналитики на естественном языке (иногда их называют AI Analyst) выходят из стадии экспериментов в продакшн.
Пользователи задают вопросы простым английским языком и ожидают получить ответы за секунды.С точки зрения инфраструктуры это означает, что один запрос на естественном языке порождает не один SQL-запрос — как правило, их возникают десятки за короткое время, пока агент исследует доступные датасеты и оценивает несколько цепочек рассуждений.
В результате рабочие нагрузки внутренних аналитиков начинают напоминать внешние клиентские рабочие нагрузки по профилю параллелизма и задержки.Традиционные хранилища данных проектировались для редких пакетных запросов. Они оптимизированы под общую пропускную способность множества запросов, а не под время ответа менее секунды при высоком параллелизме. Запуск рабочих нагрузок AI Analyst на такой архитектуре приводит либо к неприемлемой задержке, либо к затратам, которые растут быстрее, чем создаваемая ими ценность.ClickHouse был создан для интерактивных запросов с высоким параллелизмом: данные петабайтного масштаба, тысячи одновременных пользователей, время ответа менее секунды при работе с миллиардами строк.
Традиционные стеки обсервабилити построены на трёх отдельных опорах — метриках, журналах и трассировках, — при этом данные предварительно агрегируются и сэмплируются, чтобы контролировать затраты на хранилище. Такой компромисс приемлем для сценариев с участием человека, но не подходит для AI SRE.
Автоматизированный триаж инцидентов, анализ первопричин и корреляция аномалий требуют детализированных данных высокой кардинальности с длительным сроком хранения. AI-агент, который сопоставляет шаблон ошибки с событием развертывания трёхдневной давности, не сможет работать с сэмплированными журналами или прореженными метриками.Архитектура, поддерживающая AI SRE, — это единый источник истины на основе широких структурированных событий, хранящихся в столбцовом хранилище. События с полной детализацией сохраняются один раз, а метрики, трассировки и SLO вычисляются из них во время выполнения запроса, а не предварительно агрегируются при ингестии.
ClickHouse хорошо подходит для этой модели:
Высокое сжатие журналов и событийных данных
Выполнение запросов к широким событиям высокой кардинальности менее чем за секунду
Эффективная ингестия при объёмах инфраструктуры уровня продакшн
Модель затрат, основанная на compute и хранилище, а не на оплате за каждый ГБ ингестии
ClickStack — это стек обсервабилити от ClickHouse, построенный по этой модели и использующий OpenTelemetry в качестве слоя сбора данных.
Он доступен как решение с открытым исходным кодом и как управляемый сервис.
Хранилища данных и обсервабилити исторически были отдельными направлениями со своими поставщиками, заказчиками и стеками. Но сегодня это разделение все чаще оказывается скорее условностью, чем технической необходимостью.
Теперь обе области пишут в объектное хранилище. Обеим нужны интерактивные запросы с низкой задержкой и высоким параллелизмом. И на уровне данных одни и те же события часто хранятся дважды — один раз в платформе обсервабилити и один раз в хранилище данных, — а между ними находится хрупкий слой синхронизации.
Если хранить все это в открытых форматах один раз, чтобы к этим данным могли обращаться и AI Analyst, и AI SRE, это устраняет дублирование и делает контекст доступным в обоих рабочих процессах.
Уровень платформы: интерфейсы для AI-агентов и обсервабилити LLM
Для полноценной агентной аналитической платформы помимо базы данных нужны еще два компонента.Интерфейсы для AI-агентовКогда AI-агенты становятся основным интерфейсом для доступа к данным, платформа работы с данными должна предоставлять свои возможности в формате, с которым агенты могут работать, — через API, совместимые с MCP, интерфейсы на естественном языке и агентные фреймворки, интегрируемые без отдельной доработки под каждый сценарий использования. Agentic Data Stack объединяет ClickHouse и LibreChat, предлагая готовое решение для развертывания аналитических агентов поверх ваших данных.Обсервабилити LLMПо мере распространения агентов трассировка их выполнения, мониторинг производительности моделей, отслеживание затрат и отладка сбоев в многошаговых рабочих процессах становятся ключевым инженерным требованием. Langfuse работает на ClickHouse Cloud и обеспечивает обсервабилити LLM в реальном времени и в больших масштабах.