Open Lakehouse: как компании ломают барьеры старой аналитики

Компаниям уже недостаточно традиционных подходов к аналитике. Нужны скорость, гибкость и возможность подключать ИИ к полным и согласованным данным. Подход Open Lakehouse решает эти задачи и становится основой корпоративной аналитики нового поколения.
Директор по продукту в Postgres Professional
Об эксперте: Николай Голов — директор по продукту Tengri Data компании Postgres Professional. Специализируется на архитектурах данных, корпоративной аналитике и платформах для работы с большими объемами информации.

В 2025 году ключевым фактором конкурентоспособности стало то, как быстро компания умеет превращать данные в управленческие решения. Текущий объем и разнообразие данных выросли, и традиционные подходы к аналитике уже не дают нужной скорости и гибкости. Параллельно бизнес ожидает от аналитики работающих ИИ-сценариев, но модели вроде ChatGPT или DeepSeek эффективны только при доступе к очищенным и согласованным данным.

В отчете State of Data4AI Report 2025 компании Wipro (Индия, глобальная ИТ-компания в сфере консалтинга и технологических услуг) говорится, что около 80% ИИ-инициатив не удаётся масштабировать именно из-за недостаточной готовности данных.

На этом фоне на мировой арене развивается подход Open Lakehouse — единое хранилище данных в открытом формате, к которому можно подключать любые аналитические и вычислительные инструменты. Ниже разберем, какие задачи компании уже решают с помощью этой архитектуры и почему она становится основой аналитики нового поколения.

Что такое Open Lakehouse: от хранилища к экосистеме данных

Open Lakehouse — это современный подход к построению корпоративной аналитики, основанный на разделении вычислений (Compute) и хранения (Storage). Данные помещаются в единое хранилище и сохраняются в открытых табличных форматах — Apache Iceberg, Hudi или Delta. В отличие от традиционных баз данных, здесь само хранилище не «жестко привязано» к движку запросов. Такую «папку» можно разместить в S3-совместимом хранилище, например в Яндекс Облаке или VK Cloud, и подключать к ней разные инструменты: Spark, Trino, ClickHouse.

Пример архитектуры аналитического решения на базе Open Lakehouse
Пример архитектуры аналитического решения на базе Open LakehouseИсточник: Postgres Professional

Такая архитектура снимает главный барьер старых систем — зависимость от вендора и жесткую связку «хранилище = инструмент». Теперь компания может масштабировать мощности и хранение независимо, подключать новые аналитические инструменты без миграции и без риска потери данных.

Почему старые подходы перестали работать

Привычные архитектуры начинают ломаться под нагрузкой. Крупные банки нередко используют ClickHouse для анализа транзакций, хотя эта колоночная СУБД создавалась для веб-аналитики. Она хорошо справляется с множеством легких запросов, но медленно работает с крупными таблицами и не поддерживает транзакционность. При пиковых нагрузках теряются строки, что критично для финансовой отчетности, так как регулятор требует точности «до копейки».

Похожая ситуация с Greenplum. На старте система стабильна, но по мере роста бизнеса быстро упирается в координатор и не масштабируется горизонтально. Современных алгоритмов внутри движка нет, а квалифицированных администраторов мало.

Сравнение производительности Open Lakehouse- и MPP-СУБД
Сравнение производительности Open Lakehouse- и MPP-СУБДИсточник: Postgres Professional

Корень проблемы в монолитности: данные и вычисления связаны неразрывно. Любая миграция превращается в проект на месяцы. Open Lakehouse убирает эти ограничения. Данные лежат в открытом формате, а вычисления можно масштабировать и менять без переливов и простоя.

Как бизнес использует Open Lakehouse на практике

Финансовый сектор

Крупные финансовые организации ежедневно обрабатывают миллионы транзакций из десятков источников: мобильных приложений, процессинговых центров, внутренних CRM. В традиционной архитектуре для этого строятся сложные конвейеры, где данные выгружаются, перекладываются и очищаются в отдельных системах. Это замедляет отчетность и создает риск несоответствий.

Open Lakehouse решает проблему иначе. Все потоки данных: карточные операции, события в мобильных приложениях, данные партнеров сразу складываются в единое озеро в формате Iceberg, где сохраняется полная история изменений. Поверх этого слоя работают аналитические движки, которые формируют отчеты и прогнозы в SQL-запросах без создания копий. Финансовый контроль становится непрерывным, а закрытие месяца занимает не недели, а дни.

аналитика
Источник: Freepik

Ретейл и e-commerce

В прогнозировании спроса и управлении запасами в ретейле Open Lakehouse дает тот же эффект, но с другой стороны. Ранее ретейлеры объединяли данные о продажах, остатках и акциях через множество витрин, каждая из которых обновлялась с задержкой. Теперь все источники: кассы, онлайн-магазин, программы лояльности, склады — подключены к одному хранилищу. Аналитики и алгоритмы машинного обучения работают поверх одних и тех же таблиц, видят продажи и промо в режиме почти реального времени и могут корректировать цены и поставки без долгих выгрузок. Это повышает точность прогнозов и снижает излишки и out-of-stock. Точнее планируются поставки, укрепляется связь маркетинга с реальными продажами.

Промышленность

В промышленности Open Lakehouse помогает решать задачу предиктивного обслуживания. На предприятия, где установлены тысячи датчиков, ежедневно поступают миллиарды телеметрических событий. Классические базы данных не справляются с таким объемом: попытка соединить телеметрию с журналами ремонтов приводит к часам ожидания. В архитектуре Lakehouse данные с датчиков и журналов ремонтов лежат рядом в одном озере, а вычисления происходят на внешних кластерах. Производственный блок получает ранние сигналы об аномалиях и переключается на плановое обслуживание. Простой оборудования сокращается, а закупки запчастей планируются по фактическому износу, а не по усредненным регламентам.

Маркетинг и онлайн-платформы

У крупных онлайн-платформ и маркетплейсов десятки приложений и сайтов, миллиарды событий в день. События приходят в разных форматах — JSON, лог-файлы, таблицы — и постоянно меняются. Раньше приходилось строить сложные ETL-цепочки для объединения и ждать сутки. Open Lakehouse позволяет складывать эти данные «как есть», без заранее заданной схемы, а нужную структуру создавать потом с помощью SQL-преобразований. Обновления идут в режиме near-real-time за минуты или часы. Маркетинг видит стоимость привлечения и конверсию в актуальном разрезе и перестает ждать конца периода для корректировок.

Аналитик
Источник: Freepik

Искусственный интеллект

Генеративные модели требуют мультимодальных данных: текстов, изображений, аудио и структурированных таблиц одновременно. Open Lakehouse дает возможность хранить все это в одном пространстве. Модели могут обращаться к текстам регламентов, звонкам, тикетам и таблицам без дублирования. На основе этих данных создаются корпоративные ассистенты и системы поддержки, которые реально знают бизнес-контекст, это снижает нагрузку на сотрудников и повышает скорость отклика клиентам.

Там, где раньше на сбор датасетов уходили недели, теперь отрезок сокращается до дней за счет единого хранилища и общего слоя метаданных.

Почему за Open Lakehouse будущее

Lakehouse даёт компаниям три ключевых преимущества: масштабирование без перестройки процессов, независимость от поставщиков и готовность к ИИ-сценариям благодаря работе с разными типами данных. На практике это означает снижение совокупной стоимости владения, уменьшение числа копий данных, сокращение цикла принятия решений и повышение устойчивости бизнеса.

Порог входа и варианты внедрения

Есть три пути внедрения Open Lakehouse. Первый — собрать архитектуру из open-source компонентов: S3-хранилище, Spark, Trino, каталог версий и управление доступом. Требуется 10−20 инженеров и 1−2 года на достижение устойчивости. Второй — использовать on-premise платформы вроде Dremio: команде до 10 человек нужно полгода-год. Третий — готовые облачные решения, такие как Snowflake, Databricks или российская Tengri Data Platform: достаточно 1−2 человек и 1−2 месяцев. Выбор зависит от сроков, бюджета и команды, но ключевым будет хранение данных в открытом формате, чтобы сохранять манёвренность и не зависеть от поставщика.

Куда движется технология

Развитие Lakehouse идет по нескольким направлениям. Компании объединяют озера данных со стримингом, формируя «real-time Lakehouse», где аналитика работает почти без задержек. Векторные индексы и RAG-подход делают ИИ-сервисы точнее — они опираются на корпоративные данные, а не на интернет. Параллельно растет спрос на готовые платформы: собрать Lakehouse с нуля возможно, но это требует больших команд и длительной интеграции. Хранение данных в открытом виде сохраняет маневренность и упрощает запуск новых продуктов.

Lakehouse решает проблему доступа ко всем данным, убирает вендор-лок и позволяет масштабировать хранение и вычисления независимо. Через несколько лет гибкие и открытые архитектуры станут стандартом не только в финансах, ретейле или промышленности. Они создадут основу для совместных аналитических инициатив между бизнесом и государством, ускорят импортозамещение и развитие науки.