Data Warehouse

2 min read

Что такое DWH и с чем его едят

Data Warehouse (DWH) — исторический архив важных для бизнеса метрик и информации.

В основном DWH используется для мониторинга показателей эффективности процессов, построения статистик, дашбордов с разного рода информацией.

Данные поступают в DWH из разных источников: от отдельных частей одного проекта до разных сервисов по своей сути. Объединяет эти данные в DWH принадлежность к одной организации.

В отличие от обычных баз данных, в DWH информация хранится продолжительное время, зачастую от нескольких лет. Это дает возможность строить исторические метрики и оценивать динамику изменения процессов в больших промежутках. Например, имея данные о подписчиках в сервисе и и интерфейсные метрики о времени, проведенном за чтением статей, можно оценить вовлеченность пользователей в контент и сравнить с обычными пользователями.

Пополнение DWH информацией происходит благодаря выгрузкам из баз данных сервисов, биллинговых систем, CRM- и ERP-систем, отправке метрик с фронтенда.

Структура DWH

Архитектуры DWH разнятся как по масштабам так и по сложности, но общая структура условно делится на 4 слоя:

  1. Data Layer — уровень, в который поступают первичные данные из различных источников
  2. Storage Layer — ядро DWH, отвечающее за структурирование первичной информации, её полноту и целостность
  3. Business Layer — слой аналитических витрин, в которых массивы данных преобразуются в удобную для дальнейшего анализа структуру, например, дашборды
  4. Service Layer — этот слой нужен для мониторинга состояния всех трех слоев, быстрого реагирования на ошибки, хранения логов