Что такое DWH и с чем его едят
Data Warehouse (DWH) — исторический архив важных для бизнеса метрик и информации.
В основном DWH используется для мониторинга показателей эффективности процессов, построения статистик, дашбордов с разного рода информацией.
Данные поступают в DWH из разных источников: от отдельных частей одного проекта до разных сервисов по своей сути. Объединяет эти данные в DWH принадлежность к одной организации.
В отличие от обычных баз данных, в DWH информация хранится продолжительное время, зачастую от нескольких лет. Это дает возможность строить исторические метрики и оценивать динамику изменения процессов в больших промежутках. Например, имея данные о подписчиках в сервисе и и интерфейсные метрики о времени, проведенном за чтением статей, можно оценить вовлеченность пользователей в контент и сравнить с обычными пользователями.
Пополнение DWH информацией происходит благодаря выгрузкам из баз данных сервисов, биллинговых систем, CRM- и ERP-систем, отправке метрик с фронтенда.
Структура DWH
Архитектуры DWH разнятся как по масштабам так и по сложности, но общая структура условно делится на 4 слоя:
- Data Layer — уровень, в который поступают первичные данные из различных источников
- Storage Layer — ядро DWH, отвечающее за структурирование первичной информации, её полноту и целостность
- Business Layer — слой аналитических витрин, в которых массивы данных преобразуются в удобную для дальнейшего анализа структуру, например, дашборды
- Service Layer — этот слой нужен для мониторинга состояния всех трех слоев, быстрого реагирования на ошибки, хранения логов