DATALEARN | DE - 101 | МОДУЛЬ 4-5 ETL Подсистемы

Аватар автора
Data Learn
Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории: Data Extracting (получить данные из систем - E в ETL) Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL) Delivering Data for Presentation (обработка данных в DW - L в ETL) Managing the ETL environment (yправление и мониторинг компонентов ETL) Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27). Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие. В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим примеры популярных on-premise batch решений. Узнаете в чем отличие ETL от ELT, для чего нужны такие решения, что значит batch и on-premise, как с помощью ETL/ELT можно создавать модели...

0/0


0/0

0/0

0/0