1
0

ETL_Вопросы.md 2.1 KB

1. Что такое ETL?

ETL — это процесс транспортировки данных, при котором информацию из разных мест преобразуют и кладут в новое место. Аббревиатура расшифровывается как extract, transform, load, то есть «извлечь, трансформировать, загрузить».

2. Где используются ETL-процессы?

ETL-процессы используют аналитики и инженеры данных в IT-компаниях, столкнувшихся с проблемами большого объема данных и их расположения в разных источниках.

3. Какие преимущества и недостатки имеет ETL?

Преимущества ETL:

  • ✅ Структурированные данные удобны для анализа.

Недостатки ETL:

  • ❌ Риск потери части данных в процессе трансформации.

4. Чем отличается ETL от ELT?

В отличие от ETL, в ELT данные загружаются в хранилище целиком («raw data»), а уже там приводятся в порядок. Таким образом, в ELT сохраняется весь объем исходных данных, но возрастает стоимость хранения больших объемов сырых данных.

5. Какова последовательность этапов ETL-процесса?

Процесс состоит из шести основных шагов:

  1. Подключение к источнику данных;
  2. Выгрузка данных из источника;
  3. Первичная очистка данных;
  4. Маппинг данных (приведение данных к единой структуре);
  5. Трансформация данных;
  6. Загрузка данных в хранилище.