Skip to content

xennen/DataEngineerYP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Реализованные проекты во время обучения на Инженера данных в Яндекс Практикум

Python SQL PostgreSQL Docker Redis Kafka Airflow Vertica PySpark Spark Streaming Yandex Cloud Kubernetes S3 MongoDB Metabase

Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды

  • Построение витрин данных;
  • Проверка качества данных.

Использованные технологииs: SQL, PostgreSQL


Оптимизация модели данных интернет-магазина

  • Работа со слоями данных в хранилище;
  • Работа с таблицами фактов и справочников;
  • Дедупликация данных.

Использованные технологии: SQL, PostgreSQL


Обновление пайплайна обработки данных

  • Построение ETL-пайплайна;
  • Автоматическое обновление витрин данных.

Использованные технологии: Python, Airflow, S3, PostgreSQL, REST API


DWH для нескольких источников и витриной для расчетов с курьерами

  • Построение DWH;
  • Написание ETL-пайплайна.

Использованные технологии: PostgreSQL, Airflow, REST API, Python, MongoDB


Поиск сообществ с высокой конверсией в первое сообщение

  • Проектирование хранилища на колоночных базах данных;
  • Проектирование моделей хранения данных;
  • Проектирование ETL-пайплайнов между холодным хранилищем и колоночной базой данных.

Использованные технологии: S3, REST API, PostgreSQL, Airflow, Vetrica, Data Vault


Обновление хранилища данных для соцсети

  • Построение Data Lake;
  • Построение пайплайнов обработки данных с использованием Apache Spark.

Использованные технологии: Hadoop, MapReduce, HDFS, Apache Spark


Настройка потоковой обработки данных для агрегатора доставки еды

  • Построение системы потоковой обработки с использованием Apache Spark Structured Streaming;
  • Работа с брокером сообщений Kafka;
  • Объединение потоковых и статических данных;
  • Дедупликация данных при потоковой обработке.

Использованные технологии: Kafka, Spark Streaming, PySpark, PostgreSQL, Python


Создание DWH с использованием облачных технологий для агрегатора доставки еды

  • Создание микросервисов;
  • Потоковая обработка данных;
  • Развёртывание инфраструктуры в Yandex Cloud.

Использованные технологии: Yandex Cloud, Kubernetes, Redis, PostgreSQL, Docker, Python, Kafka, SQL, DataLens


Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа

  • Построение ETL-пайплайна;
  • Построение витрин данных;
  • Автоматическое обновление витрин данных.

Использованные технологии: PostgreSQL, Python, SQL, Airflow, Vetrica, Metabase