Реализованные проекты во время обучения на Инженера данных в Яндекс Практикум

Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды

Построение витрин данных;
Проверка качества данных.

Использованные технологииs: SQL, PostgreSQL

Оптимизация модели данных интернет-магазина

Работа со слоями данных в хранилище;
Работа с таблицами фактов и справочников;
Дедупликация данных.

Использованные технологии: SQL, PostgreSQL

Обновление пайплайна обработки данных

Построение ETL-пайплайна;
Автоматическое обновление витрин данных.

Использованные технологии: Python, Airflow, S3, PostgreSQL, REST API

DWH для нескольких источников и витриной для расчетов с курьерами

Построение DWH;
Написание ETL-пайплайна.

Использованные технологии: PostgreSQL, Airflow, REST API, Python, MongoDB

Поиск сообществ с высокой конверсией в первое сообщение

Проектирование хранилища на колоночных базах данных;
Проектирование моделей хранения данных;
Проектирование ETL-пайплайнов между холодным хранилищем и колоночной базой данных.

Использованные технологии: S3, REST API, PostgreSQL, Airflow, Vetrica, Data Vault

Обновление хранилища данных для соцсети

Построение Data Lake;
Построение пайплайнов обработки данных с использованием Apache Spark.

Использованные технологии: Hadoop, MapReduce, HDFS, Apache Spark

Настройка потоковой обработки данных для агрегатора доставки еды

Построение системы потоковой обработки с использованием Apache Spark Structured Streaming;
Работа с брокером сообщений Kafka;
Объединение потоковых и статических данных;
Дедупликация данных при потоковой обработке.

Использованные технологии: Kafka, Spark Streaming, PySpark, PostgreSQL, Python

Создание DWH с использованием облачных технологий для агрегатора доставки еды

Создание микросервисов;
Потоковая обработка данных;
Развёртывание инфраструктуры в Yandex Cloud.

Использованные технологии: Yandex Cloud, Kubernetes, Redis, PostgreSQL, Docker, Python, Kafka, SQL, DataLens

Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа

Построение ETL-пайплайна;
Построение витрин данных;
Автоматическое обновление витрин данных.

Использованные технологии: PostgreSQL, Python, SQL, Airflow, Vetrica, Metabase

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
1. Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды		1. Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды
2. Оптимизация модели данных интернет-магазина		2. Оптимизация модели данных интернет-магазина
3. Обновление пайплайна обработки данных		3. Обновление пайплайна обработки данных
4. DWH для нескольких источников и витриной для расчетов с курьерами		4. DWH для нескольких источников и витриной для расчетов с курьерами
5. Поиск сообществ с высокой конверсией в первое сообщение		5. Поиск сообществ с высокой конверсией в первое сообщение
6. Обновление хранилища данных для соцсети		6. Обновление хранилища данных для соцсети
7. Настройка потоковой обработки данных для агрегатора доставки еды		7. Настройка потоковой обработки данных для агрегатора доставки еды
8. Создание DWH с использованием облачных технологий для агрегатора доставки еды		8. Создание DWH с использованием облачных технологий для агрегатора доставки еды
9. Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа		9. Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

1. Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды

1. Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды

2. Оптимизация модели данных интернет-магазина

2. Оптимизация модели данных интернет-магазина

3. Обновление пайплайна обработки данных

3. Обновление пайплайна обработки данных

4. DWH для нескольких источников и витриной для расчетов с курьерами

4. DWH для нескольких источников и витриной для расчетов с курьерами

5. Поиск сообществ с высокой конверсией в первое сообщение

5. Поиск сообществ с высокой конверсией в первое сообщение

6. Обновление хранилища данных для соцсети

6. Обновление хранилища данных для соцсети

7. Настройка потоковой обработки данных для агрегатора доставки еды

7. Настройка потоковой обработки данных для агрегатора доставки еды

8. Создание DWH с использованием облачных технологий для агрегатора доставки еды

8. Создание DWH с использованием облачных технологий для агрегатора доставки еды

9. Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа

9. Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа

.gitignore

.gitignore

README.md

README.md

Repository files navigation

Реализованные проекты во время обучения на Инженера данных в Яндекс Практикум

About

Languages

xennen/DataEngineerYP

Folders and files

Latest commit

History

Repository files navigation

Реализованные проекты во время обучения на Инженера данных в Яндекс Практикум

About

Topics

Resources

Stars

Watchers

Forks

Languages