Создание витрины данных для RFM-классификации пользователей агрегатора доставки еды
- Построение витрин данных;
- Проверка качества данных.
Использованные технологииs: SQL
, PostgreSQL
Оптимизация модели данных интернет-магазина
- Работа со слоями данных в хранилище;
- Работа с таблицами фактов и справочников;
- Дедупликация данных.
Использованные технологии: SQL
, PostgreSQL
Обновление пайплайна обработки данных
- Построение ETL-пайплайна;
- Автоматическое обновление витрин данных.
Использованные технологии: Python
, Airflow
, S3
, PostgreSQL
, REST API
DWH для нескольких источников и витриной для расчетов с курьерами
- Построение DWH;
- Написание ETL-пайплайна.
Использованные технологии: PostgreSQL
, Airflow
, REST API
, Python
, MongoDB
Поиск сообществ с высокой конверсией в первое сообщение
- Проектирование хранилища на колоночных базах данных;
- Проектирование моделей хранения данных;
- Проектирование ETL-пайплайнов между холодным хранилищем и колоночной базой данных.
Использованные технологии: S3
, REST API
, PostgreSQL
, Airflow
, Vetrica
, Data Vault
Обновление хранилища данных для соцсети
- Построение Data Lake;
- Построение пайплайнов обработки данных с использованием Apache Spark.
Использованные технологии: Hadoop
, MapReduce
, HDFS
, Apache Spark
Настройка потоковой обработки данных для агрегатора доставки еды
- Построение системы потоковой обработки с использованием Apache Spark Structured Streaming;
- Работа с брокером сообщений Kafka;
- Объединение потоковых и статических данных;
- Дедупликация данных при потоковой обработке.
Использованные технологии: Kafka
, Spark Streaming
, PySpark
, PostgreSQL
, Python
Создание DWH с использованием облачных технологий для агрегатора доставки еды
- Создание микросервисов;
- Потоковая обработка данных;
- Развёртывание инфраструктуры в Yandex Cloud.
Использованные технологии: Yandex Cloud
, Kubernetes
, Redis
, PostgreSQL
, Docker
, Python
, Kafka
, SQL
, DataLens
Реализация пайплайна обработки данных из источников и хранилище для финтех-стартапа
- Построение ETL-пайплайна;
- Построение витрин данных;
- Автоматическое обновление витрин данных.
Использованные технологии: PostgreSQL
, Python
, SQL
, Airflow
, Vetrica
, Metabase