Skip to content

В данном репозитории представлены не все работы, но здесь есть ссылки на те, которые я решил добавить в портфолио - остальное можно увидеть в других (если они были загружены)

Notifications You must be signed in to change notification settings

KsyLight/portfolio

Repository files navigation

Мои основные проекты

Название Описание Инструменты
Яндекс Практикум
Исследовательский проект в сфере общественного питания Москвы
  • Проведена предобработка данных и предварительный анализ;
  • Проведено исследование по различным вопросам;
  • Сделаны выводы и даны рекомендации.
Python, Jupyter Notebook, Pandas, Numpy, Matplotlib, Seaborn, Phik
Исследование стартапов
  • Проведена предобработка данных: найдены и исправлены пропуски и некорректные типы данных, а также дубликаты или ошибки в чтении датасетов;
  • Проведено предварительное исследование (в том числе для одного из пунктов проведена категоризация, а также проверена возможность объединения датасетов по конкретным столбцам), а также датасет разделен на 2 других для более корректного отображения и чтения данных (причины такого решения описаны в работе);
  • Сделано непосредственное исследование: анализ выбросов, анализ того, куплены ли стартапы бесплатно, стартапы разделены по ценовым категориям, анализ того, сколько раундов продержится стартап перед покупкой.
Python, Jupyter Notebook, Pandas, NumPy, Matplotlib, Matplotlib_Venn, Seaborn, Missingno, Pandas_Datareader, IPython, Datetime
Обработка данных для команды игры "Секреты Темнолесья
  • Проведена предобработка данных: найдены и исправлены пропуски и некорректные типы данных, а также дубликаты;
  • Проведена фильрация данных = получен новый срез;
  • Произведена категоризация по оценкам пользователей и по оценкам критиков.
Python, Jupyter Notebook, Pandas
Анализ данных для агентства недвижимости
  • Решены 3 ad hoc задачи в виде запросов на PostgreSQL;
  • По результатам подзапросов проведено исследование по рынку недвижимости Санкт-Петербурга и Ленинградской оласти;
  • Всего в результате 3 запроса с использованием оконных функций, CTE и подзапросов, а также исследвательский комментарий.
SQL (PostgreSQL), DBeaver
TED-Talks Дашборд Yandex DataLens
Аналитика недвижимости Дашборд Yandex DataLens
Pet-проекты
Исследование недвижимости по данным Яндекс Недвижимости
  • Проведена предобработка данных и предварительный анализ (для заполнения пропусков построена предсказательная модель на основе линейной регрессии);
  • Проведено исследование рынка недвижимости по данным с Яндекс Недвижимости, уже подготовленным ранее;
  • Проведены статистические тесты по двум различным гипотезам (бутстреп);
  • Построены предсказательные модели цены крвартиры на основе линейной регрессии.
Python, Jupyter Notebook, Pandas, Numpy, Matplotlib, Seaborn, XGBoost, Scipy, Sklearn, JobLib, Datetime, wbdata, pandas.api.types
Анализ продаж авиабилетов
  • Проведена предобработка данных и предварительный анализ;
  • Проведено исследование: создан отчёт о выручке, исследованы выручка и сезонность продаж, а также связи и зависимости в данных, определены топ-10 направлений перелётов и так далее;
  • Проведены статистические тесты по гипотезе: "выручка от продажи билетов для этих двух групп клиентов (группы, которые покупают билеты в разное время) отличается."
Python, Jupyter Notebook, Pandas, Matplotlib, Seaborn, Numpy, Scipy
Классификация мошеннических транзакций
  • Проведена комплексная предобработка данных: извлечены признаки времени, логарифмирована сумма транзакции, закодированы категориальные признаки;
  • Обучены и сравнивались различные модели, все сделаны на CatBoost (CatBoostClassifier), произведён подбор гиперпараметров с помозью Optuna;
  • Оценка производилась по метрике F1-score, а также логарифмической функции потерь (logloss);
  • Финальная проверка модели осуществлялась на тестовой выборке через сабмит на Kaggle. Заняла 18 место на соревновании.
Python, Jupyter Notebook, Pandas, CatBoost, Scikit-learn, SHAP, Matplotlib, Seaborn, Optuna, Phik
Регрессия стоимости аренды жилья (вероятно, данные с Airbnb)
  • Проведена всесторонняя предобработка данных: логарифмирована целевая переменная, обработаны пропуски, извлечены признаки из даты, закодированы категориальные переменные;
  • Обучены и протестированы несколько моделей, все на CatBoost (CatBoostRegressor), проведён подбор гиперпараметров с использованием Optuna;
  • Модель оценивалась по метрикам RMSE, MSE и R²; выполнена визуализация остатков, ошибок и предсказаний, а также анализ важности признаков через SHAP;
  • Финальная модель отправлена на Kaggle, где заняла 1 место в соревновании.
Python, Jupyter Notebook, Pandas, CatBoost, Scikit-learn, SHAP, Matplotlib, Seaborn, Optuna, Phik, Statsmodels
Стекинг регрессионных моделей с оценкой неопределённости
  • Проведён полный EDA-анализ: визуализированы распределения признаков, выбросы, пропуски, проведен корреляционный анализ; выявлены дублирующие/избыточные признаки;
  • Реализована функция предобработки: извлечение даты, логарифмирование числовых признаков, кодирование категориальных переменных, масштабирование и заполнение пропусков через Pipelines и ColumnTransformer;
  • Обучены 5 базовых моделей: CatBoost, LightGBM, XGBoost, RandomForest, Ridge, с кросс-валидацией по KFold (K=5), с применением стекинга через мета-модель CatBoost;
  • Выполнена оценка неопределённостей: рассчитаны алеаторная, эпистемическая и суммарная (total) неопределённости, построены графики зависимости ошибки от доверия модели;
  • Для лучшей модели проведён финальный анализ ошибок, предсказаний и устойчивости, сравнение с простой CatBoost-моделью, обученной через Optuna (которая показала лучшие метрики);
  • Финальные предсказания проверены с помощью таргета для теста в лице датасета solution.
Python, Jupyter Notebook, Pandas, Numpy, SciPy, CatBoost, LightGBM, XGBoost, Scikit-Learn, Missingno, Matplotlib, Seaborn, Optuna, Phik

About

В данном репозитории представлены не все работы, но здесь есть ссылки на те, которые я решил добавить в портфолио - остальное можно увидеть в других (если они были загружены)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published