Хакатон Raifhack DS от Райфайзен по Data Science. 24-26 сентября 2021г.
Реализация модели оценки стоимости коммерческой недвижимости.
Данные в обучающей выборке делятся на 2 типа:
- наблюдения с price_type = 1 (цена получена в результате ручной оценки);
- наблюдения с price_type = 0 (цена из объявления).
В тестовой выборке только наблюдения price_type = 1, поэтому мы обучали наши модели только на данных с ценами такого же типа.
EDA в файле raifhack_EDA.ipynb
Решение в файле raifhack_main.ipynb
Описание признаков в файле opisanie_priznakov.pdf
Final submission в файле raif_final_sub.csv
- ручная обработка признака floor и создание признака с количеством занимаемых помещением этажей;
- кодирование категориальных признаков с применением алгоритма Target Encoding;
- генерация новых признаков на основе признаков с самой высокой корреляцией с целевой переменной;
- заполнение пропусков константой;
- кластеризация данных по долготе и широте,
- логарифмирование целевой переменной.
Методы, которые не улучшили метрику:
- отбор признаков на основе корреляционного анализа;
- отбор признаков на основе важности признаков;
- генерация новых признаков на основе важности признаков;
- логарифмирование признака total_square(общая площадь помещения);
- заполнение пропусков в числовых признаках медианой или средним, группируя данные по региону.
- войдите в google colab
pip install -U -r requirements.txt
- разбиваем обучающую выборку на 8 фолдов, группируя по месяцам;
- поочередно обучаем 8 моделей XGBRegressor на подгруппах из всех месяцев, кроме одного, который используем для валидации;
- на каждом шаге прогнозируем тестовую выборку;
- усредняем результаты 8 моделей;
- на последнем шаге наш результат усредняем с прогнозом на основе реализации бейзлайна от организаторов(
target_03.csv
).
Организаторами была предложена кастомная метрика, с которой можно ознакомиться в ноутбуке raifhack_main.ipynb
в разделе "Метрика".
raif_metric:
- public score - 1.3852143678029196;
- private score - 1.244600101577711.