Skip to content

Summary on Prize-winning Data Analysis Process of 2017 Bigcontest

License

Notifications You must be signed in to change notification settings

sunsikim/bigcontest2017

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Delay Detective

빅콘테스트 2017 챌린지리그 데이터 분석과정을 소개하는 repository입니다. 분석 과정을 담은 ppt, Rmd와 분석을 위해 생성한 R 함수들을 각각 업로드했습니다. 경연에 참가한 728팀 사이에서 SKT 데이터사업본부장상을 수상했습니다.

Overview

문제가 출제될 2017년 당시의 국내 대출시장에서는 고신용자를 대상으로 한 저금리대출, 저신용자를 대상으로 한 고금리대출에 비해 중신용자를 대상으로 한 중금리대출은 활성화되지 않았습니다. 이는 대출기관들이 중신용자에 대한 대출 경험이 적어서 중신용 고객의 상환능력/의지를 파악할 데이터가 부족했기 때문이었습니다. 그래서 중금리 대출시장은 수요에 비해 공급이 부족한 상황이었습니다.

이에 한화생명보험사는 당사의 보험가입 이력이 존재하는 10만명 가량 고객들의 신용대출 데이터에 통신, 신용평가 데이터를 결합해 대출 연체여부 예측을 하고자 했습니다. 이는 대출 데이터가 부족한 만큼 대출 연체 여부에 유의한 영향을 미칠 수 있는 대안 데이터를 활용해 중신용 고객의 상환능력/의지를 파악하고자 한 것입니다.

10만명 가량의 대출자들 중 4%만이 대출 연체를 한 training data를 통해 연체 여부값이 비워져 있는 test data의 대출 연체 여부를 잘 예측하는 것이 1차 목표였습니다. 뿐만 아니라, 보험사 입장에서는 대출자의 결합 데이터 중 어떤 변수가 대출 연체에 영향을 미치는지를 파악하여 향후에 자사 데이터와 결합해서 사용할 변수를 선택하는 과정이 필요할 거라고 생각했습니다. 이에 따라 해석모형과 예측모형을 각각 생성했고, 좋은 결과를 얻었습니다.

Contents

전체 과정은 크게 아래와 같이 요약됩니다. 해석모형, 예측모형 모두 Boosting을 메인 테마로 하여 적합시켰습니다.

  1. 데이터 전처리
    • 파생변수 생성
  2. 해석모형 적합
    • Gradient boosting을 활용한 변수선택
  3. 예측모형 적합
    • SVM, XGBoost 단일모형 적합
    • GAM에 의한 Ensemble

About

Summary on Prize-winning Data Analysis Process of 2017 Bigcontest

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages