本研究將針對電信客戶流失資料集做分析。 本資料集為 Kaggle 平台上位在南加利福尼亞州的某電信公司所提供,含有7043位客戶的電話和網際網路服務資料。此資料集內容包含客戶特徵、選用的服務、流失情形以及使用情況等等。
原始資料客戶流失(Churn)欄位中,無流失樣本數為5174筆,流失樣本為3305筆,本研究使用隨機抽樣的上下採樣法,將樣本數過多的無流失資料隨機刪除,並隨機增加流失資料,使資料趨近平衡。
參數設定如下:
max_depth = 5
test_size = 0.3
K_fold = 10
#train_size = 0.63, valid_size = 0.07, test_size = 0.3
參數設定如下:
PCA(n_components=14)
test_size = 0.3
K_fold = 10
#train_size = 0.63, valid_size = 0.07, test_size = 0.3