캐글 competition을 도입하면서 피드백을 받기 위해 열린 대회이다.
AUC
이진 분류 문제로 열의 의미가 익명화되어 있는 캐글에서 생성한 가상 데이터이다.
>>> print(f'train: {train.shape}, test: {test.shape}')
train: (262144, 258), test: (131072, 257)
print(f"정답 비율:\\n {train['target'].value_counts()}")
정답 비율이 비슷하여 딱히 문제 없어보인다.
train['target'].cumsum().plot()
선형으로 나오는 것을 보니 정답에 따라 잘 섞여있는 것 같다.
>>> print(f"전체 데이터 중 NULL 개수: {train.isnull().sum().sum()}")
전체 데이터 중 NULL 개수: 0