소개

대회 목적

캐글 competition을 도입하면서 피드백을 받기 위해 열린 대회이다.

평가 지표

AUC

데이터 소개

이진 분류 문제로 열의 의미가 익명화되어 있는 캐글에서 생성한 가상 데이터이다.

Untitled

풀이

EDA

데이터 행/열 확인

>>> print(f'train: {train.shape}, test: {test.shape}')
train: (262144, 258), test: (131072, 257)

정답 비율 확인

print(f"정답 비율:\\n {train['target'].value_counts()}")

Untitled

정답 비율이 비슷하여 딱히 문제 없어보인다.

정답 누출 확인

train['target'].cumsum().plot()

Untitled

선형으로 나오는 것을 보니 정답에 따라 잘 섞여있는 것 같다.

NULL값 확인

>>> print(f"전체 데이터 중 NULL 개수: {train.isnull().sum().sum()}")
전체 데이터 중 NULL 개수: 0