ADP/실기

범주형 데이터 전처리

hyerimir 2024. 1. 23. 19:27
# 범주형 변수를 표현하는데 가장 널리 쓰이는 방법 : 원핫 인코딩(one-hot encoding)
pd.get_dummies('범주형변수')
pd.get_dummies(data, columns = ['범주형1', '범주형2']

# 원본 데이터에서 범주형 변수 대체
df_dum = pd.get_dummies(df, columns = ['주구매상품', '주구매지점'])

 

# train과 test dataset의 컬럼 개수는 무조건 같아야 함
# 즉, one-hot encoding 고유값 항목이 같아야 함

df.dum.columns[df_dum.columns.isin(df_dum2.columns)==False]