# 범주형 변수를 표현하는데 가장 널리 쓰이는 방법 : 원핫 인코딩(one-hot encoding)
pd.get_dummies('범주형변수')
pd.get_dummies(data, columns = ['범주형1', '범주형2']
# 원본 데이터에서 범주형 변수 대체
df_dum = pd.get_dummies(df, columns = ['주구매상품', '주구매지점'])
# train과 test dataset의 컬럼 개수는 무조건 같아야 함
# 즉, one-hot encoding 고유값 항목이 같아야 함
df.dum.columns[df_dum.columns.isin(df_dum2.columns)==False]
'ADP > 실기' 카테고리의 다른 글
t-test (0) | 2024.01.24 |
---|---|
변수 축소 (1) | 2024.01.24 |
결측치 , 이상치 처리하기 (0) | 2024.01.23 |
데이터 표준화, 정규화 (0) | 2024.01.23 |
데이터 샘플링 (0) | 2024.01.21 |