# 범주형 변수를 표현하는데 가장 널리 쓰이는 방법 : 원핫 인코딩(one-hot encoding)
pd.get_dummies('범주형변수')
pd.get_dummies(data, columns = ['범주형1', '범주형2']

# 원본 데이터에서 범주형 변수 대체
df_dum = pd.get_dummies(df, columns = ['주구매상품', '주구매지점'])

 

# train과 test dataset의 컬럼 개수는 무조건 같아야 함
# 즉, one-hot encoding 고유값 항목이 같아야 함

df.dum.columns[df_dum.columns.isin(df_dum2.columns)==False]

'ADP > 실기' 카테고리의 다른 글

t-test  (0) 2024.01.24
변수 축소  (1) 2024.01.24
결측치 , 이상치 처리하기  (0) 2024.01.23
데이터 표준화, 정규화  (0) 2024.01.23
데이터 샘플링  (0) 2024.01.21

+ Recent posts