ADP/실기

데이터 표준화, 정규화

hyerimir 2024. 1. 23. 19:01

 

import pandas as pd
import numpy as np

# StandardScaler
# 기본 스케일, 평균과 표준편차 사용
# 평균을 0으로, 분산을 1로 모든 데이터를 변환하는 방법

from sklearn.preprocessing import StandardScaler
scaler = Standardscaler()
scaler.fit(data) # 모델 학습
# MinMaxScaler
# 최대/최소값이 각각 1, 0이 되도록 스케일링

sklearn.preprocessing.MinMaxScaler(feature_range = 0,1), copy = True, clip = False)
# 모델에 fit된 데이터를 기반으로 학습되며, 추가 데이터에는 비율이 적용됨

# 한번에
scaler.fit_transform()
# MaxAbsScaler
# 훈련 세트에 있는 각 기능의 최대 절대값이 1이 되도록 각 기능을 개별적으로 확장하고 변환
# 데이터를 이동/중앙에 배치하지 않으므로 희소성을 파괴하지 않음
class sklearn.preprocessing.MaxAbsScaler(*, copy = True)

# RobustScaler
# 중앙값(median)과 IQR(interquartile range) 사용, 아웃라이어의 영향을 최소화