회귀

hyerimir 2022. 11. 18. 14:56

경사 하강법(Gradient Descent)

비용 함수의 반환 값, 즉 예측값과 실제 값의 차이가 작아지는 방향성을 가지고 W 파라미터를 지속적으로 보정

핵심 : 어떻게 하면 오류가 작아지는 방향으로 W값을 보정할 수 있을까

경사하강법은 수행 시간이 매우 오래 걸린다

- 확률적 경사 하강법 Stochastic Gradient Descent : 일부 데이터만 이용해 w가 업데이트되는 값을 계산

- (미니 배치) 확률적 경사 하강법 : 전체 데이터에서 랜덤하게 batch_size만큼 데이터 추출

Ordinary Least Squares 기반의 회귀 계수 계산은 입력 피처의 독립성에 많은 영향을 받는다

다중공선성(multi-collinearity) : 피처 간의 상관간계가 매우 높은 경우 분산이 매우 커져서 오류에 매우 민감해짐

일반적으로 상관관계가 높은 피처가 많은 경우 독립적인 중요한 피처만 남기고 제거하거나 규제를 적용

매우 많은 피처가 다중 공선성 문제를 가지고 있다면 PCA를 통해 차원 축소를 수행

회귀 평가 지표 : MAE, MSE, RMSE, R^2

LinearRegression을 이용해 보스턴 주택 가격 회귀 구현

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy import stats
from sklearn.datasets import load_boston
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

boston = load_boston()
bostonDF = pd.DataFrame(boston.data, columns = boston.feature_names)
bostonDF['PRICE'] = boston.target

bostonDF.head()

#2개의 행과 4개의 열을 가진 subplots를 이용. axs는 4*2개의 ax를 가짐
fig, axs = plt.subplots(figsize=(16,8), ncols=4, nrows=2)
lm_features = ['RM', 'ZN', 'INDUS', 'NOX', 'AGE', 'PTRATIO', 'LSTAT', 'RAD']
for i, feature in enumerate(lm_features):
    row = int(i/4)
    col = i%4
    #시본의 regplot을 이용해 산점도와 선형 회귀 직선을 함께 표현
    sns.regplot(x=feature, y='PRICE', data=bostonDF, ax=axs[row][col])

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

y_target = bostonDF['PRICE']
X_data = bostonDF.drop(['PRICE'], axis=1, inplace=False)

X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.3, random_state = 156)

#선형 회귀 OLS로 학습/예측/평가 수행
lr = LinearRegression()
lr.fit(X_train, y_train)
y_preds = lr.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)

print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

다항 회귀는 선형 회귀다

선형회귀와 비선형회귀를 나누는 기준은 회귀 계수가 선형/비선형인지에 따른 것이지 독립변수의 선형/비선형 여부와는 무관하다

from sklearn.preprocessing import PolynomialFeatures
import numpy as np

poly = PolynomialFeatures(degree=2)
poly.fit(X)
poly_ftr = poly.transform(X)

사이킷런은 PolynomiaFeatures로 피처를 변환한 후에 LinearRegression 클래스로 다항 회귀를 구현

사이킷런의 Pipeline 객체를 이용해 한 번에 다항 회귀를 구현하는 것이 코드를 더 명료하게 작성할 수 있음

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from skelarn.pipeline impot Pipeline
import numpy as np

def polynomial_func(X):
    y = 1 + 2*X[:,0] + 3*X[:,0]**2 + 4*X[:,1]**3
    return y
    
#Pipeline 객체로 Streamline하게 Polynomial Feature 변환과 Linear Regression을 연결
model = Pipeline([('poly', PolynomialFeatures(degree=3)),
				('linear', LinearRegression())])
                
X = np.arange(4).reshape(2,2)
y = polynomial_func(x)

model = model.fit(X,y)

print('Polynomial 회귀 계수\n', np.round(model.named_steps['linear'].coef_,2))

편향 - 분산 트레이드오프(Bias-Variance Trade off)

매우 단순화, 과소적합 : 고편향(High Bias), 낮은 분산

매우 복잡, 고적합 : 고분산(High Variance), 낮은 편향