# 카이제곱 검정
# 카이제곱 분포에 기초한 통계 방법
# 기본 가정 : 각 범주의 기대빈도가 5 이상이어야 함

# 적합성검정
# 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지 검정

# 독립성검정
# 두 개 이상의 범주형 변수에 대해서, 그 변수들의 관계에 따라 값들의 분포가 유의미한 차이를 보이는지 검정

# 동질성검정
# 부모집단의 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지 검정
# 적합성검정
# 실험에서 얻어진 관측치들이 예상한 이론과 일치하는지 아닌지를 검정
scipy.stats.chisquare(f_obs, f_exp = None)

# 귀무가설 : 전체 응답자 중 남자의 비율이 50%, 여자의 비율이 50%이다
# 대립가설 : 전체 응답자 중 남자의 비율이 50%, 여자의 비율이 50%라고 할 수 없다

import pandas as pd
df_t = pd.read_csv('../data/titanic.csv')
df_t.info()

table = df_t[['sex']].value_counts()
len(df_t['sex'])/2

# 적합도 검정 수행
from scipy.stats import chisquare
chi = chisquare(tabel, f_exp = [445.5, 445.5])
# p-value가 유의수준보다 작으므로 귀무가설을 기각
# 독립성 검정
# 두 범주형 변수들 사이의 관계가 독립인지 아닌지를 검정
# 교차표를 활용

# 귀무가설 : class와 survived는 독립이다
# 대립가설 : class와 survived는 독립이 아니다

table = pd.crosstab(df_t['class'], df_t['survived'])

# 카이제곱 검정을 통한 독립성 검정 수행
from scipy.stats import chi2_contigency
chi, p, df, expect = chi2_contigency(table)
# p-value가 유의수준보다 작으므로 귀무가설 기각
# 좌석 등급과 생존은 독립이 아니라고 할 수 있음
# 동질성 검정
# r개의 부분 모집단에서 추출한 표본이 c개의 범주화된 집단의 분포가 서로 동일한지 검정
# 교차표 활용하며, 계산법과 검증법은 모두 독립성 검정과 같은 방법으로 진행됨

# 귀무가설 : class의 분포는 survived에 관계 없이 동일하다
# 대립가설 : class의 분포는 survived에 관계 없이 동일하지 않다

'ADP > 실기' 카테고리의 다른 글

다중공선성 확인 및 변수선택법  (0) 2024.01.25
회귀분석  (0) 2024.01.25
분산분석 ANOVA  (1) 2024.01.24
t-test  (0) 2024.01.24
변수 축소  (1) 2024.01.24

+ Recent posts