1. 통계

- 통계 : 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

- 통계자료 획득 방법

  • 총조사(census)
  • 표본조사(sampling)

대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사

- 모집단(population) : 조사하고자 하는 대상 집단 전체

- 원소(element) : 모집단을 구성하는 개체

- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소

- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다

 

- 표본추출방법

  • 단순랜덤 추출법(simple random sampling)
  • 계통추출법(systematic sampling)
  • 집락추출법(cluster random sampling)
  • 층화추출법(systematic sampling);(비례층화추출법, 불비례층화추출법)

실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법

 

- 자료의 측정 방법

  • 명목척도; 어느 집단에 속하는지
  • 순서척도; 측정 대상의 서열관계를 관측
  • 구간척도(등간척도); 속성의 양을 측정하여 구간이나 구간 사이의 간격이 의미가 있는 자료
  • 비율척도; 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도

2. 통계분석

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

  • 기술통계(descriptive statistic)

평균, 표준편차, 중위수, 최빈값, 그래프

  • 통계적 추론(statistcal inference)

- 모수 추정 : 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론

- 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론

- 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용(회귀분석, 시계열 분석 등)

 

3. 확률 및 확률 분포

  • 확률변수(random variable) : 특정 값이 나타날 가능성이 확률적으로 주어지는 변수

정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수

0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분된다

  • 표본공간(sample space) : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합

 

  • 이산형 확률분포(discrete distribution)

- 베르누이 확률변수(Bernoulli distribution) : 결과가 2개만 나오는 경우

- 이항분포(Binomial distribution) : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률

- 기하분포(geometric distribution) : 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 x번 실패할 확률

- 다항분포(multinomial distribution) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

- 포아송분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률 분포

 

  • 연속형 확률분포(continuous distribution)

- 균일분포(Uniform distribution) : 모든 확률변수 X가 균일한 확률을 가지는 확률분포

- 정규분포(Normal distribution) : 평균이 mu이고 표준편차가 sigma인 x의 확률밀도함수

- 표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포

- 지수분포(Exponential distribution) : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

- t-분포 : 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다, 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다

- 카이제곱분포(Chi-squre distribution) : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설검정에 사용되는 분포이다, 두 집단간의 동질성 검정에 활용된다(범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)

- F-분포(F-distribution) : 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포이다, 확률변수는 항상 양의 값만 갖고 카이제곱 분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다

 

4. 추정 및 가설검정

- 추정 : 표본으로부터 미지의 모수를 추측하는 것

- 점추정(point estimation) : '모수가 특정한 값일 것'이라고 추정하는 것, 평균, 표준편차, 중앙값 등을 추정

점추정 조건

  • 불편성(unbiasedness) : 모든 가능한 표본에서 얻은 기댓값은 모집단의 모수와 편의(차이)가 없다
  • 효율성(efficiency) : 추정량의 분산이 작을수록 좋다
  • 일치성(consistency) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다
  • 충족성(sufficient) : 추정량은 모수에 대하여 모든 정보를 제공한다

- 구간추정(interval estimation) : 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것, 모분산을 알거나 대표본의 경우 표준정규분포 활용, 모분산을 모르건 소표본의 경우 t분포를 활용

 

 

 

'ADsP > 3과목' 카테고리의 다른 글

4장_2절 기초 통계 분석1  (0) 2022.02.11
4장_1절 통계분석의 이해2  (0) 2022.02.11
3장_3절 기초 분석 및 데이터 관리  (0) 2022.02.11
3장_2~3절  (0) 2022.02.10
3장_1절 데이터 변경 및 요약3  (0) 2022.02.10

+ Recent posts