2. R의 결측값 처리 관련 함수

  • complete.cases()

데이터내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환

 

  • is.na()

결측값이 NA인지의 여부를 TRUE/FALSE로 변환

 

  • DMwR 패키지 : centralImputation()

NA값을 가운데 값(central)으로 대치(숫자 - 중위수, factor - 최빈값)

 

  • DMwR 패키지 : knnImputation()

NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치

(k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용)

 

  • Amelia 패키지 : amelia()

time - series - cross - sectional data set(여러 국가에서 매년 측정된 자료)에서 활용

 

3. 이상값 처리

1) 이상값

- 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 - 활용할 수 있음

- 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 - bad data 이므로 제거

 

2) 이상값의 인식

- ESD(Extreme Studentized Deviation) : 평균으로부터 3표준편차 떨어진 값

- 기하평균 - 2.5표준편차 < data < 기하평균 + 2.5표준편차

- Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)

 

3) 이상값의 처리

- 절단(triming) : 이상값이 포함된 레코드를 삭제

- 조정(winsorizing) : 이상값을 상한 또는 하한 값으로 조정

 

 

'ADsP > 3과목' 카테고리의 다른 글

4장_1절 통계분석의 이해2  (0) 2022.02.11
4장_1절 통계분석의 이해1  (0) 2022.02.11
3장_2~3절  (0) 2022.02.10
3장_1절 데이터 변경 및 요약3  (0) 2022.02.10
3장_1절 데이터 변경 및 요약2  (0) 2022.02.10

+ Recent posts