David의 개발 이야기!

[ R 공부 ] 결측치 처리하기 본문

R 공부

[ R 공부 ] 결측치 처리하기

david.kim2028 2022. 5. 8. 15:04
반응형

1. 결측치 확인하기

R에서는 결측치를 NA(Not Available)로 표현하고 있으며, 결측치가 있을 경우 연산 결과가 NA로 표현됨.

문자형변수는 <NA> 로,

숫자형 변수는 NA 로 표현됨.

 

- 결측치를 확인하기 위해 is.na() 함수를 이용!

- Table() 함수를 이용하여, 결측치의 개수를 파악할 수 있음!

 

 

- 일반적으로 함수를 사용할떄, 결측치가 포함된 변수는 연산을 하기 어려움

- 연산 결과가 NA로 출력되기 때문에 결측치를 처리한 후 작업하는 것이 일반적임

- na.rm =TRUE 를 통해 결측치 제거 

 

 

2. 결측치 제거하기

 

1. is.na(sample) 을 하면, NA가 있으면 TRUE로 반환, 없으면 FALSE 로 나옴 

2. !is.na(sample)을 하면, 위에거에서 TRUE, FALSE 만 반대로 나옴

3. 이 값을 sample[ , ] 에 넣어주면 TRUE에 해당하는 것만 나옴. 

4. id에 해당하는 FALSE만 지워주고(NA값을 지워주고) , math에 해당하는 건 아래에서 지워주면 끝. 

 

 

 

< R 에서 기본적으로 제공하는 na.omit() 함수를 이용하면 결측치가 발생한 전체 행을 제할 수 있음!! > 

 

 

 

3. 결측치 대체하기 

- na.rm=TRUE를 통해서 결측치를 제외하고, 평균을 구한다음에 전체 평균을 NA값에 넣어주었음. 

 

 

반응형
Comments