R 공부
[ R 공부 ] 결측치 처리하기
david.kim2028
2022. 5. 8. 15:04
반응형
1. 결측치 확인하기
R에서는 결측치를 NA(Not Available)로 표현하고 있으며, 결측치가 있을 경우 연산 결과가 NA로 표현됨.
문자형변수는 <NA> 로,
숫자형 변수는 NA 로 표현됨.
- 결측치를 확인하기 위해 is.na() 함수를 이용!
- Table() 함수를 이용하여, 결측치의 개수를 파악할 수 있음!
- 일반적으로 함수를 사용할떄, 결측치가 포함된 변수는 연산을 하기 어려움
- 연산 결과가 NA로 출력되기 때문에 결측치를 처리한 후 작업하는 것이 일반적임
- na.rm =TRUE 를 통해 결측치 제거
2. 결측치 제거하기
1. is.na(sample) 을 하면, NA가 있으면 TRUE로 반환, 없으면 FALSE 로 나옴
2. !is.na(sample)을 하면, 위에거에서 TRUE, FALSE 만 반대로 나옴
3. 이 값을 sample[ , ] 에 넣어주면 TRUE에 해당하는 것만 나옴.
4. id에 해당하는 FALSE만 지워주고(NA값을 지워주고) , math에 해당하는 건 아래에서 지워주면 끝.
< R 에서 기본적으로 제공하는 na.omit() 함수를 이용하면 결측치가 발생한 전체 행을 제할 수 있음!! >
3. 결측치 대체하기
- na.rm=TRUE를 통해서 결측치를 제외하고, 평균을 구한다음에 전체 평균을 NA값에 넣어주었음.
반응형