David의 개발 이야기!

[ R 공부 ] 데이터에서 이상치를 처리하려면 ? 본문

R 공부

[ R 공부 ] 데이터에서 이상치를 처리하려면 ?

david.kim2028 2022. 5. 8. 15:37
반응형

이상치란 우리가 보유하고 있는 데이터의 중심으로부터 동떨어진 위치에서 관측되는 데이터를 의미함. 

이런 데이터는 데이터 분석을 하기 위한 분석 모델을 왜곡할 수 있음.

이상치를 처리하려면, 논리적으로 해당 데이터가 존재할 수 있는지 여부, 또는 통계적으로 중심에서 멀리 떨어진 이상치를 판단해야함. 

 

1. 이상치 데이터 찾기 

- Table() 함수를 통해 이상치 찾았음

 

2. 이상치(논리적오류) 제거하기

- 논리적인 오류의 이상치인 점수가 100점 이상, 성별이 c인 것은 제거하였음. 

 

 

3, 논리적으로 존재할 수 있는 이상치 처리하기 

 

 

 

- 네모난 상자 윗부분이 제3사분위수, 검은색 줄이 제 2 사분위수, 상자 밑부분이 제1사분위수 라고 하며,

- 제 1사분위수와 제3사분위수 사이의 거리를 IQR(Interquartile Range)라고 한다. IQR의 1.5배 만큼 떨어진 곳은 안울타리, 

- 3배만큼 떨어진 곳은 바깥울타리라고 한다. 

 

 

 

 

- 극단값의 경계를 계산하였음. 

 

 

극단값 상단 경계(UC) 와 하단 경계(LC)를 계산한 값을 이용해서 극단값 상단 경계를 초과하는 데이터와 극단값 하단 경계를 미달하는 데이터를 제외한 나머지 데이터만 추출한다. 

 

 

 

반응형
Comments