일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 피플
- 크롤러
- mnist
- 42서울
- CV
- pytorch
- 앱개발
- Computer Vision
- 머신러닝
- map
- 유데미
- 선형회귀
- 지정헌혈
- 파이썬
- 플러터
- 42경산
- filtering
- Regression
- 인공지능
- Flutter
- 데이터분석
- 딥러닝
- 선형대수학
- 모델
- 코딩애플
- 크롤링
- 자연어처리
- 회귀
- AI
- RNN
Archives
- Today
- Total
David의 개발 이야기!
[ R 공부 ] 데이터에서 이상치를 처리하려면 ? 본문
반응형
이상치란 우리가 보유하고 있는 데이터의 중심으로부터 동떨어진 위치에서 관측되는 데이터를 의미함.
이런 데이터는 데이터 분석을 하기 위한 분석 모델을 왜곡할 수 있음.
이상치를 처리하려면, 논리적으로 해당 데이터가 존재할 수 있는지 여부, 또는 통계적으로 중심에서 멀리 떨어진 이상치를 판단해야함.
1. 이상치 데이터 찾기
- Table() 함수를 통해 이상치 찾았음
2. 이상치(논리적오류) 제거하기
- 논리적인 오류의 이상치인 점수가 100점 이상, 성별이 c인 것은 제거하였음.
3, 논리적으로 존재할 수 있는 이상치 처리하기
- 네모난 상자 윗부분이 제3사분위수, 검은색 줄이 제 2 사분위수, 상자 밑부분이 제1사분위수 라고 하며,
- 제 1사분위수와 제3사분위수 사이의 거리를 IQR(Interquartile Range)라고 한다. IQR의 1.5배 만큼 떨어진 곳은 안울타리,
- 3배만큼 떨어진 곳은 바깥울타리라고 한다.
- 극단값의 경계를 계산하였음.
극단값 상단 경계(UC) 와 하단 경계(LC)를 계산한 값을 이용해서 극단값 상단 경계를 초과하는 데이터와 극단값 하단 경계를 미달하는 데이터를 제외한 나머지 데이터만 추출한다.
반응형
'R 공부' 카테고리의 다른 글
[ R 공부 ] 지난 1년간의 카페 데이터 분석하기 실습 (0) | 2022.05.08 |
---|---|
[ R 공부 ] 피처엔지니어링(Feature Engineering) 이란 무엇일까? (0) | 2022.05.08 |
[ R 공부 ] 결측치 처리하기 (0) | 2022.05.08 |
Comments