일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 크롤러
- Computer Vision
- 파이썬
- 자연어처리
- filtering
- 지정헌혈
- 42경산
- mnist
- 42서울
- pytorch
- 딥러닝
- 유데미
- 머신러닝
- CV
- 선형회귀
- 크롤링
- AI
- 데이터분석
- 플러터
- Regression
- 회귀
- 인공지능
- 모델
- Flutter
- RNN
- 피플
- map
- 선형대수학
- 코딩애플
- 앱개발
- Today
- Total
목록R 공부 (4)
David의 개발 이야기!
카페의 매출 데이터를 이용하여 데이터 분석을 수행하고자함. 데이터는 아래와 같음. 1. readxl 패키지를 이용하여 엑셀 데이터 분석하기 - 데이터 불러오기 - 결측치 유무 확인하기 -> order_date 에서 발견된 결측치로는 언제 주문했는지를 알 수 없으므로 제가해야함. - 이상치 확인하기 - nrow() 함수를 이용해서 sales 데이터 행수를 확인해보면 62581 데이터 발생 - 이때 발생한 건 중에서 주문한 건수를 찾으려면 중복되지 않은 주문 ID를 세즌 unique() 함수와 length() 함수를 이용. 2. 카페에서 가장 많이 판매한 메뉴 확인하기 - 카페 메뉴 판매건수 확인하기 - 가장 많이 팔린 것부터 보이도록 정렬 -> 내림차순 : decreasing=TRUE - 카페 메뉴 판매 ..
수집한 데이터 자체를 검토하는것에 집중하는 결측치 처리와 이상치 처리와는 달리, 피처엔지니어링(Feature Engineering)은 기존에 존재하는 변수를 활용해서 새로운 정보를 추가로 생성하는 과정을 말한다. 이 방식을 통해서, 새로운 데이터를 추가로 수집하는 것이 아니라, 현재 데이터를 활용한다는 점에서 주목할 필요가 있다. 피처엔지니어링에는 1. 변수의 단위를 변환하기 위한 스케일 조정방식 2. 연송형 변수를 범주형 변수로 범주형 변수를 연속형 변수로 변환 하는 방법이 있으며 그외에도 3. 특정 변수의 존재유무를 0과1로 표현하는 더미변수를 생성할 수도 있으며, 4. 주말, 평일로 구분하거나, 시간 데이터를 오전, 오후라는 새로운 변수를 추가해서 활용하는 방법 도 존재한다. 1. 새로운 파생 변수..
이상치란 우리가 보유하고 있는 데이터의 중심으로부터 동떨어진 위치에서 관측되는 데이터를 의미함. 이런 데이터는 데이터 분석을 하기 위한 분석 모델을 왜곡할 수 있음. 이상치를 처리하려면, 논리적으로 해당 데이터가 존재할 수 있는지 여부, 또는 통계적으로 중심에서 멀리 떨어진 이상치를 판단해야함. 1. 이상치 데이터 찾기 - Table() 함수를 통해 이상치 찾았음 2. 이상치(논리적오류) 제거하기 - 논리적인 오류의 이상치인 점수가 100점 이상, 성별이 c인 것은 제거하였음. 3, 논리적으로 존재할 수 있는 이상치 처리하기 - 네모난 상자 윗부분이 제3사분위수, 검은색 줄이 제 2 사분위수, 상자 밑부분이 제1사분위수 라고 하며, - 제 1사분위수와 제3사분위수 사이의 거리를 IQR(Interquart..
1. 결측치 확인하기 R에서는 결측치를 NA(Not Available)로 표현하고 있으며, 결측치가 있을 경우 연산 결과가 NA로 표현됨. 문자형변수는 로, 숫자형 변수는 NA 로 표현됨. - 결측치를 확인하기 위해 is.na() 함수를 이용! - Table() 함수를 이용하여, 결측치의 개수를 파악할 수 있음! - 일반적으로 함수를 사용할떄, 결측치가 포함된 변수는 연산을 하기 어려움 - 연산 결과가 NA로 출력되기 때문에 결측치를 처리한 후 작업하는 것이 일반적임 - na.rm =TRUE 를 통해 결측치 제거 2. 결측치 제거하기 1. is.na(sample) 을 하면, NA가 있으면 TRUE로 반환, 없으면 FALSE 로 나옴 2. !is.na(sample)을 하면, 위에거에서 TRUE, FALSE..