[ R 공부 ] 지난 1년간의 카페 데이터 분석하기 실습
카페의 매출 데이터를 이용하여 데이터 분석을 수행하고자함.
데이터는 아래와 같음.
1. readxl 패키지를 이용하여 엑셀 데이터 분석하기
- 데이터 불러오기
- 결측치 유무 확인하기
-> order_date 에서 발견된 결측치로는 언제 주문했는지를 알 수 없으므로 제가해야함.
- 이상치 확인하기
- nrow() 함수를 이용해서 sales 데이터 행수를 확인해보면 62581 데이터 발생
- 이때 발생한 건 중에서 주문한 건수를 찾으려면 중복되지 않은 주문 ID를 세즌 unique() 함수와 length() 함수를 이용.
2. 카페에서 가장 많이 판매한 메뉴 확인하기
- 카페 메뉴 판매건수 확인하기
- 가장 많이 팔린 것부터 보이도록 정렬
-> 내림차순 : decreasing=TRUE
- 카페 메뉴 판매 매출액 확인하기
1. table() 과 data.frame() 함수를 이용해서 음료 판매건수를 구한 데이터를 구성
2. 새롭게 생성한 데이터를 sales_tr에 넣어주고 , head() 함수를 이용해서 일부데이터만 확인
3. sales_tr 의 Var1 열은 sales의 item 과 같은 값이고 Freq 열은 메뉴가 판매된 건수
4. 음료 판매가 데이터를 만들기 위해 원본데이터 와 subset.data.frame() 함수를 이용하여 카페에서 판매하는 음료와 판매가를 추출
음료와 판매가를 추출한 후 살펴보면 같은 음료와 같은 가격이 반복적으로 나나는 것을 확인할 수 있다.
5. unique() 함수를 이용해서 중복된 정보를 한번 만 나타나도록 처리
6.
매출액을 계산하기 위해 sales_tr 데이터와 sales_item 의 price 열을 곱하면 매출액이 나와야함
매출액 계산식 대로, sales_tr$Freq * sales_item$price 를 수행하면 결과가 나옴
다만, sales_tr의 첫번째 행은 깔라만시의 판매건수이고, sales_item의 첫번째 행은 카라멜마끼아또의 판매가 이어서 잘못된 결과가 나옴
7. 정상적인 계산을 위해서 두데이터를 하나의 데이터로 병합해야함
두 데이터를 하나의 데이터로 합치기 위해 merge() 함수 사용
8. 메뉴별로 판매한 금액이 얼마나 되는지 확인하기