David의 개발 이야기!
One-way ANOVA 에 대해 알아보자! 본문
1. One-way ANOVA의 등장
A 평균 178.5 cm
B 평균 179.9cm
C 평균 181.9cm 라고 한다면,
세 집단은 통계적으로 과연 같은 집단이라고 할수 있을까?
평균을 통해 두 집단의 동일성을 판단하는 t-test를 두번 사용하면 되지 않을까? 하는 생각도 든다.
하지만, 절대로 그렇게 하면 안된다.
그 이유는, 0.05 + 0.05 + 0.05 = 0.15 전체 p-value가 15%가 되는 문제가 발생하기 때문이다!!!
이러한 오류를 1종 오류라고 하는데,
1종오류를 계신하는 식은, 아래와 같다.
비교할 집단이 3개 이상인 경우,
t-test 3번을 하면 1종 오류에 빠진다.
따라서 새로운 통계방법이 One-way ANOVA 이다! ( Analysis of Variance 의 약자)
2. 이름이 평균 분석이 아닌, 분산분석인 이유
2-1 ANOVA 전 알고 넘어갈것
1. 독립변수 ( Independent Variable )
- 독립인 변수 : 그렇다면 무엇으로부터 독립이라는 뜻일까?
-책&인터넷에서 검색해보면, 독립변수는 연구자/조사자가 의도적으로 변화시키는 함수라고 정의 되어있다.
- 여기서 "독립"은 논리적 관계에서의 독립을 의미한다.
- 주로 인과관계를 연구/조사하는데, 이 때 인과관계에서 독립적인 위치는 결과보다는 원인!일 것이다.
-그래서 쉽게 말하면, 인과관계에서 원인이 되는 변수를 독립변수라고 한다.
- 오해하면 안되는 것이, 독립변수가 연구자/조사가 의도적으로 변화시킬수 있다고 하여 마음대로 해도 된다는 의미는 아니다!
2. 종속변수 ( Dependent Variable )
- 종속인 변수 는 무엇일까?
- 책이나, 인터넷에 따르면, 연구자/조사자가 독립변수의 변화에 따라 어떻게 변화하는지 알고 싶은 변수라고 정의되어있다.
-여기서 "종속"은 논리적 관계에서의 종속을 의미한다.
- 주로 인과관계를 많이 연구/조사하므로 이때 인과관계에서 종속적인 위치는 원인보다는 결과!
- 따라서 인과관계에서 결과가 되는 변수가 종속변수이다!
ex)
고등 교육 --> 임금수준 상승 의 인과관계가 있다면 아래처럼 불릴수 있다.
독립변수 --> 종속변수
설명변수 --> 반응변수
예측변수 --> 결과변수
위험인자 --> 표적변수
3. 그 밖의 변수 : 통제변수 (Control Variable)
- 기본적으로는 독립변수와 동일하나,
- 연구/조사의 주된 관심사가 되는 변수가 아닌 경우 사용한다
- 통계변수를 사용하는 이유는,
고객만족 --> 재방문율 이라는 인과관계가 있을때
재방문율에 영향을 주는게 고객만족 하나 일리가 없고,
재방문율에 영향을 주는 중요한 변수를 같이 감안해야하기 때문이다.
통제변수를 하나도 설정하지 않으면, Model Misspecification 문제 발생!
2-2 ANOVA 와 변수
2-2-1 one-way ANOVA 에 사용되는 변수
one-way ANOVA 에 사용되는 변수에는
독립변수 : 이산형/범주형 (discrete/categorical) 만 가능
종속변수 : 연속형 ( continuous ) 변수만 가능
ex) 아이들에게 영상종류에 따라 폭력성을 점수화하는 test 한다고 가정하면,
독립변수는 영상종류 (3가지) 일것이고,
종속변수는 폭력성을 측정한 점수 일것이다.
ex2) 어느 인터넷 기업이 고객의 총 지불금액을 알고 싶다고 하면,
독립변수는 : 은행게좌, 신용카드, 전자수표, 종이수표 (4가지)
종속변수는 : 고객의 총 지불 금액 일것이다.
2-2-2 one-way ANOVA 공식
1 왜 평균이 있을까?
- 종속변수의 값이 100% 독립변수의 영향이라고 볼수 없기 때문이다.
- 예를 들어, 사과의 출하량을 종속변수로, 비료를 준 그룹, 비료를 주지 않은 그룹을 비교할때, 상식적으로 비료를 주지 않은 그룹의 출하량이 0일리는 없다. 이러한 문제를 보정하기 위해 평균으로 보정해준다.
2 But ANOVA에서는 평균값은 관심사가 아니다.
Tj 독립변수 (타우제이 j 는 그룹을 의미) 가 중요하다.
3 Yij 는 종속변수를 의미한다.
- ANOVA 에서 종속변수는 "연속형 변수"이다
- 연속형 변수의 값이 대문자 Y 이고, 대문자를 쓰는 이유는 데이터 전체를 한 문자로 대표하여 표기하기 위함이다.
- j 는 독립변수의 그룹을 대표하는 문자이고
- i 는 그 그룹내의 ID 이다.
4 eij 는 무엇일까? -> 오차를 의미 ij는 위와 동일
- 여기서 말하는 오차는 그룹간 차이인 Tj 에 의해 설명되지 않는 오차를 의미한다.
- random 한 오차를 뜻하며, 무작위로 발생했기 때문에 큰 의미는 없다고 가정한다.
- 하지만, 이 초하가 무작위로 발생하지 않았다고 하면 이건 문제가 있는 것임을 알아야한다!
2-2-2 one-way ANOVA
1. ANOVA 에는 무엇이 있을까? -> F value가 있다.
-> F-값을 구해서 F분포를 확인한다.
< 이것만은 기억하자 >
- F 값은 두개의 분산비율이다.
- 그런데 우리는 이것을 분산분석이라고 부른다.
그러면 어떻게 두개의 분산으로 어떻게 평균값이 같은지 다른지 알수 있을까?
F 값이란 두개의 분산비율이다 --> 두개의 분산이 필요함!!
1. 첫번째 분산 : GM(전체평균)으로 부터 각 그룹의 평균사이의 분산 : Between Variance
- 이 첫번째 분산이 크다는 것은,
- 전체평균으로부터 각 그룹의 평균값이 멀리 떨어져있다.
- 따라서 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다르다는 것을 알수 있다.
문제는 이 Between Variance 가 얼마나 커야 통계적으로 큰 것일까
이 Between Variance 가 우연히 클 가능성은 확률적으로 얼마나 될까
그래서 우리는 기준점이 필요하다.
2. 두번째 분산 : 그룹내의 분산 : Within Variance
- t-test 의 t-value 계산시의 분모의 표준편차와 같은의미로, random한(즉 무의미한) 변화의 정도이므로
- Between Variance가 Within Variance 보다 충분히 커야 우리는 B.V 가 통계적으로 크다고 말할 수 있고, 이것은 적어도 어느 한 그룹의 평균값이 전체평균과는 다르다고 할 수 있다.
3. F 값 계산하기
통계적으로 유의하다는 것은 무엇일까?
'통계공부' 카테고리의 다른 글
표본분산과 불편분산의 차이에 대해 알아보자! (0) | 2023.09.30 |
---|---|
카이제곱 검정에 대해 알아보자! (0) | 2022.05.23 |
상관관계와 공분산에 대해 알아보자! (0) | 2022.05.23 |
통계의 기본, t-test 란! (0) | 2022.04.28 |