David의 개발 이야기!

One-way ANOVA 에 대해 알아보자! 본문

통계공부

One-way ANOVA 에 대해 알아보자!

david.kim2028 2022. 5. 17. 01:04
반응형

1. One-way ANOVA의 등장 

A 평균 178.5 cm 

B 평균 179.9cm 

C 평균 181.9cm 라고 한다면,

 

세 집단은 통계적으로 과연 같은 집단이라고 할수 있을까? 

 

평균을 통해 두 집단의 동일성을 판단하는 t-test를 두번 사용하면 되지 않을까? 하는 생각도 든다.

하지만, 절대로 그렇게 하면 안된다.

 

그 이유는, 0.05 + 0.05 + 0.05 = 0.15 전체 p-value가 15%가 되는 문제가 발생하기 때문이다!!!

이러한 오류를 1종 오류라고 하는데, 

 

1종오류를 계신하는 식은, 아래와 같다. 

 

비교할 집단이 3개 이상인 경우,

t-test 3번을 하면 1종 오류에 빠진다.

 

따라서 새로운 통계방법이 One-way ANOVA 이다! ( Analysis of Variance 의 약자) 

 

2. 이름이 평균 분석이 아닌, 분산분석인 이유

2-1 ANOVA 전 알고 넘어갈것

1. 독립변수  ( Independent Variable ) 

- 독립인 변수 : 그렇다면 무엇으로부터 독립이라는 뜻일까?

-책&인터넷에서 검색해보면, 독립변수는 연구자/조사자가 의도적으로 변화시키는 함수라고 정의 되어있다. 

- 여기서 "독립"은 논리적 관계에서의 독립을 의미한다. 

- 주로 인과관계를 연구/조사하는데, 이 때 인과관계에서 독립적인 위치는 결과보다는 원인!일 것이다.

-그래서 쉽게 말하면, 인과관계에서 원인이 되는 변수를 독립변수라고 한다. 

- 오해하면 안되는 것이, 독립변수가 연구자/조사가 의도적으로 변화시킬수 있다고 하여 마음대로 해도 된다는 의미는 아니다! 

 

2. 종속변수 ( Dependent Variable ) 

- 종속인 변수 는 무엇일까?

- 책이나, 인터넷에 따르면, 연구자/조사자가 독립변수의 변화에 따라 어떻게 변화하는지 알고 싶은 변수라고 정의되어있다. 

-여기서 "종속"은 논리적 관계에서의 종속을 의미한다.

- 주로 인과관계를 많이 연구/조사하므로 이때 인과관계에서 종속적인 위치는 원인보다는 결과!

- 따라서 인과관계에서 결과가 되는 변수가 종속변수이다! 

 

ex) 

고등 교육 --> 임금수준 상승 의 인과관계가 있다면 아래처럼 불릴수 있다. 

 

독립변수 --> 종속변수 

설명변수 --> 반응변수

예측변수 --> 결과변수

위험인자 --> 표적변수 

 

3. 그 밖의 변수 : 통제변수 (Control Variable) 

- 기본적으로는 독립변수와 동일하나, 

- 연구/조사의 주된 관심사가 되는 변수가 아닌 경우 사용한다

- 통계변수를 사용하는 이유는,

 

고객만족 --> 재방문율 이라는 인과관계가 있을때

재방문율에 영향을 주는게 고객만족 하나 일리가 없고,

재방문율에 영향을 주는 중요한 변수를 같이 감안해야하기 때문이다. 

통제변수를 하나도 설정하지 않으면, Model Misspecification 문제 발생!

 

2-2 ANOVA  와 변수

2-2-1 one-way ANOVA 에 사용되는 변수

one-way ANOVA 에 사용되는 변수에는

독립변수 : 이산형/범주형 (discrete/categorical) 만 가능

종속변수 : 연속형 ( continuous ) 변수만 가능 

 

ex) 아이들에게 영상종류에 따라 폭력성을 점수화하는 test 한다고 가정하면,

 

독립변수는 영상종류 (3가지) 일것이고,

종속변수는 폭력성을 측정한 점수 일것이다. 

 

ex2) 어느 인터넷 기업이 고객의 총 지불금액을 알고 싶다고 하면,

 

독립변수는 : 은행게좌, 신용카드, 전자수표, 종이수표 (4가지)

종속변수는 : 고객의 총 지불 금액 일것이다. 

 

2-2-2 one-way ANOVA 공식 

 

 

1 왜 평균이 있을까? 

- 종속변수의 값이 100% 독립변수의 영향이라고 볼수 없기 때문이다. 

- 예를 들어, 사과의 출하량을 종속변수로, 비료를 준 그룹, 비료를 주지 않은 그룹을 비교할때, 상식적으로 비료를 주지 않은 그룹의 출하량이 0일리는 없다. 이러한 문제를 보정하기 위해 평균으로 보정해준다.

 

2 But ANOVA에서는 평균값은 관심사가 아니다. 

Tj 독립변수 (타우제이 j 는 그룹을 의미) 가 중요하다. 

 

3 Yij 는 종속변수를 의미한다. 

- ANOVA 에서 종속변수는 "연속형 변수"이다

- 연속형 변수의 값이 대문자 Y 이고, 대문자를 쓰는 이유는 데이터 전체를 한 문자로 대표하여 표기하기 위함이다. 

- j 는 독립변수의 그룹을 대표하는 문자이고

- i 는 그 그룹내의 ID 이다.

 

4 eij 는 무엇일까? -> 오차를 의미 ij는 위와 동일 

- 여기서 말하는 오차는 그룹간 차이인 Tj 에 의해 설명되지 않는 오차를 의미한다.

- random 한 오차를 뜻하며, 무작위로 발생했기 때문에 큰 의미는 없다고 가정한다. 

- 하지만, 이 초하가 무작위로 발생하지 않았다고 하면 이건 문제가 있는 것임을 알아야한다! 

 

 

2-2-2 one-way ANOVA 

1. ANOVA 에는 무엇이 있을까? -> F value가 있다. 

-> F-값을 구해서 F분포를 확인한다. 

 

<  이것만은 기억하자 > 

- F 값은 두개의 분산비율이다. 

- 그런데 우리는 이것을 분산분석이라고 부른다.

 

 

그러면 어떻게 두개의 분산으로 어떻게 평균값이 같은지 다른지 알수 있을까?

 

F 값이란 두개의 분산비율이다 --> 두개의 분산이 필요함!!

1. 첫번째 분산 : GM(전체평균)으로 부터 각 그룹의 평균사이의 분산 : Between Variance 

- 이 첫번째 분산이 크다는 것은,

- 전체평균으로부터 각 그룹의 평균값이 멀리 떨어져있다. 

- 따라서 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다르다는 것을 알수 있다. 

 

문제는 이 Between Variance 가 얼마나 커야 통계적으로 큰 것일까 

이 Between Variance 가 우연히 클 가능성은 확률적으로 얼마나 될까

그래서 우리는 기준점이 필요하다. 

 

2. 두번째 분산 : 그룹내의 분산 : Within Variance 

 

- t-test 의 t-value 계산시의 분모의 표준편차와 같은의미로, random한(즉 무의미한) 변화의 정도이므로 

- Between Variance가 Within Variance 보다 충분히 커야 우리는 B.V 가 통계적으로 크다고 말할 수 있고, 이것은 적어도 어느 한 그룹의 평균값이 전체평균과는 다르다고 할 수 있다. 

 

 

 

3. F 값 계산하기 

 

 

 

 

통계적으로 유의하다는 것은 무엇일까?

반응형
Comments