One-way ANOVA 에 대해 알아보자!

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

David의 개발 이야기!

One-way ANOVA 에 대해 알아보자! 본문

통계공부

One-way ANOVA 에 대해 알아보자!

david.kim2028 2022. 5. 17. 01:04

1. One-way ANOVA의 등장

A 평균 178.5 cm

B 평균 179.9cm

C 평균 181.9cm 라고 한다면,

세 집단은 통계적으로 과연 같은 집단이라고 할수 있을까?

평균을 통해 두 집단의 동일성을 판단하는 t-test를 두번 사용하면 되지 않을까? 하는 생각도 든다.

하지만, 절대로 그렇게 하면 안된다.

그 이유는, 0.05 + 0.05 + 0.05 = 0.15 전체 p-value가 15%가 되는 문제가 발생하기 때문이다!!!

이러한 오류를 1종 오류라고 하는데,

1종오류를 계신하는 식은, 아래와 같다.

비교할 집단이 3개 이상인 경우,

t-test 3번을 하면 1종 오류에 빠진다.

따라서 새로운 통계방법이 One-way ANOVA 이다! ( Analysis of Variance 의 약자)

2. 이름이 평균 분석이 아닌, 분산분석인 이유

2-1 ANOVA 전 알고 넘어갈것

1. 독립변수 ( Independent Variable )

- 독립인 변수 : 그렇다면 무엇으로부터 독립이라는 뜻일까?

-책&인터넷에서 검색해보면, 독립변수는 연구자/조사자가 의도적으로 변화시키는 함수라고 정의 되어있다.

- 여기서 "독립"은 논리적 관계에서의 독립을 의미한다.

- 주로 인과관계를 연구/조사하는데, 이 때 인과관계에서 독립적인 위치는 결과보다는 원인!일 것이다.

-그래서 쉽게 말하면, 인과관계에서 원인이 되는 변수를 독립변수라고 한다.

- 오해하면 안되는 것이, 독립변수가 연구자/조사가 의도적으로 변화시킬수 있다고 하여 마음대로 해도 된다는 의미는 아니다!

2. 종속변수 ( Dependent Variable )

- 종속인 변수 는 무엇일까?

- 책이나, 인터넷에 따르면, 연구자/조사자가 독립변수의 변화에 따라 어떻게 변화하는지 알고 싶은 변수라고 정의되어있다.

-여기서 "종속"은 논리적 관계에서의 종속을 의미한다.

- 주로 인과관계를 많이 연구/조사하므로 이때 인과관계에서 종속적인 위치는 원인보다는 결과!

- 따라서 인과관계에서 결과가 되는 변수가 종속변수이다!

ex)

고등 교육 --> 임금수준 상승 의 인과관계가 있다면 아래처럼 불릴수 있다.

독립변수 --> 종속변수

설명변수 --> 반응변수

예측변수 --> 결과변수

위험인자 --> 표적변수

3. 그 밖의 변수 : 통제변수 (Control Variable)

- 기본적으로는 독립변수와 동일하나,

- 연구/조사의 주된 관심사가 되는 변수가 아닌 경우 사용한다

- 통계변수를 사용하는 이유는,

고객만족 --> 재방문율 이라는 인과관계가 있을때

재방문율에 영향을 주는게 고객만족 하나 일리가 없고,

재방문율에 영향을 주는 중요한 변수를 같이 감안해야하기 때문이다.

통제변수를 하나도 설정하지 않으면, Model Misspecification 문제 발생!

2-2 ANOVA 와 변수

2-2-1 one-way ANOVA 에 사용되는 변수

one-way ANOVA 에 사용되는 변수에는

독립변수 : 이산형/범주형 (discrete/categorical) 만 가능

종속변수 : 연속형 ( continuous ) 변수만 가능

ex) 아이들에게 영상종류에 따라 폭력성을 점수화하는 test 한다고 가정하면,

독립변수는 영상종류 (3가지) 일것이고,

종속변수는 폭력성을 측정한 점수 일것이다.

ex2) 어느 인터넷 기업이 고객의 총 지불금액을 알고 싶다고 하면,

독립변수는 : 은행게좌, 신용카드, 전자수표, 종이수표 (4가지)

종속변수는 : 고객의 총 지불 금액 일것이다.

2-2-2 one-way ANOVA 공식

1 왜 평균이 있을까?

- 종속변수의 값이 100% 독립변수의 영향이라고 볼수 없기 때문이다.

- 예를 들어, 사과의 출하량을 종속변수로, 비료를 준 그룹, 비료를 주지 않은 그룹을 비교할때, 상식적으로 비료를 주지 않은 그룹의 출하량이 0일리는 없다. 이러한 문제를 보정하기 위해 평균으로 보정해준다.

2 But ANOVA에서는 평균값은 관심사가 아니다.

Tj 독립변수 (타우제이 j 는 그룹을 의미) 가 중요하다.

3 Yij 는 종속변수를 의미한다.

- ANOVA 에서 종속변수는 "연속형 변수"이다

- 연속형 변수의 값이 대문자 Y 이고, 대문자를 쓰는 이유는 데이터 전체를 한 문자로 대표하여 표기하기 위함이다.

- j 는 독립변수의 그룹을 대표하는 문자이고

- i 는 그 그룹내의 ID 이다.

4 eij 는 무엇일까? -> 오차를 의미 ij는 위와 동일

- 여기서 말하는 오차는 그룹간 차이인 Tj 에 의해 설명되지 않는 오차를 의미한다.

- random 한 오차를 뜻하며, 무작위로 발생했기 때문에 큰 의미는 없다고 가정한다.

- 하지만, 이 초하가 무작위로 발생하지 않았다고 하면 이건 문제가 있는 것임을 알아야한다!

2-2-2 one-way ANOVA

1. ANOVA 에는 무엇이 있을까? -> F value가 있다.

-> F-값을 구해서 F분포를 확인한다.

< 이것만은 기억하자 >

- F 값은 두개의 분산비율이다.

- 그런데 우리는 이것을 분산분석이라고 부른다.

그러면 어떻게 두개의 분산으로 어떻게 평균값이 같은지 다른지 알수 있을까?

F 값이란 두개의 분산비율이다 --> 두개의 분산이 필요함!!

1. 첫번째 분산 : GM(전체평균)으로 부터 각 그룹의 평균사이의 분산 : Between Variance

- 이 첫번째 분산이 크다는 것은,

- 전체평균으로부터 각 그룹의 평균값이 멀리 떨어져있다.

- 따라서 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다르다는 것을 알수 있다.

문제는 이 Between Variance 가 얼마나 커야 통계적으로 큰 것일까

이 Between Variance 가 우연히 클 가능성은 확률적으로 얼마나 될까

그래서 우리는 기준점이 필요하다.

2. 두번째 분산 : 그룹내의 분산 : Within Variance

- t-test 의 t-value 계산시의 분모의 표준편차와 같은의미로, random한(즉 무의미한) 변화의 정도이므로

- Between Variance가 Within Variance 보다 충분히 커야 우리는 B.V 가 통계적으로 크다고 말할 수 있고, 이것은 적어도 어느 한 그룹의 평균값이 전체평균과는 다르다고 할 수 있다.

3. F 값 계산하기

통계적으로 유의하다는 것은 무엇일까?

'통계공부' 카테고리의 다른 글

표본분산과 불편분산의 차이에 대해 알아보자! (0)	2023.09.30
카이제곱 검정에 대해 알아보자! (0)	2022.05.23
상관관계와 공분산에 대해 알아보자! (0)	2022.05.23
통계의 기본, t-test 란! (0)	2022.04.28

'통계공부' Related Articles

Comments

David의 개발 이야기!

One-way ANOVA 에 대해 알아보자! 본문

One-way ANOVA 에 대해 알아보자!

1. One-way ANOVA의 등장

2. 이름이 평균 분석이 아닌, 분산분석인 이유

2-1 ANOVA 전 알고 넘어갈것

2-2 ANOVA 와 변수

2-2-1 one-way ANOVA 에 사용되는 변수

2-2-2 one-way ANOVA 공식

2-2-2 one-way ANOVA

3. F 값 계산하기

통계적으로 유의하다는 것은 무엇일까?

'통계공부' 카테고리의 다른 글

티스토리툴바