David의 개발 이야기!

통계의 기본, t-test 란! 본문

통계공부

통계의 기본, t-test 란!

david.kim2028 2022. 4. 28. 00:34
반응형

1. t-test의 목적

-> 두개의 집단이 같은지 다른지 비교하기 위해 사용한다.

 

2. 모집단 VS 표본

  모집단 표본
관측지 N n
평균 u X바
분산 σ^2 s^2
표준편차 σ(시그마) s

 

그렇다면  어떻게 같은지 다른지 비교할까??

->평균값이 통계적으로 같은지, 다른지 비교한다!

 

3. t-test의 예

A 집단의 키 평균 == 178.5

B 집단의 키 평균 == 179.9

라 할때, 

 

-> A/B가 우연히 같은 확률은 얼마일까?

-> 1.4cm가 우연히 발생했을 확률은 얼마나 될까? 

 

4. t-test에 대한 깊은 이해

-> 우리는 1.4cm가 얼마나 큰지, 작은지 알수가 없음!

-> 1.4cm 가 얼마나 큰지 작은지에 대한 기준이 필요함!

-> 어떤거를 가지고와서 비교할지 결정해야함!

 

정답은 "분산(표준편차)"

 

분산에 대한 설명은

-> 

 

결국, 1.4cm 차이도 두 집단의 평균적인 거리를 의미한다!

 

만약,

표준편차 > 1.4 -> 의미없는 우연한

표준편차 < 1.4 -> 큰 의미를 둘 수 있음 : 차이가 다른것이 우연이 아니라, 어떠한 인과관계를 가질수 있다는 뜻!

 

-> t-test란 평균값의 차이와 표준편차비율이 얼마나 큰지 혹은 작은지를 보고서 결정하는 통계적 과정임!

 

5. 그전에 알아두어야할 것1  - 정규분포

 

정규분포 곡선

정규분포는 평균과 표준편차만으로 구성됨

-> 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재한다!

-> 정규분포의 아래의 면적은 확률은 의미한다. -> 모든 면적의 합은 1 -> 적분을 통한 계산 

-> 표준정규분포 u=0, σ=1 인 정규분포 

 

ex)

신입생 1000명

u=82, σ=5 영어점수가 정규분포에 근사한다면, 

82점에서 90점 사이의 학생수는 어떻게 되는가? 

 

 

5-1  z-test

-> z-score를 가지고 하는 test

-> z-test는 z-값과 표준정규분포를 이요하여 할 수 있음

-> z-score으로 변환하는 것을, z-transformation 또는 표준화(standarization) 이라고 함

( 표준편차랑 x가 u 로부터 얼마나 떨어져있는지 의미 // 단위로 부터 자유롭다! ) 

 

6. 알아야할 것 2 - 양측검정 vs 단측검정 

양측검정

 

단측검정

 

1.4cm 가 우연이라면, 평균값 차이가 0이라 했을때, 95%의 확률 안으로 들어와야함!

( 파란색 칠한곳에 있으면 안됨!! ) 

 

 

7. t-test를 위한 t값 & t-분포

t 값

-> 우리의 목적은 두 집단의 평균값이 같은지 다른지 알고 싶은 것임

-> 그래서, 통계적 가설에 의거해, 두집단의 평균값 차이가 0과 같은지 다른지 궁금함!

-> 위의 값에서 우리가 궁금해하는 그 차이는 분자에 있음

-> 여기서 부터 중요한 것이, 필요한것이 통계적인 생각/질문/접근법!

            - 도대체 얼마나 저값이 커야 큰 것인지

            - 비교 대상은?? 

 

8. t-값의 의미

 

- 우리는 이 두 평균값의 차이를 표준편차와 비교해야함

 

왜 ? 

-> 표준편차란 우리의 데이터가 평균값을 기준으로 얼마나 퍼져있는 정도를 나타내기 때문임

-> 이 자체는 의미없는 편차임

만약, 두집단의 평균값의 차이가 의미없는 표준편차만도 못하다면, 당연이 이 차이는 우연히 발생했다고 보아야한다!!!!!

-> 루트 n 의 역할은??

 

* df (자유도) = n-1 

-> df 가 클수록 t 분포 곡선이 표준정규분포곡선에 근사한다!

    ( == 데이터를 많이 모을 수록 )

 

정리 

- 두 집단의 평균값의 편차가 의미없는 편차인 표준편차만도 못하다면 이 차이는 우연한것.

- 표본크기 n이 커지면 -> t-값이 커지고, t-분포는 정규분포에 근사!

- t-test에서 df는 n-1이므로 표본의 크기가 커지면 df 도 커진다!

  df 가 커진다는 것은 우리가 t분포에 묶여있다가 자유롭게 표준정규분포로 사용할 수 있음을 의미한다!

 

 

참고 )

 

 

반응형
Comments