목록통계공부 (5)
David의 개발 이야기!
1. 표본분산과 불편분산의 차이점 표본분산과 불편 분산의 정의는 위와 같으며, 식은 위와 같이 정의된다. 2. 불편분산이 필요한 이유 위 그림은, 분산이 과소평가되는 이유를 보여주는데, 예시를 들어보면, 낚시꾼이 낚시를 했는데, 잡은 물고기가 총 7마리 이며, 7마리의 몸 길이는, [1,2,3,4,5,6,7]이라고 하자. 여기서 모평균은, 4가 된다. 이제 이를 팔기위해 3마리를 다른 장바구니에 임의로 옮겼더니(표본) [1,2,3]이라고 하자. 여기서 표본평균은 2가 된다. 분산은, "데이터와 평균간의 거리"임으로 모평균간의 거리를 계산해야한다. 하지만, 모평균을 모르기 때문에, 표본 평균과 거리를 계산하게 되며, 이는 분산이 과소평가 되는 결과를 내게된다. 이러한 문제를 보완하기 위해, 불편분산이, 표..
1. 카이제곱이 필요한 이유! 범주의 숫자가 많아지면 그래프가 낮아지는 특성이 있음. 2. 일원 카이제곱 검정 3. 이원 카이제곱 검정 만약에 연속형변수 였다면, 피어슨 상관계수 등을 통해서 확인할 수 있으나, 카이제곱을 하는 이유는 모두 명목형 변수이기 때문이다. 카이제곱 분포는 인과관계가 아님! 연관성이 있는지 없는지 확인하는 것이다!!!!!! 12.25 = 25 X 98 / 200 12.75 = 25 X 102 /200 85.75 = 175 X 98 / 200 89.25. = 175 X 102 / 200 4. 카이제곱의 한계 5. 알아두면 좋은 개념들 5-1 상대위험도 5-2 교차비/오즈비 ( Odds ratio ) *(오타) BC가 발생할 오즈는 핸드폰 사용자가 그렇지 않은 사람보다 3배 높음 5..
1. 공분산이란 무엇인가? 분산이란? -> 내가 가진 데이터가 평균값을 중심으로 퍼져 있는 평균적인 거리 공분산이란? -> 두 변수의 평균값을 중심으로 퍼져 있는 평균적인 거리 2. 공분산과 분산의 차이 거리라고 되어있지만, "거리"의 개념은 아니고, 방향의 개념이 옳음! 2차원 = 변수 2개 --> 공변량이라고 부름 즉 방향의 개념! 3. 공분산을 계산해보자 이 데이터를 계산해보면 공분산 == 762 0 & y 편차(y - y평균) > 0 x 편차(x - x평균) 0 & y 편차(y - y평균) 0 이러한 관계를 그림과 함께 varian..
1. One-way ANOVA의 등장 A 평균 178.5 cm B 평균 179.9cm C 평균 181.9cm 라고 한다면, 세 집단은 통계적으로 과연 같은 집단이라고 할수 있을까? 평균을 통해 두 집단의 동일성을 판단하는 t-test를 두번 사용하면 되지 않을까? 하는 생각도 든다. 하지만, 절대로 그렇게 하면 안된다. 그 이유는, 0.05 + 0.05 + 0.05 = 0.15 전체 p-value가 15%가 되는 문제가 발생하기 때문이다!!! 이러한 오류를 1종 오류라고 하는데, 1종오류를 계신하는 식은, 아래와 같다. 비교할 집단이 3개 이상인 경우, t-test 3번을 하면 1종 오류에 빠진다. 따라서 새로운 통계방법이 One-way ANOVA 이다! ( Analysis of Variance 의 약자..
1. t-test의 목적 -> 두개의 집단이 같은지 다른지 비교하기 위해 사용한다. 2. 모집단 VS 표본 모집단 표본 관측지 N n 평균 u X바 분산 σ^2 s^2 표준편차 σ(시그마) s 그렇다면 어떻게 같은지 다른지 비교할까?? ->평균값이 통계적으로 같은지, 다른지 비교한다! 3. t-test의 예 A 집단의 키 평균 == 178.5 B 집단의 키 평균 == 179.9 라 할때, -> A/B가 우연히 같은 확률은 얼마일까? -> 1.4cm가 우연히 발생했을 확률은 얼마나 될까? 4. t-test에 대한 깊은 이해 -> 우리는 1.4cm가 얼마나 큰지, 작은지 알수가 없음! -> 1.4cm 가 얼마나 큰지 작은지에 대한 기준이 필요함! -> 어떤거를 가지고와서 비교할지 결정해야함! 정답은 "분산(..