David의 개발 이야기!
상관관계와 공분산에 대해 알아보자! 본문
1. 공분산이란 무엇인가?
분산이란?
-> 내가 가진 데이터가 평균값을 중심으로 퍼져 있는 평균적인 거리
공분산이란?
-> 두 변수의 평균값을 중심으로 퍼져 있는 평균적인 거리
2. 공분산과 분산의 차이
거리라고 되어있지만, "거리"의 개념은 아니고, 방향의 개념이 옳음!
2차원 = 변수 2개 --> 공변량이라고 부름 즉 방향의 개념!
3. 공분산을 계산해보자
이 데이터를 계산해보면
공분산 == 762 <-- 이게 무슨 뜻일까?
분산은 단순 퍼진 정도라면, 공분산은 두 변수(차원)에서 어떤 모양으로 퍼져 있는가임
이를 variance covariance matrix(공분산 행렬)로 표현하면,
국어 영어
c = 국어 [ 808 , 762
영어 762, 925 ]
4. 공분산의 특징
- 분산은 언제나 양수
- 공분산은 양수일수도 있고, 음수일수도 있음
그렇다면, 양의 공분산과 음의 공분산이 의미하는 것은?
양의 공분산이 나오는 경우
x 편차(x - x평균) > 0 & y 편차(y - y평균) > 0
x 편차(x - x평균) < 0 & y 편차(y - y평균) < 0
음의 공분산이 나오는 경우
x 편차(x - x평균) > 0 & y 편차(y - y평균) < 0
x 편차(x - x평균) < 0 & y 편차(y - y평균) >0
이러한 관계를 그림과 함께 variance covariance matrix 로 표현하면, 아래와 같다.
그림 1
x 분산이 5, y 분산이 6이다.
공분산은 4
그림2
x 분산은 5, y 분산은 6이고,
공분산은 -4이다.
그림1,2의 차이는 공분산의 부호 차이인데, 그림의 방향이 다르다!
그림3 , 그림4
공분산은 0이므로 x 혹은 y 가 증가할때, 각각의 y,x 가 변하지 않는다 == 아무런 상관관계가 없다.
5. 공분산과 상관관계
예시를 통해 더 알아보자
위 데이터를 10점만점으로 환산하면
위 그림에서 알수 있는 점은, 공분산 또한 단위에 의해 영향을 많이 받는다!!
하지만, 상관계수는 그렇지 않음!!
Pearson 상관계수와 Spearman의 순위상관계수는 따로 정리할 예정!
'통계공부' 카테고리의 다른 글
표본분산과 불편분산의 차이에 대해 알아보자! (0) | 2023.09.30 |
---|---|
카이제곱 검정에 대해 알아보자! (0) | 2022.05.23 |
One-way ANOVA 에 대해 알아보자! (0) | 2022.05.17 |
통계의 기본, t-test 란! (0) | 2022.04.28 |