David의 개발 이야기!

상관관계와 공분산에 대해 알아보자! 본문

통계공부

상관관계와 공분산에 대해 알아보자!

david.kim2028 2022. 5. 23. 01:46
반응형

1. 공분산이란 무엇인가?

 

분산이란? 

-> 내가 가진 데이터가 평균값을 중심으로 퍼져 있는 평균적인 거리

공분산이란?

-> 두 변수의 평균값을 중심으로 퍼져 있는 평균적인 거리

 

2. 공분산과 분산의 차이 

 

 

거리라고 되어있지만, "거리"의 개념은 아니고, 방향의 개념이 옳음!

2차원 = 변수 2개 --> 공변량이라고 부름 즉 방향의 개념!

 

3. 공분산을 계산해보자 

 

이 데이터를 계산해보면

공분산 == 762  <-- 이게 무슨 뜻일까?

 

분산은 단순 퍼진 정도라면, 공분산은 두 변수(차원)에서 어떤 모양으로 퍼져 있는가임

 

이를 variance covariance matrix(공분산 행렬)로 표현하면, 

                  국어    영어 

c =    국어 [ 808 , 762 

         영어    762, 925 ]

 

 

4. 공분산의 특징

- 분산은 언제나 양수

- 공분산은 양수일수도 있고, 음수일수도 있음

 

그렇다면, 양의 공분산과 음의 공분산이 의미하는 것은?

 

양의 공분산이 나오는 경우 

x 편차(x - x평균) > 0 & y 편차(y - y평균) > 0

x 편차(x - x평균) < 0 & y 편차(y - y평균) < 0

 

 

음의 공분산이 나오는 경우 

x 편차(x - x평균) > 0 & y 편차(y - y평균) < 0

x 편차(x - x평균) < 0 & y 편차(y - y평균) >0

 

 

이러한 관계를 그림과 함께 variance covariance matrix 로 표현하면, 아래와 같다. 

 

그림 1

x 분산이 5, y 분산이 6이다.

공분산은 4

 

그림2 

x 분산은 5, y 분산은 6이고,

공분산은 -4이다.

 

그림1,2의 차이는 공분산의 부호 차이인데, 그림의 방향이 다르다!

 

그림3 , 그림4

공분산은 0이므로 x 혹은 y 가 증가할때, 각각의 y,x 가 변하지 않는다 == 아무런 상관관계가 없다. 

 

5. 공분산과 상관관계

예시를 통해 더 알아보자

 

위 데이터를 10점만점으로 환산하면

위 그림에서 알수 있는 점은, 공분산 또한 단위에 의해 영향을 많이 받는다!!

 

하지만, 상관계수는 그렇지 않음!!

 

 

Pearson 상관계수와 Spearman의 순위상관계수는 따로 정리할 예정!

반응형
Comments