기초통계

분산구하기

Boggi 2024. 2. 23. 17:30
반응형

1. 분산 기초 이론

분산(variance)이란?

평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량

 

데이터가 가운데 모여 있다 =  분산이 작다

데이터가 넓게 퍼져 있다 =  분산이 크다

출처: 혼공분석 p.235

 

[ 분산구하기 공식 ] 

데이터의 각 값에서 평균을 뺀 값을 제곱한 후 샘플 개수로 나누어 구한다.

데이터의 갑셍서 평균을 빼는 이유는 데이터가 서로 얼마나 멀리 떨어져있는 지 알 수 있기 때문이다.

평균을 뺀 값에 제곱을 하는 이유는 음수가 되는 것을 막아서 0이 되지 않게 하기 위해서다.

출처: 혼공분석 p.236

 

분산을 시그마로 표현해보자

출처: 혼공분석 p.236

 

2. 판다스에서 분산 구하기

1 .데이터 확인

 

2. var() 메서드로 분산 구하기

 

분산은 제곱을 했기때문에 데이터가 평균에서 멀어질수록 값이 커진다.

이를 보완하기 위해서 분산에 제곱근을 한 표준편차를 사용한다.

 

출처: