본문 바로가기

Statistics

[통계] 기초부터 차근차근 - 확률 분포, 이산 확률 변수, 연속 확률 변수

✍ 데이터 분석에서 활용하기 위한 통계를 공부합니다.

 

🙌 혹시나 잘못된 정보가 있다면 댓글로 알려주시면 감사하겠습니다. :)


✅ 확률 분포



확률 분포
 확률 변수가 특정한 값을 가질 확률을 나타내는 함수


주사위로 많은 분들이 예시를 듭니다. 주사위를 한 번 던질 때 나오는 눈에 대한 것을 확률 변수(상태공간)이라고 하며, 이와 같은 변수는 이산 확률 변수, 연속 확률 변수로 나뉩니다.

 

변수 종류에 따라 어떤 확률 분포를 가지는지 알아볼까요?

 

이산 확률 변수(확률 질량 함수)


상태공간
크기가 유한한 변수

단순히 데이터 타입이 String이라고 해서 이산 확률 변수가 아니라 도메인을 확인해야합니다. 

 

 

 

 

이미지출처 - 위키백과

 

 

 

위의 그림을 보면 이산 확률 변수를 명확히 알 수 있는데요, 이산 확률 변수의 확률 분포는 확률 질량 함수로 나타냅니다.

1) 확률 질량 함수는 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수입니다.

2) 모든 확률을 더하면 1이 되어야 합니다.

 

변수마다 값을 하나하나 정확하게 가지고 있죠? 

 

연속 확률 변수(확률 밀도 함수)


상태공간
크기가 무한한 변수

데이터 타입이 단순히 float, int라 하여 연속 확률 변수라고 판단하면 안됩니다. 마찬가지로 도메인을 확인해야합니다.

 

연속 확률 분포(continuous probability distribution)는 확률 밀도 함수를 이용해 분포를 표현할 수 있습니다.

 

 

 

이미지 출처 - 링크

 

 

확률 밀도 함수는 위 그림과 같이 면적으로 표현합니다. 선으로 표현된 확률 질량 함수와 다른 모습입니다.

 

예를들어, 길을 가다가 지나가는 사람을 붙잡고 소보로빵을 좋아하냐고 물어보면 확률적으로 0으로 나타납니다. 왜냐하면 상태공간은 무한하고 좋아한다고 할(특정값) 확률을 한 사람으로 판단할 수 없기 때문입니다. 

 

위 그림에서 파란면적 부분의 딱 한 값을 선으로 나타낸다고 하여도 선의 면적은 0이라고 생각할 수 있습니다.

 


그렇다면, 데이터 분석에서 이를 어떻게 활용할까요?


✍ 한 변수가 따르는 확률 변수를 확인하면,

✍ 현재 수집한 데이터가 어떻게 생겼는지

✍ 새로 데이터가 들어오면 어떻게 들어올 수 있을지 예상할 수 있습니다.