w9yLIXe0E8XpQyrf6L0kQ2Mtqo84NeBknGiiYNPC557b9ZWFapfoOkWSbRtxkbrGa1x87RLjuvuRKoo1T-KhYccwBh1TlZJmZGWPW_APslJ_47fGTbE


안녕하세요? 교주 LGS입니다.

PDF(Probability Density Function) 계속입니다.

거두절미하고 바로 강의 시작할께요~  =(=^ㅅ^=)= 


PDF에서는 딱 두가지만 기억하시면 된다고 했죠~ o(^o^)o

  • 확률밀도함수는 종의 중앙(평균)을 중심으로 좌우 완전 대칭이다.
  • 확률밀도함수에서 곡선 아래의 [면적 == 확률]이다.


laboratory04.gif

Normal PDF의 경우...

평균(m)으로부터 +- 1시그마(σ)안에 68.3%가 포함되구요 +-2시그마(σ)안에는 95.5%가, +-3시그마(σ)안에는 99.7%가 포함되게 됩니다.

예를 들어 평균이 0이고 표준편차 시그마(σ)가 1인 PDF의 x= -1부터~ x= +1 사이의 면적이 0.683이라는 말입니다.

위의 세숫자는 외워두시면 매우 편합니다. ^^


위의 내용을 머리속에 새겨두시고 우리나라 남성의 키를 가지고 여러가지를 계산해봅시다요~ o(^o^)o

성인 남자 평균키을 검색해보니 우리나라 20대~ 30대 남성 평균 키는 173.8cm이구요 표준편차는 5.84cm 라고 하네요~

(정확한 데이터인지는 모르겠습니다. 통계청 홈페에지에 확인하려니 뭘 깔라고 하는 것이 너무 많아서...;;; 

그냥 일반 블로그에 있는 데이터를 참조하겠습니다.)

그럼 루저가 아닌 180cm이상의 남성은 우리나라 젊은 남자의 몇 %인지 계산해봅시다요~ 

MATLAB에서 CDF(Cumulative Distribution Function)의 값을 구해주는 함수는 cdf였죠?

그럼 MATLAB code는 어떻게 작성해주어야 할까요?? ^^


pdf0202.png


MATLAB cdf함수를 이용하여 평균이 173.8cm이고 표준편차가 5.84cm인 Normal PDF의 마이너스 무한대부터 180cm까지의 면적을 구해보면

(즉 180의 CDF를 구해보면) 0.8558이나오내요~ 즉 키가 180cm 이하인 대한민국 성인 남성이 전체 성인 남성의 85.85%라는 거죠~

그러므로 키가 180cm 이상인 성인남성은 전체 성인남성중에 14.42% (100 - 85.58)밖에 되지 않습니다. ^^;;


한번더 연습해볼까요? 키가 175cm 이상 ~ 180cm이하인 남성의 비율은 어떻게 구하면 될까요? ^^

pdf0203.png


cdf 함수의 '알고자 하는 누적 값'에 숫자가 아닌 vector도 들어갈 수 있구요~ cdf 함수는 입력 vector의 각 element에 대한 CDF를 계산해서 돌려줍니다.

위의 결과를 보면 마이너스 무한대에서 175cm까지가 58.14%이고 다시 마이너스 무한대에서 180cm까지가 85.58%이므로

175cm이상 180cm이하인 성인남성의 비율은 85.58 - 58.14 = 27.44% 가 되겠습니다요~ o(^o^)o

이해가시죠? 초등학교 산수시간입니다. ㅋ


다른 문제!! 그럼 키가 얼마가 되어야 상위 20%에 들어갈까요??

이럴 때에는 icdf(Inverse Cumulative Distribution Function) 함수를 사용하시면 한번에 계산할 수 있습니다.

(아래 code를 잘보세요 아래 icdf함수는 평균 173.8, 표준편차 5.84인 cdf의 값이 0.8이 나오는 x값을 계산해줍니다.)


pdf0204.png


계산결과를 보니 178.7cm 이상은 되어야 상위 20%안에 들수 있군요 ;;


자~ 그럼 저 옛날~ 컴퓨터도 없고 계산기도 없던 시절 CDF를 어떻게 계산했을 까요?

이때 등장하는 것이 Z-Score입니다!! 두둥!!

잘 생각해보시면 CDF를 계산하실 때 평균에서 몇 시그마(σ 표준편차) 만큼 떨어져있나만 알고 있으면 CDF를 계산할 수 있습니다.

다시말해 평균이 0이이고 표준편차가 1인 Normal PDF의 x = 1(평균으로 부터 1 시그마 만큼 떨어져 있는)일 때의 CDF값이나

평균이 173.8 이고 표준편차가 5.84인 Normal PDF의 x = 179.64(평균 173.8 + 표준편차 5.84 = 179.64 평균으로 부터 1 시그마 만큼 떨어져있는)일 때의

CDF값은 동일 합니다.

Z-Score는 평균으로부터 몇 시그마(σ 표준편차) 만큼 떨어져 있나를 나타내는 수입니다. 별거아니죠? ^^

평균이 0이고 표준편차 σ가 1인 Standard Normal PDF의 CDF를 미리 계산을 해서 표로 만들어 놓고선 필요할 때 표을 참조하는 거죠~

왜 이런 과정(z-score를 구하는)을 거치냐구요? 옛날에는 컴퓨터도 없었다니까요!! 계산기도 없어요!! 손으로 다 풀어야해요!! 

그래서 표로 만들어서(물론 표를 만들 때 손으로 일일이 다 풀었습니다;;) 필요할 때 찾아 쓰겠다는 거죠 ㅜㅜ


Z-Score를 이용해서 CDF를 계산하려면 원래의 PDF를 평균은 0으로 옮기고 표준편차 σ를 1로 만들어 주시면 됩니다.


pdf0206.png 

Table을 만들면 아래처럼 되구요~


pdf0205.png


Z-score가 0일때 Table의 값이 0.5인 것에 주목하세요~

Z-score가 0이면 평균으로 부터 0 시그마(표준편차) 만큼 떨어져있는 곳이나까 그냥 평균이 되구요 

평균의 CDF값은 마이너스 (-)무한대 ~ 평균까지의 면적이죠? PDF각 평균을 중심으로 좌우 대칭이니까 0.5가 나오는게 맞군요 헤헤

참고로 MATLAB에서 Z-Score를 계산하시려면 zscore 함수를 사용하면 됩니다. (zscore 함수는 사용할 일이 잘 없겠죠? ㅋㅋ)




이번강좌는 여기까지~

무더위에 건강조심하시고 다음 강좌에서 뵈요~ ^^

그럼 이만 총총...

profile