w9yLIXe0E8XpQyrf6L0kQ2Mtqo84NeBknGiiYNPC557b9ZWFapfoOkWSbRtxkbrGa1x87RLjuvuRKoo1T-KhYccwBh1TlZJmZGWPW_APslJ_47fGTbE


안녕하세요? 교주 LGS입니다.

이번시간에는 PDF(Probability Density Function 확률밀도함수)에 대해서 알아보도록 하겠습니다.


2강 히스토그램을 그릴 때사용했던 1500명 LGS 고등학교 학생들의 키 데이터를 다시 가지고 왔습니다. 기억나시죠? ^^

학생들이 어느키에 얼마나 분포(distribution)하고 있나를 바로 아시려면 histogram을 그리면 되었죠?

height.mat


6st6GMh7mQ8ou8OzoyjN3sHyp2i_O-YB6pVy1uXlA576bVqL1kOoy2Vs3Uf4qn1lZ9c0k27pRs1od9NFRvfIJhwRiEqmGNW1Ep3W8C5gB6a6m4bvG2w


위의 Histogram을 확률로 나타내시려면 전체학생수 1500명으로 나누어 주시면 되구요~

말씀드렸듯이 자연에 있는 모든 것을 측정하여 Histogram으로 나타내면 대충 위의 종모양처럼 나옵니다.

진짜라니까요!! 의심이 가시면 직접해보시길... ^^;;


그런데 저 종모양에 딱 들어맞는 방정식을 Gauss라는 위대한 수학자가 찾아냈습니다. 후덜덜


pdf01.png



아~ 정말 신기하게 잘 맞지 않나요? ㅜㅜ

위의 빨간색 선을 표현하는 수학식은 


pdf02.png


입니다.식에서 μ는 평균(mean)이구요~ σ는 표준편차(standard deviation)이죠~ ^^ 

종모양 그래프의 볼록 솟은 가운데가 mean이구요(대충 173~4cm쯤 되네요)~ 표준편차가 크면 클수록 평퍼짐한 종이 되겠죠?

(제가 지금 무슨말을 하지는 모르시겠다면 'Statistics 때려잡기 with MATLAB 3강'을 참고하세요)

위와 같이 종모양으로 분포되어있는 녀석을 정규분포(Normal Distribution)라고 부릅니다.

(Normal distribution은 Normal distribution을 나타내는 식을 Gauss가 발견하였다하여 Gaussian Distribution이라고도 합니다.)


분포에 들어 맞는 그래프를 그리는 함수를 Probability Density Function(확률 밀도 함수)라고 하구요

줄여서 PDF(Probability Density Function)라고도 그러죠~ Adobe사의 PDF가 아니구요 ^^;;

사실 확률밀도함수에도 종류가 여러가지가 있습니다. 그러나 그중 으뜸은 당연 Normal PDF !!

Normal PDF만 잘 아시면 80%는 먹고들어가는 겁니다.통계학에서 Normal PDF가 주인공이구요 나머지는 그냥 조연들....

아래 그림을 보고시고 각 distribution의 모양을 대충 익혀두세요~ 



Probability-distribution-image.gif 

(이미지 출처: withfriendship.com)


아! 위의 그림에서 세로로 줄이 가있는 녀석들이 있죠? Poisson이라던가 Binomial 등등 

위의 그림에서 세로로 줄이 가있는 녀석들은 Discrete distribution입니다. 즉 값이 연속적으로 쭉 분포되어 있는 것이아니라 

한개~ 두개~ 이런식으로 뚝뚝 끊어져있는 값만 가질수 있는 분포들이구요~

반면에 속이 까만 녀석들은 continuous distribution을 나타냅니다. 키나 몸무게는 값이 연속적이잖아요~


MATLAB에서 제공하고 있는 PDF를 확인하시려면...

MATLAB command window에서 >>disttool 이라고 입력하시거나 Start -> Toolboxes -> Statistics -> Probability Distribution Function Tool 을

클릭하시면 됩니다.


pdf04.png


Normal PDF에서는 딱 두가지만 기억하시면 되요~ o(^o^)o

  • 확률밀도함수는 종의 중앙(평균)을 중심으로 좌우 완전 대칭이다.
  • 확률밀도함수에서 곡선 아래의 [면적 == 확률]이다.

면적을 계산하려면 적분을 하면 되겠죠? ^^

그럼 PDF를 -∞ 부터 +∞까지 적분하면 1이 나올꺼구요, 0부터 +∞까지 적분하면? 넵 0.5가 나오겠네요?

(확률이 1이란 말은 확률이 100%라는 말이구요 LGS 고등학교의 예를 들자면 1500명중에 아무나 뽑아도 

키가 -∞cm 부터 +∞cm사이에 있을 확률이 100% 다라는 말입니다. 당연하겠죠?)


PDF의 -∞ 부터 x까지의 면적을 x를 쭉 변화시키면서 그래프로 나타내면 아래처럼 됩니다.

아래와 같은 그래프를 그리는 녀석을 Cumulative Distribution Function(CDF 누적분포함수)라고 부릅니다.

Probability Distribution Function Tool에서 Function Type을 CDF로 설정하시면 각 distribution(분포)에 대한 CDF를 바로 보실 수 있구요


pdf05.png


MATLAB에서 PDF와 CDF를 계산해주는 함수는 각각 pdf와 cdf입니다.

예를 들어 평균이 이고 표준편차가 1Normal PDF의 x=2의 값을 알고 싶으시면 

>>pdf('Normal',2, 0, 1) 라고 입력하시면 됩니다.

cdf함수의 사용법도 pdf와 동일 하구요~


PDF와 CDF를 한눈에 볼수 있는 MATLAB GUI 파일을 올려 놓았으니 한번 실행시켜 보세요~ ^^

cdf_demo.fig    cdf_demo.m




자~ PDF(Probability Density Function 확률밀도함수)와 CDF(Cumulative Distribution Function 누적분포함수)가 

어떤 녀석들인지 대충감을 잡으셨나요? ^^

다음 강좌에서는 이 PDF와 CDF에 대해 좀더 알아보고 본격적으로 재미있는 계산을 해보겠습니다.

"나는 키로 우리나라에서 몇등인가?"를 계산해보도록 하죠~ o(^o^)o



이번강좌는 여기까지~

다음 시간에 뵈요~ ^^

profile