w9yLIXe0E8XpQyrf6L0kQ2Mtqo84NeBknGiiYNPC557b9ZWFapfoOkWSbRtxkbrGa1x87RLjuvuRKoo1T-KhYccwBh1TlZJmZGWPW_APslJ_47fGTbE


반갑습니다. 교주 LGS입니다.

PDF와 CDF에 대한 이해는 충분히 하셨나요? ^^

이번 시간부터는 Sample의 Statistic에서 Population의 Parameter를 추정(Estimation)하는 Inferential Statistics로 넘어갑니다. ^^


2zz5DZdIUmGxLs-kJTf2THM9C7cOCUdrGU_i_MA_S257nxzESplBffE_J-6cvJGbWZEhyOUsezZt_yoHJhHWnlDa1y50ULco-SWNek7ETNBc4UKBGpU


강의를 진행하기전에 질문 하나 할께요~ Population에서 Sample을 뽑아 계산한 Sample(표본)의 평균이나 표준편차가 

정말 "정확한" Population의 평균(또는 표준편차)일까요?

대한민국 성인 남성의 평균키를 알고 싶어 Sample로 10명의 키를 재었다고 하면 그 10명의 평균키를 대한민국 전체 성인 남성의 평균키라고 

자신있게 말할 수 있냐이거죠~ -_-;;


위와 같은 Sample의 Statistic(10명이 평균키)으로부터 Population의 Parameter(대한민국 남성의 평균키)를 유추하는 것을 

Estimation(추정)이라고 합니다. 오늘은 이 Estimation에 대한 이야기를 해보도록 하죵~ o(^o^)o

(Statistic?? Parameter?? 지금 제가 무슨 이야기를 하고 있는지 이해가 가지 않으신 분들은 Statistics때려잡기 1강부터 정독해보시길 권해드립니다. ^^)


우선 표준편차 σ,s는 잠시 접어두고 Sample과 Population의 평균(mean)에 대해서만 이야기하겠습니다.

예를 들어 Population이 1500명인 LGS 고등학교에서 1500명중 100명을 Sample로 뽑아서 평균키를 계산한다고 하죠~ 

(미리계산한 1500명의 평균키(Parameter)는 173.8cm 입니다.)


아마 100명의 평균 키는 1500명의 평균키와  비슷은 하겠지만  정확히 일치하지는 않을 겁니다.

그런데 Sampling(100명을 뽑아서 평균키를 계산하는 것)을 한번만 하는 것이 아니라 여러번 한다면??

즉 1500명중 Sample로 100명을 뽑아서 평균키를 재고, 다시 1500명중 Sample로 100을 뽑아서 평균키를 얻고~

또 다시 1500명중 100명을 뽑아서 평균키를 계산하고 ... 이런식으로 같은 크기의 Sample을 

반복적으로 여러번 뽑아서 계산해낸 평균키를 쭉 적는다고 해봅시다.


위에서 말한 100명을 Sampling할 때마다 얻은 [Sample의 평균]을 히스토그램으로 그려보니 아니 글쎄!! 또!! 종모양이 나오는 거예요!!


Estimation0101.png


(위의 그래프에서 윗쪽 그래프는 1500명의 키를 히스토그램으로 그린 것이구요)

아랫쪽 그래프는 위에서 언급한 반복적으로 여러번 [1500명 중 100명을 뽑아서 평균을 계산]한 값을 히스토그램으로 나타낸 것입니다.

100명의 평균키가 180cm인 경우는 매우매우 드물겁니다. 1500명중 100명을 무작위로 뽑았는데 하필 뽑힌 100명이 모두 큰키에 속하는 학생일 

확률은 매우 낮을 테니까요.


아래쪽 히스토그램도 종모양의 분포를 가지고 있으므로 Normal distribution으로 가정할 수 있구요~ 

위와 같이 여러번 Sampling 해서 얻은 분포를  Sampling distribution라고 합니다.

Sample mean(샘플 100명의 평균키)의 Sampling distribution이므로 [Sampling distribution of the sample mean]이라고 할 수 있겠네요~ ^^

딱 봐도 밑의 히스토그램의 표준편차(종모양이 퍼진 정도)가 Population의 표준편차보다 작죠? ^^


Sampling을 딱 한번만 해보고도 Sampling distribution의 표준편차를 계산하는 공식이 있습니다. (분산은 그냥 표준편차를 제곱하면 되구요)


Estimation0104.png


위의 식의 의미는  Sample의 크기(size)가 커지면 커질 수록 Sample mean으로부터 실제 Population의 평균을 더 정확하게(즉 표준편차가 더 작게) 

추정할 수 있다는 말입니다.

무슨말인지 모르시겠다구요??;; 문제로 개념을 잡아 봅시다요~ o(^o^)o

자~ 여러분은 지금부터 사과농장 싸장님입니다. ^^

여러분의 사과농장에서 올해 20만개의 사과를 수확했습니다. 우와 부자 싸장님!! ㅋㅋ

올해 수확한 사과 20만개의 평균무게를 알고 싶어 20만개의 사과중 36개를 무작위로 뽑아서 무게를 쟀습니다.

Sample로 뽑은 36개의 사과의 평균무게는 112g 이었고 표준편차(Standard deviation)은 40g 이었습니다.

그렇다면 [20만개의 사과]의 평균무게가 100g ~ 124g 사이에 있을 확률은 얼마일까요? ^^


풀이 들어갑니다요~ ^^ 허잇!!

우선 문제를 헷갈리시면 안되요~ ;; 주어진 문제는 [20만개의 사과의 평균무게가 100g~ 124g 사이에 있을 확률]을 묻고 있습니다.

"20만개의 사과중 하나를 뽑았을 때 뽑힌 사과의 무게가 100g ~ 124g 사이에 있을 확률"이 아닙니다.!!

("20만개의 사과중 하나를 뽑았을 때 사과의 무게가 100g ~ 124g 사이에 있을 확률"을 계산하는 문제라면 

지난 시간 배운 CDF로 바로 계산할 수  있습니다.)


주어진 자료를 정리하면 Population은 올해 수확한 사과 20만개이구요 Sample은 무작위로 뽑은 36개의 사과이죠?

Sample의 mean이 112g이므로 Population의 mean도 112g 이라고 가장할 수 있을 겁니다.

그러나 20만개 사과의 평균무게(Population mean)는 정확히 112g이 아니라 112g과 비슷한 숫자이겠죠?

다시 말해 Population의 mean은 sample mean과 같은 112g일 확률이 가장 높고 112g으로 부터 멀어질 수록 

확률이 감소하는 종모양의 분포라고 생각 할 수 있습니다.

Sampling을 통해 얻은 이 종모양을 Sampling distribution이라고 그러구요 Sampling distribution은 Normal distribution을 따릅니다. 

(sample size가 30보다 크다면)

(위의 LGS 고등학교 히스토그램의 아래 그래프를 생각해보세요)

즉 [Sample 평균의 분포]는 평균이 Sample 평균(112g)이고 standard deviation은 σ/√n ≒ s/√n = 40g/√36 = 6.67g 인

Sampling distribution(=Normal distribution)을 따른다는 거죠~ 이해 가시나요?

참고로 Population의 standard deviation도 Sample deviation이랑 똑같은 40g이라고 가정할 수 밖에 없습니다.(다른 정보가 없으니까)


cdf함수를 이용해서 MATLAB code를 작성해보면 (cdf 함수의 사용법)

Estimation0105.png

그러므로 [20만개의 사과의 평균무게가 100g~ 124g 사이에 있을 확률]은 92.81%이네요~ ^^

(아 물론 z-score를 구해서 table을 찾아서 계산하셔도 되구요)





Estimation0103.png


자~ 다시 한번 정리해보겠습니다.

저는 여러분이 무엇을 헷갈려하는지 잘 알고 있습니다 ^^ 저도 처음에는 헷갈렸기 떄문에 ;;;

Sample의  Statistic에서 Population의 Parameter를 유추하는 것을 Estimation이라고 합니다.

우리가 관심있는 Population의 Parameter는  크게 두가지인데 바로 [평균(Mean μ)]과 [분산(Variance σ2) 또는 표준편차(Standard Deviation σ)]

입니다. 즉 전체중에 몇개 뽑아보고 Sample의 Mean과 Variance로부터 Population의 Mean과 Variance를 알아내고 싶은 겁니다.

그런데 Sample의 평균은 실제 Population의 평균이랑 비슷한 값이지만 정확한 Population의 평균이 아니다 이거죠.

여러번 Sample을 뽑아 Sample의 평균들을 히스토그램으로 그려보니 역시 종모양이 나오더라!! 이겁니다. 

즉 Sample mean도 일정한 분포를 가지고 있더라 이 말이죠~

그 [여러번 Sample을 뽑아 그린 종모양(Sampling distribution)]의 평균은 Sample의 mean(평균)과 같고 

표준편차(종이 퍼진 정도)는 Sample의 표준편차를 Sample의 Size의 루트로 나눈것(s/√n)이랑 아주 잘 맞아 떨어지는 겁니다.

당연히 Sample의 크기(size)가 커지면 커질 수록 실제 Population의 평균을 더 정확하게(즉 표준편차가 더 작게) 추정할 수 있을 테니까

분모에 sample size n이 들어가는것이 자연스럽구요~

여기까지 이해가셨나요?? ^^



좀더 이야기를 하자면~

만약 Sample의 Size가 30 이상이면 (지금까지 봐온데로) Normal distribution의 분포를 따르고

만약 Sample의 Size가 30 이하이면 Sampling distribution은 Student's t-distribution을 따릅니다. (다음 강좌에서 설명하겠습니다.)

Mean과 마찬가지로 Variance도 Sample의 variance가 Population의 variance와 비슷한 값이지만 정확히 일치되는 값은 아니고

Sampling을 여러번 해서 variance의 histogram을 그려보면 χ2 distribution (카이 스퀘어 분포)라는 분포를 따르더라 이말입습죠~

분포만 달라지므로 이번 강좌를 잘 이해하셨다면 위의 내용도 식은 죽먹기 ㅋㅋ




이번 강좌는 매우 중요한 강좌입니다. 이번 강좌를 잘 이해하셨다면 앞으로 진행될 강좌도 어려움 없이 잘 따라오실 수 있을 거구요

만약 이번강좌를 이해하지 못하신다면 ;;; 통계학의 험난한 길이 예정되어 있습니다.

이번 강좌 꼭 이해하세요~ 이해가 가지 않는 부분은 Q & A 게시판에 질문 남겨주세요

다음 시간에는 이번 시간에 못다한 Student's t-distribution과 χ2 distribution을 마무리 짓도록 하죠잉~ ^^

무더운 날씨에 건강 조심하시고 다음시간에 뵈요~ 뿅~ 

profile