w9yLIXe0E8XpQyrf6L0kQ2Mtqo84NeBknGiiYNPC557b9ZWFapfoOkWSbRtxkbrGa1x87RLjuvuRKoo1T-KhYccwBh1TlZJmZGWPW_APslJ_47fGTbE


안녕하세요? 교주 LGS입니다.

이번시간에는 지난 시간에 못다한 Student's t-distribution에 대해서 알아보겠습니다.

지난 강좌를 잘 이해하셨다면 이번 강좌는 매우 쉬울 겁니다~ ^^

자~ 강의 시작할께요...


Estimation0103.png


Sample mean으로부터 Population mean을 Estimation 할 때

Sample mean이 따르는 분포는 Sample의 Size에 따라 달라집니다.

만약 Sample의 Size가 30 이상이면 (지난 시간에 봤듯이) Normal distribution의 분포를 따르고

만약 Sample의 Size가 30 이하이면 Sampling distribution은 Student's t-distribution이라는 녀석을 따릅니다.

Student's t-distribution도 Normal distribution과 같이 종모양인데요~ Normal distribution과 결정적인 차이가 있습니다.

그 차이는 바로바로바로 Student's t-distribution은 꼬리가 뚱뚱하다(fat tail)는 거예요


여담으로 t-distribution은 영국인 William S. Gosset이란 분이 1908년에 논문으로 발표하였습니다.

그 당시 Gosset은 기네스 맥주회사에 근무하고 있었는데 기네스 맥주회사는 직원들의 논문 출간을 금지하고 있었습니다.

(그전에 논문으로 회사기밀이 누출되어서 직원들의 논문 출간을 금지하였다는 군요 -_-;;)

그래서 Gosset은 필명으로 자신의 이름을 감추고 Student(학생)이란 이름으로 논문을 내게 됩니다~

그리하야 t-distribution은 Student's t-distribution 되었던 것이 였던 것이 였습니다. ^^;;



                  students_t02.png

꼬리는 평균으로 멀리 떨어져있는 곳을 말하구요

꼬리가 두껍다(뚱뚱하다)는 말은 예외적인 상황이 생각보다(Normal distribution 보다) 자주 일어난다는 의미입니다.

위의 그래프에서 평균으로부터 4σ 떨어진 값이 나올 확률이 Normal distribution의 경우 거의 0에 가까운데

Student's t-distribution의 경우는 확률이 의외로 높게 나옵니다. (100번중에 2번 정도)

Sample의 Size가 작으면(30이하) Student's t-distribution을 따른 다는 말은 엉뚱한 값이 나올 확률이 높다는 말입니다.

Sample의 개수가 작으면 꼬리가 뚱뚱한 것은 당연한 결과겠죠?

5000만명 중에 1명을 뽑아서 키를 평균을 내보면 거인도 뽑힐 수 있구요 난장이도 뽑힐 수 있구요~ 

반면에 100명을 뽑아서 키를 평균을 내면 극단적인 값들은 어느 정도 상쇄가 되어 평균이 극단적으로 크거나 작은 꼬리부분 값이

나올 확률은 거의 0으로 떨어집니다.


Estimation0102.png

(이미지 출처: http://en.wikipedia.org/wiki/Student's_t-distribution)


Student's t-distribution에는 Degree of Freedom(자유도)이란 것이 있습니다.

자유도란 실질적으로 독립인(아무 값이나 취할 수 있는) 값들의 개수를 말합니다.

예를 들어 A, B, C 3명의 평균키가 180cm라고 해보죠~ A의 키는 175cm 라고 정하고 B의 키는 185cm라고 한다면 

(지금 A,B 두명의 키를 제가 마음대로 정했어요~)  평균키가 180cm가 되려면 C의 키는 반드시 180cm가 되어야합니다. 

C의 키는 마음대로 정할 수 없구요 A와 B의 키에의해서 결정 되어져 버립니다.

제가 마음대로 값(키)을 정할 수 있었던(서로 독립인) data의 개수가 자유도입니다. 

그러므로 A, B, C 세명의 키(Sample Size == 3)에 대한 Degree of Freedom은 2가 됩니다. (A, B의 키를 마음대로 정할 수 있었습니다.)

정리해보면 Sample size n에서 1을 뺀 n-1이 Degree of Freedom (줄여서 df라고도 합니다.)이 되구요~ 

만약 Sample의 수가 10개라면 자유도는 10-1 = 9가 됩니다. 간단하죠? 


df가 낮을 수록(Sample의 개수가 작을 수록) 꼬리는 더 뚱뚱해 질 겁니다. (엉뚱한 값이 나올 확률이 더 높습니다.)

반대로 df가 클 수록(Sample의 개수가 많을 수록) 꼬리는 얇아지구요 (점점 Normal distribution에 가까와 집니다.)

Degree of Freedom이 29가 넘어가면 Student's t-distribution이나 Normal distribution이나 별 차이가 없어요~ ^^

다시 말해 Normal distribution은 Student's t-distribution의 (Degree of Freedom이 30이상인) 특별한 한 형태라고 생각 할 수도 있습니다.


 students_t03.png


MATLAB에서 Student's t-distribution를 이용하시려면 역시 pdf와 cdf함수를 그대로 사용하시면 되구요

대신 Input으로 Degree of Freedom을 넣으시면 됩니다. (평균과 표준편차는 필요 없습니다.)

예를 들어 Degree of Freedom이 5이고, x = 3인 Student's t-distribution의 PDF를 계산하시려면

>>pdf('T',3,5)

라고 하시면 됩니다요~ o(^o^)o (아니면 그냥 >>tpdf(3,5)라고 하셔도 되요)

cdf(Cumulative Distribution Function)도 같은 방법으로 사용하시면 되구요~


간단한 문제 하나 풀어 보고 강의를 마치도록 하겠습니다. o(^o^)o

(지난 시간에 풀었던 문제를 그대로 가지고 오겠습니다. Copy & Paste 신공 ㅋㅋ 앞 강좌를 반드시 읽고 오세요)

자~ 여러분은 지금부터 사과농장 싸장님입니다. ^^

여러분의 사과농장에서 올해 20만개의 사과를 수확했습니다. 우와 부자 싸장님!! ㅋㅋ

올해 수확한 사과 20만개의 평균무게를 알고 싶어 20만개의 사과중 16개를 무작위로 뽑아서 무게를 쟀습니다.

Sample로 뽑은 16개의 사과의 평균무게는 112g 이었고 표준편차(Standard deviation)은 40g 이었습니다.

그렇다면 [20만개의 사과]의 평균무게가 100g ~ 124g 사이에 있을 확률은 얼마일까요? ^^

 

풀이를 보시기 전에 지난시간에 푸셨던 Sample Size가 36개일때 [20만개의 사과]의 평균무게가 100g ~ 124g 사이에 있을 확률 92.81%보다

이번 문제의 확률이 더 클까 아니면 더 작을까 잠시 생각해보세요~ ^^ 


문제풀이 들어갑니다요 허잇!!

이번 문제는 Sample size가 30개 이하(16개)이므로...

Sampling distribution이 Normal distribution이 아니라 Normal distribution보다 꼬리가 더 뚱뚱한 Student's t-distribution인 것만 다릅니다. ^^


한가지 유의하셔야 할 것은 Student's t-distribution은 원래 평균과 표준편차가 입력변수가 아니라는 점입니다.

t-distribution을 계산하는 식에 평균과 표준편차 항이 아예 없어요~ ;;

즉 t-distribution의 Probability Density Function은 오로지 x와 자유도 ν의 함수입니다. f(x,ν) 평균은 무조건 0이구요~

그러므로 Student's t-distribution을 활용하기 위해서는 z-score를 구하는 방법과 비슷하게 t-distribution에 대한 t-score를 구해서

평균으로부터 몇 시그마σ(표준편차) 만큼 떨여져 있나를 계산해주어야 합니다.


자~ 그럼 124g은 [평균무게의 평균 112g]으로부터 몇 시그마 떨어져있나요? 

([평균무게의 평균]이라는 말이 이해가 가지 않으신 분들은 앞 강의를 보고오세요~ ^^)

Sampling distribution of the sample mean의 standard deviation(표준편차)는  σ/√n ≒ s/√n = 40g/√16 = 10g 이구요

124g은 평균 112g으로부터 (124 - 112)/10 = 1.2 시그마 만큼 떨어져 있네요~

같은 방법으로 100g이 평균으로부터 몇 시그마나 떨어져있나를 계산해주면 -1.2 시그마 만큼 떨여져있는 것을 알수 있습니다.


자유도 df는 Sample Size가 16개이므로 16 - 1 = 15가 되구요~

MATLAB Code를 작성해보면

students_t04.png

결과를 보니 Sample Size가 16개일 때 [20만개의 사과]의 평균무게가 100g ~ 124g 사이에 있을 확률은 75.13%이네요~ ^^

같은 문제에 대해서 Sample Size가 36일 때의 92.81%와 확연한 차이를 보입니다.

위의 결과를 다른 각도로 해석해보자면 Sample size가 16개 일때가 Sample size가 36개일 때 보다

[20만개의 사과]의 평균무게가  112g일꺼라는 자신감,확신이 없다는 의미입니다.



다음 시간에는 확신, 자신감과 관련된 신뢰구간(Confidence Interval)에 대해서 이야기하도록 하죵~ 

긴 강의 따라오시느라 수고하셨습니다. ^^

그럼 이만.. 총총...

profile