w9yLIXe0E8XpQyrf6L0kQ2Mtqo84NeBknGiiYNPC557b9ZWFapfoOkWSbRtxkbrGa1x87RLjuvuRKoo1T-KhYccwBh1TlZJmZGWPW_APslJ_47fGTbE

안녕하세요? LGS입니다.
오늘은 Descriptive Statistics(기술통계학)에 대해 좀더 자세히 알아봅시다.

Descriptive Statistics가 록하고 서하는 통계학이라고 했죠?
예를 들어 우리나라 전체 남자 고등학생(Population)의 평균 키(Parameter)를 알고싶다고 합시다. 
그런데 여건상 전국에 있는 모든 고등학교를 전부다  조사할 수가 없어서 
학생이 총 1500명인 LGS 남자 고등학교를 찍어서 LGS고등학교에 다니는 모든 학생들(Sample)만 키를 쟀습니다.

영식이는 175cm, 순덕이는 180cm, 철수는 170cm, 근석이는 178cm, ...
이렇게 1500명의 키를 쭉 재어서 기록합니다.


측정한 키를 어떻게 하면 다른 사람에게 잘~ 설명(서술 Descripte)할 수 있을까요?
아마 가장 간단하고 흔한 방법은 키가 169cm인 사람 몇명, 170cm인 사람은 몇 명. 171cm인 사람은 몇명...
(키가 171cm인 사람은 키가 170.5cm 이상 ~ 171.5cm 미만인 사람을 말합니다) 
이런 식으로 설명하는 것일 겁니다.
이걸 그래프로 그리면 아래처럼 되겠죠?

6st6GMh7mQ8ou8OzoyjN3sHyp2i_O-YB6pVy1uXlA576bVqL1kOoy2Vs3Uf4qn1lZ9c0k27pRs1od9NFRvfIJhwRiEqmGNW1Ep3W8C5gB6a6m4bvG2w

위와 같은 형태의 그래프를 Histogram(히스토그램)이라고 부릅니다.
MATLAB에서 히스토그램(Histogram)을 그리시려면 hist라는 함수를 사용하시면 됩니다.

형식은 아래와 같구요
hist(data,x)

>>hist(height,120:220);
첨부파일을 current folder로 다운로드하시고 hist(height,120:220) 이라고 하시면 위의 히스토그램을  보실 수 있습니다.

그런데 사람들이 자연에 있는 수만가지를 측정해서 히스토그램으로 그려봤더니 
어라?! 오잉?! 헉?! 대부분이 위의 히스토그램과 같은 종모양인 겁니다.
(중앙이 볼록하고 중앙으로부터 멀어질 수록 수가 감소하는...)
오~ 오묘하고 신기한 자연의 섭리!! 
정말이라니까요!! 직접 해보셔도 위의 종모양이 나온다니까요!!
그래서 사람들이 생각하기 시작했습니다. 자연계에 있는 측정할 수 있는 대부분의 Parameter (또는 Statistic)를
히스토그램으로 그려보면  모두 종모양이겠구먼!! 

자~ 다시 '기록하고 서술(설명)하는 Descriptive Statistics'로 돌아가 봅시다.
종모양을 다른 사람에게 설명하려면 무엇을 말해주면 좋을까요?
즉 "내가 LGS고등학교 학생들 키를 일일이 다 재어서 히스토그램을 그려봤는데 종모양이더라 
그런데 그 종(鐘)이 이렇게 이렇게 생겼어!" 하고 설명하시려면?? '이렇게 이렇게'에 해당하는 것이 뭘까요?
밑으로 내려가시기 전에 한번 생각해보세요~ ^^

N47WrbR3eaAriSzpgM2LBRRQme-9QyRWHN6-ahWI-3VUs7GEVSRakpQ4DHfEVxtNP0HQzqoiJA0npZU1EpWzxIiZYF49I2f7KDh-N13YLS_TIbzcGj0

종모양을 표현하시려면

1. 종모양의 중심이 어디냐?(Central Tendency) 
2. 종모양이 얼마나 퍼져있나(펑펑짐한 종이냐 오똑한 종이냐?)(Dispersion)
3. 종모양이 대칭이냐 아니면 한쪽으로 치우처져 있나?(Skewness) 
4. 종 꼭대기가 얼마나 뾰족하냐?(Kurtosis)
크게 요 4가지만 알면 대충 종모양을 그릴 수 있게죠?

JTJgjY8Jc8sLXcF3C6sXX8QxKaQZGYzAtWZ2HMkFg-GEfKzm6DioTpIe2nfegymMoCTRYPO1nf8f-bXs3Odrv0v2Jclp6Y4PPSzlm_TdwmSrvy2S52Y

MATLAB GUI를 첨부해두었으니 Central Tendency랑 Dispersion, Skewness, Kurtosis을 
각각 변경해보시고 감을 익혀보세요 ^^ 백문이 불여일견입니다요~
(아래 fig-file과 m-file을 MATLAB current 폴더에 넣으시고 >>bellcurve 하시면 실행됩니다)

측정한 Parameter 또는 Statistic을 히스토 그램으로 그려봤더니 종모양으로 나오는데 그 중심이 어디냐(Central Tendency)를
계산하는 방법에 대해 이야기하겠습니다.
Central Tendency를 계산한하는 방법에는 정말 여러가지가 있지만 일반적으로 많이 쓰이는건 5개정도구요 
5개중에서도 가장 많이쓰이는 건 Mean(평균) 딸랑 하나입니다. (다른말로 평균하나만 알고 있어도 큰 문제가 없어요;)

1. Mean(평균) - 1500명의 키를 전부다 더한 다음에 1500으로 나누어 줍니다. MATLAB 함수는 mean입니다.
2. Median(중앙값) -  1500명을 키 순서대로(편의상 키가 작은 순서로) 일렬로 줄을 쫙 세웠을 때 딱 중간에 있는(750번째??) 학색의 키를 말함니다. 
   만약 Sample의 수가 짝수이면 750번재 학생이랑 751번재 학생이의 키를 더해서 2로 나누어 줍니다.
3. Mode(최빈값) - 히스토 그램에서 막대기가 제일 긴 값이예요~ 즉 가장 빈번하게(가장 많이) 나오는 값입니다. MATLAB 함수는 mode입니다.

HRR37cCgJliRa9KgYn4FrxAYJy4Bc7Np4viHwdkXXFIZFf1RlxPBn7vjhChYX50dppySYAbgydbAmWWg_4WfYrTCdQtzhkyn3TBqrtb3SR4JCQ_rUuk

4. Quantile(사분위수) - 키가 작은 순서대로 일렬로 쭉 세웠을 때(오름차순정렬 했을 때) 25%(Q1),50%(Q2),75%(Q3)에 해당하는 값을 말합니다.
   MATLAB 함수는 quantile이구요 quantile(height,0.5)와 같은 형식으로 사용합니다.
   결국 median과 quantile의 Q2는 똑같은 값입니다.
5. Percentile(%분위수) - Quantile이랑 비슷한데 좀더 세분화해서 %로 나타네는 거죠.
   수능치시면 상위 몇% 라고 말씀하시잖아요 바로 그 개념! 단 상위 %가 아니라 하위 %입니다.
   prctile(height,1)이라고 하면 하위 1%의 키를 말합니다.
   MATLAB 함수는 prctile 입니다.
(그러고 보니 MATLAB 함수는 percentile(MATLAB 함수: prctile)만 빼고 mean, median, mode, quantile 은 모두 똑같네요)

Central Tendency에서 Mean(평균)만 잘 기억하시면 되요 ㅎㅎ
위의 표를 잘 봐두세용 ^^ 다음 시간까지 사용할 꺼예요~


다음 시간에는 Central Tendency(중심경향),Dispersion(분산),Skewness(왜도),Kurtosis(첨도)에 대해서
좀더 깊히 자세히 알아보겠습니다.
다음 강의에서 뵙겠습니다. 꾸벅
profile