모집단과 표본
모집단이란 우리가 관찰하고자 하는 집단 전체.
모수(=매개변수, 파라미터)란 모집단에 속한 성질. 모집단이 가진 데이터의 갯수(N), 평균(μ), 표준 편차(∂) 등이 이에 속한다.
표본은 모집단에서 일부를 가져온 일부. 보통은 무작위로 가져온 샘플을 일컫는다.
통계량은 표본의 특성이다. 모수와 비슷한 개념인데, 모수가 모집단에 소속된다면 통계량은 표본에 속한다. 표본의 갯수(n), 표본의 표준편차(s) 등을 포함한다.
모집단은 너무 커서 전체를 알기가 어렵다. 그래서 통계량을 통해 모수를 추정한다.
표본 분포
표본 분포를 구하는 방법은 다음과 같다.
① 모집단에서 표본1을 추출해 평균을 구한다.
② 그 다음에도 같은 방법으로 표본2를 추출해 평균을 구한다.
③ 표본3, 표본4, ......표본10000의 평균을 모두 구한다. 이때 모든 표본의 데이터 갯수는 같다.
④ 이제 10000개의 표본들의 평균이 구해졌다.
⑤ 확률 밀도 함수 그래프를 그린다.
⑥ 표본 평균들의 분포 양상을 살펴본다.
중심 극한 정리
① 표본을 충분히 여러번 추출했을 때 표본 평균들의 분포는 정규 분포와 같다. 이때 모집단의 분포가 어떤 모양을 이루든지와는 상관없이 '언제나' 정규 분포와 같은 모습을 보인다.
이 이론이 강력한 이유는, 지구상에서 수로 이루어진 것 대부분에 적용될 수 있기 때문이다.
예를 들어 실험실 의학 연구자는 지구상 모든 인구의 신체 특성을 알 수는 없다. 이때 10000명을 대상으로 실험을 진행한다. 이제 10000명의 실험 결과를 얻었지만 이것이 전인류의 특성을 대변한다고 볼 수는 없다. 하지만 실험 결과에서 표본 분포를 구하고 이를 통해 전인류의 특성을 추정해볼 수 있다.
실험 대상의 수가 많거나, 그 안에서 표본을 많이 뽑을수록 정규 분포에 더욱 가까워 진다.
② 표본 분포의 평균은 모집단의 평균과 같다. 표본평균 그래프의 최상단이 평균이 된다. 그리고 모집단의 평균을 몰랐더라도, 이를 통해 알 수 있다. 반대로 모집단의 평균을 알고있다면 표본 분포의 평균도 알 수 있다.
③ 표본분포의 표준편차는 모집단의 표준편차를 이용하여 구할 수 있다. 모집단의 표준편차에 표본 데이터 수에 제곱근을 씌운 값이다.
데이터 갯수가 10개인 표본들로 표본 분포를 구했다고 치자. 그러면 모집단의 표준편차를 제곱근 10으로 나눈 값이 표본 분포의 표준 편차가 된다.
이를 달리 말하면, 표본 분포의 분산은 모집단의 분산을 표본 데이터 갯수로 나눈 값이다.
표본 데이터 갯수가 커질수록 표본 분포의 분산이 더욱 작아진다는 것이다. 확률 밀도 함수로 그려보면 높이가 커지고 뾰족한 종모양을 이룰 것이다.
'통계학' 카테고리의 다른 글
[통계학] 통계적 유의성 / p-value (0) | 2023.02.26 |
---|---|
[통계학] Z-Score (1) | 2023.02.26 |
[통계학] 분포 (0) | 2023.02.26 |