본문 바로가기

Codestates AI 부트캠프/1. Introduction to Data Sceince

[통계학] 2-3 Hypothesis Test / p-value 활용

참고 https://hello5555.tistory.com/21

 

1. 가설 검정

알고자하는 질문을 두개의 대립되는 가설로 세우고, 데이터를 통해 검증하는 과정.

2. 1종 오류와 2종 오류

1종 오류(False Positive, alpha) : 귀무 가설이 참인데 기각한 경우
2종 오류(False Negatie, beta) : 귀무 가설이 거짓인데 기각하지 않은 경우

3. 단측 검정과 양측 검정

단측 검정 : 범위를 지정하여 A집단 평균이 해당 범위에 속할 확률을 검정한다

 

# 예시
# H0 : A <= 100
# H1 : A > 100


양측 검정 : A집단과 B집단이 같은 효과를 보였는지, 다른 효과를 보였는지 검정한다.

 

# 예시
# H0 : A == B
# H1 : A != B


**주의** 가설을 세울 때, A와 B는 샘플의 통계량이 아니라 모집단의 모수를 의미한다


4. 검정 방법론 두가지

가설을 먼저 세워보자!

예시) 성장호르몬 약을 먹었을 때, 평균 키가 172.5 이상이 되었다는 가설을 검정하고 싶다.
H0 : μ섭취 =< 172.5cm
H1 : μ섭취 > 172.5cm

기본적으로 두가지 방법 모두 표본의 평균과 가설 속 근접값을 구해 비교한다. 신뢰구간에서는 표본의 평균을 기준으로 분포를 그리고, 근접값이 어디에 위치하는지 알아본다. p-value에서는 근접값을 기준으로 분포를 그리고, 표본의 평균이 어디에 위치하는지 알아본다.


① 신뢰구간 확인

검정하고자 하는 집단(약을 섭취한 집단)의 데이터를 이용해 표본 분포를 충분히 뽑아 다이어그램을 그리고, 95% 신뢰구간을 지정한다. 

그 다음 귀무가설에서 대립가설과 가장 근접한 값을 표시해본다. 위의 예시에서 보면 172.5가 근접값이다. 근접값이 표준 분포의 95%안에 들어갈 수 있는가? 아니라면 귀무가설 기각!

 

 

② p-value 확인

검정하고자 하는 집단(약을 섭취한 집단)의 데이터를 이용해 표본 분포를 뽑는다. 다만 다이어그램을 그릴 때, 평균을 172.5로 두고 '약을 섭취한 집단의 표준편차'를 이 표본 분포의 표준편차로 둔다.

그 후 '약을 섭취한 집단'의 평균을 구해서 표시한다. 그 평균이 어디에 위치하는가?