본문 바로가기

통계학

(4)
[통계학] 통계적 유의성 / p-value 통계적 유의성 모집단에 대한 가설이 가지는 '통계적 의미'를 말한다. 다시 말해서, 어떤 실험 결과 자료를 두고 "통계적으로 유의하다."라고 하는 것은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다. 귀무 가설(H0) 통계학에서 처음부터 버릴 것을 예상하는 가설. 기본적으로 '참'으로 추정하지만 이 귀무가설을 기각하려는 시도를 통해서 통계적 발견을 하게된다. 수식으로 썼을 때, 같다는 뜻의 equal sign ( = )을 포함하고 있다. =, =>, =, sample_mean).mean() #>> 0.0 p-value는 0이므로 귀무가설을 기각할 수 있다. 아래와 같은 방법으..
[통계학] Z-Score Z-Score Z-Score은 표준편차의 그래프에서 특정 경우가 표준편차 상에 어떤 위치를 차지하는지를 보여주는 수치다. 표준 점수(Standard Score), 정규 점수, Z변수로 불리기도. 쉽게 말해서, 표준편차의 그래프에서 x축에 특정 위치 a를 짚는다. 그리고 a가 평균에서 얼마나 떨어져 있는지를 나타낸다. 단, 표준편차의 수준에서 나타낸다. z = (a - μ) / ∂ 참고 : https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%A0%90%EC%88%98 누군가 데이터셋을 정규화하자고 말하면 다음과 같은 작업 순서를 가진다 ① 표본 분포의 그래프를 그린다 ② 표본 분포의 평균과 표준편차를 구한다 ③ 표본 분포의 평균을 0으로 두고, 표준편차를 1로 만..
[통계학] 중심 극한 정리 모집단과 표본 모집단이란 우리가 관찰하고자 하는 집단 전체. 모수(=매개변수, 파라미터)란 모집단에 속한 성질. 모집단이 가진 데이터의 갯수(N), 평균(μ), 표준 편차(∂) 등이 이에 속한다. 표본은 모집단에서 일부를 가져온 일부. 보통은 무작위로 가져온 샘플을 일컫는다. 통계량은 표본의 특성이다. 모수와 비슷한 개념인데, 모수가 모집단에 소속된다면 통계량은 표본에 속한다. 표본의 갯수(n), 표본의 표준편차(s) 등을 포함한다. 모집단은 너무 커서 전체를 알기가 어렵다. 그래서 통계량을 통해 모수를 추정한다. 표본 분포 표본 분포를 구하는 방법은 다음과 같다. ① 모집단에서 표본1을 추출해 평균을 구한다. ② 그 다음에도 같은 방법으로 표본2를 추출해 평균을 구한다. ③ 표본3, 표본4, .......
[통계학] 분포 연속과 불연속 연속 변수는 변수의 각 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우. 키, 몸무게, 은행 잔고처럼 분수와 소수 등으로 표현될 수 있다. 어떤 값도 가질 수 있는 것이다. 불연속 변수는 성별, 학년, 국가와 같이 제한된 몇개의 값만을 가질 수 있는 변수. 예를 들면 발 사이즈는 연속 변수지만, 신발 사이즈는 불연속 변수다. 발 사이즈는 231, 235.78, 233.5 등 무수히 많은 값이 나올 수 있다. 하지만 신발 사이즈는 230, 235 등으로 카테고리화 되어있기 때문이다. 분포(Distribution)란 무엇인가 위키피디아에 따르면 분포란, 실험에서 발생 가능한 여러 결과에 대한 확률을 제공하는 '수학적 함수'. 데이터 사이언스에서는 어떤 의미를 가질까? 여기 사람들 1000..