본문 바로가기

분류 전체보기

(64)
[통계학] 중심 극한 정리 모집단과 표본 모집단이란 우리가 관찰하고자 하는 집단 전체. 모수(=매개변수, 파라미터)란 모집단에 속한 성질. 모집단이 가진 데이터의 갯수(N), 평균(μ), 표준 편차(∂) 등이 이에 속한다. 표본은 모집단에서 일부를 가져온 일부. 보통은 무작위로 가져온 샘플을 일컫는다. 통계량은 표본의 특성이다. 모수와 비슷한 개념인데, 모수가 모집단에 소속된다면 통계량은 표본에 속한다. 표본의 갯수(n), 표본의 표준편차(s) 등을 포함한다. 모집단은 너무 커서 전체를 알기가 어렵다. 그래서 통계량을 통해 모수를 추정한다. 표본 분포 표본 분포를 구하는 방법은 다음과 같다. ① 모집단에서 표본1을 추출해 평균을 구한다. ② 그 다음에도 같은 방법으로 표본2를 추출해 평균을 구한다. ③ 표본3, 표본4, .......
[통계학] 분포 연속과 불연속 연속 변수는 변수의 각 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우. 키, 몸무게, 은행 잔고처럼 분수와 소수 등으로 표현될 수 있다. 어떤 값도 가질 수 있는 것이다. 불연속 변수는 성별, 학년, 국가와 같이 제한된 몇개의 값만을 가질 수 있는 변수. 예를 들면 발 사이즈는 연속 변수지만, 신발 사이즈는 불연속 변수다. 발 사이즈는 231, 235.78, 233.5 등 무수히 많은 값이 나올 수 있다. 하지만 신발 사이즈는 230, 235 등으로 카테고리화 되어있기 때문이다. 분포(Distribution)란 무엇인가 위키피디아에 따르면 분포란, 실험에서 발생 가능한 여러 결과에 대한 확률을 제공하는 '수학적 함수'. 데이터 사이언스에서는 어떤 의미를 가질까? 여기 사람들 1000..
[통계학] 2-4 AB test AB 테스트 사용자 경험 연구 방법론. 예를 들어, 인터넷 쇼핑몰에서 '제품 구매하기' 버튼의 자리를 왼쪽에서 오른쪽으로 옮기려고 한다. 실험기간 동안 쇼핑몰에 접속한 50%에게는 '원래 버전'을, 또 다른 50%에게는 '새 버전'을 보여주며 전환율을 비교해보는 것이다. 앞에서 배운 귀무가설과 대립가설을 세워 비교하는 방식과 거의 비슷하다. z-test sm.stats.proportions_ztest 함수를 이용하면 p-value를 바로 구할 수 있다 # H0 : μ old >= μ new import statsmodels.api as sm # 버튼을 클릭한 방문자수 구하기 old_convert = df.query('Page == "old"').전환율.sum() new_convert = df.query(..
[통계학] 2-3 Hypothesis Test / p-value 활용 참고 https://hello5555.tistory.com/21 1. 가설 검정 알고자하는 질문을 두개의 대립되는 가설로 세우고, 데이터를 통해 검증하는 과정. 2. 1종 오류와 2종 오류 1종 오류(False Positive, alpha) : 귀무 가설이 참인데 기각한 경우 2종 오류(False Negatie, beta) : 귀무 가설이 거짓인데 기각하지 않은 경우 3. 단측 검정과 양측 검정 단측 검정 : 범위를 지정하여 A집단 평균이 해당 범위에 속할 확률을 검정한다 # 예시 # H0 : A 100 양측 검정 : A집단과 B집단이 같은 효과를 보였는지, 다른 효과를 보였는지 검정한다. # 예시 # H0 : A == B # H1 : A != B **주의** 가설을 세울 때, A와 B는 샘플의 통계량이..
[통계학] 2-2 Central Limit Theorem 참고 https://hello5555.tistory.com/19 1. 기술 통계와 추리 통계 기술 통계 : 우리가 수집한 데이터를 요약, 묘샤 그리고 설명하는 통계 기법 추리 통계: 수집한 데이터를 바탕으로 모집단에 대해 추론하는 통계 기법 2. numpy.random을 통해 모집단 만들어보기 import numpy as np import random import matplotlib.pyplot as plt np.random.seed(10) #여기서 seed는 '코드' 같은 것이다. 랜덤으로 값을 불러오지만, seed값을 똑같이 입력하면 같은 값이 출력된다 zero_or_one = np.random.choice([0, 1], size=5000, p=[.22, .78]) #0과 1 둘 중에 하나를 랜덤으로..
[통계학] 2-1 Bayes' Theorem 1. 이항 분포 정의 독립적으로 반복되어지는 행위에 의해서, 결과값이 2개 옵션을 가지는 사건의 확률을 결정하는 함수. 이항 분포의 조건 ① n번의 독립시행 ② 관심 사건 A가 일어날 확률 p / A가 일어나지 않을 확률 (1-p) ③ n번 중 A가 일어난 횟수 k 확률 질량 함수 독립시행 n번 중 사건 A가 k번 일어날 확률 함수는 아래와 같다 코드로도 구현해볼 수 있다 from scipy.stats import binom k=35 n=100 p=0.75 rv = binom.pmf(k, n, p) rv 2. 조건부 확률 주어진 사건이 일어났을 때 다른 한 사건이 일어날 확률을 뜻한다. 사건 B가 일어났을 때, 사건 A가 일어날 조건부 확률은 P(A|B)로 표기한다. 아래 유튜브에는 조건부 확률과 베이즈..
[DS 기초] 1-3 & 1-4 Data Wrangling 데이터 품질의 문제와 구조적 문제를 살펴본다. EDA에서는 데이터 결측치와 중복값 정도를 수정하고 데이터를 다각도로 살펴보며 분석 계획을 세웠다. Wrangling에서는 적극적으로 데이터 클리닝 작업을 하고 앞으로의 분석을 위한 feature engineering을 진행한다. 데이터 타입 변환, 컬럼 내 정보 나누기, value값 정리하기, 데이터 형식 일원화, 이상치 대체, 필요없는 컬럼 없애기 등이 이에 해당한다 #정제 전에는 데이터를 카피해서 원본 데이터를 가끔 찾아볼 수 있도록 한다 df_clean = df.copy() #이상치 확인 #데이터셋에서 '몸무게' 컬럼을 오름차순으로 정렬한다 df.몸무게.sort_values #이상치를 다룰 때는 다른 컬럼의 데이터를 종합적으로 확인해본 후 제거, 또는..
[DS 기초] 1-1 & 1-2 EDA, Feature Engineering 1. EDA EDA란 데이터를 다각도로 관찰하며 이해하는 단계. 통계치와 시각화를 통해 간단히 데이터를 이해해보면서 앞으로 어떻게 분석할지, 또는 모델링을 해볼지 간을 보는 단계이다. #데이터셋 정보 확인 df.shape #행렬 갯수 df.info() #데이터 갯수, 타입 확인 df.describe() #숫자 데이터 요약 정리 #중복 데이터 df.duplicated().sum() #중복데이터 갯수 확인 df[df.duplicated()] #중복데이터 확인 df = df.drop_duplicates() #중복 데이터 제거 #예를 들어 똑같은 데이터 3개가 한 데이터프레임 안에 있다. 중복 데이터를 제거하면 3개 모두가 제거되는 것이 아니라, 중복치 중 하나만 남기고 나머지 2개 데이터를 삭제하는 것이다 #..