연속과 불연속
연속 변수는 변수의 각 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우. 키, 몸무게, 은행 잔고처럼 분수와 소수 등으로 표현될 수 있다. 어떤 값도 가질 수 있는 것이다.
불연속 변수는 성별, 학년, 국가와 같이 제한된 몇개의 값만을 가질 수 있는 변수.
예를 들면 발 사이즈는 연속 변수지만, 신발 사이즈는 불연속 변수다. 발 사이즈는 231, 235.78, 233.5 등 무수히 많은 값이 나올 수 있다. 하지만 신발 사이즈는 230, 235 등으로 카테고리화 되어있기 때문이다.
분포(Distribution)란 무엇인가
위키피디아에 따르면 분포란, 실험에서 발생 가능한 여러 결과에 대한 확률을 제공하는 '수학적 함수'.
데이터 사이언스에서는 어떤 의미를 가질까?
여기 사람들 1000명의 이름과 나이가 적힌 차트가 있다고 보자. 우리의 실험은 여기서 한 사람을 뽑아 나이를 확인하는 것이다. 무작위로 뽑았을 때 40세가 나올 확률, 그리고 50세, 11세, 32세가 나올 확률 등을 모두 제공하는 것이 분포다. 이 확률들의 집합이 분포인데, 확률들을 모두 더하면 1이 되어야한다.
확률 밀도 함수
차트로 그려보면, 연속변수는 곡선 그래프로, 불연속변수는 히스토그램이 적합하다. 그리고 이 차트의 면적을 통해 확률을 구할 수도 있다. 예를 들어, 무작위로 뽑은 사람이 30~52세 범위에 속할 확률을 구하고자 한다면 x축에서 그만큼의 범위를 지정하고 그에 해당하는 차트 면적을 구하면 된다.
분산(Variance)
분산은 정보가 흩어져 있는 정도를 뜻한다. 예를 들어, 키가 150, 155, 160인 세 사람이 있다. 세 사람의 키의 평균은 155다. 그리고 120, 155, 190인 세 사람의 평균도 155로 같다. 그래서 평균이 같아도 변수의 범위는 더 넓어질수도, 더 좁아질수도 있다. 이 변수들이 평균과 얼마나 멀리 떨어져있는지를 나타내는 것이 '분산'이다.
분산을 구하는 방법은 다음과 같다. 각각의 값들에서 평균을 뺀 뒤 제곱한다. 이 제곱값들을 모두 더한 뒤, 값의 갯수로 나눈다.
ex) [ (150-155)**2 + (155-155)**2 + (160-155)**2 ] / 3
각 값들이 평균과의 거리가 좁다면 분산은 낮을 것이다. 하지만 중구난방으로 떨어져있다면 분산은 높아진다.
표준 편차(Standard Deviation)
분산에 제곱근을 씌운 값. 그러니까 분산이 4라면, 표준편차는 2가 된다.
분산은 제곱값이기 때문에 평균과의 계산이 어렵다. 하지만 표준편차는 평균에 플러스 또는 마이너스를 하며 데이터의 범위를 가늠할 수 있게한다.
이후 Z-Score를 이용할 때 이 설명이 더욱 와닿을 것이다.
정규 분포(Normal distribution)
차트로 그리면 종 모양을 이루는 분포. 중심으로 갈수록 해당하는 변수가 많아지다가, 중심을 지나서는 다시 적어진다. 정규 분포의 양쪽 끝은 x축으로 수렴하지만, 닿지는 않는다.
편포도 (Skewness)
정규 분포처럼 대칭적인 분포만 있는 것은 아니다. 종모양이지만 오른쪽으로 치우치고 왼쪽 꼬리가 긴 것도 있다. 이를 좌측 편포라고 한다. 그 반대 모양은 우측 편포다.
왜 꼬리의 종모양이 아니라 꼬리의 위치를 보고 좌측,우측을 정하는 걸까? 이유는 '분포'를 살펴보는 이유에 있다. 분포는 각 값이 얼마나 평균값으로 떨어져있는 지를 살펴보기 위한 테크닉이다. 그렇기 때문에 '꼬리'에 주목해야하는 것이다.
좌측 편포는 왼쪽에 이상치가 있다. 아주 작은 값이 존재하는 것이다. 우측 편포는 오른쪽에 이상치가 있다. 심하게 높은 값이 존재하는 것이다.
평균(Mean), 중간값(Median), 최빈값(Mode)
평균은 모든 값을 더하여 전체 데이터 갯수로 나눈 것.
중간값은 데이터를 오름차순으로 열거했을 때 정중앙에 위치한 값. 데이터 갯수가 짝수일 경우, 중앙에 위치한 값이 2개가 되는데 이 두개의 평균을 구하면 된다.
그럼 중복값이 있을 때 중간값은 어떻게 구할까? 예를 들어, {1, 3, 3, 3, 4, 5, 6, 7, 8}인 데이터가 있다. 이때 3이 중복되어 3개가 있는데, 중복된 값을 모두 지우고 하나만 남겨야할까? 정답은 중복값을 모두 포함한 채로 정중간에 위치한 값을 구하면 된다는 것이다.
중간값은 어떨때 쓰는걸까? 중간값은 평균과 비슷하다. 하지만 평균과 다른점은 이상치의 영향이 적다는 것이다. 영향이 있긴 하지만 미미한 편이다. 위의 데이터 {1, 3, 3, 3, 4, 5, 6, 7, 8}에서 맨 끝에 100을 붙여보자. {1, 3, 3, 3, 4, 5, 6, 7, 8, 100}이 되면 평균값이 아주 커진다. 하지만 중간값은 크게 달라지지 않는다.
최빈값은 가장 자주 나온 값으로 분포를 시각화하면 잘 보인다. 확률 밀도 함수 그래프에서 가장 높게 올라온 부분이 최빈값을 가리키기 때문이다.
'통계학' 카테고리의 다른 글
[통계학] 통계적 유의성 / p-value (0) | 2023.02.26 |
---|---|
[통계학] Z-Score (1) | 2023.02.26 |
[통계학] 중심 극한 정리 (1) | 2023.02.26 |