데이터 품질의 문제와 구조적 문제를 살펴본다. EDA에서는 데이터 결측치와 중복값 정도를 수정하고 데이터를 다각도로 살펴보며 분석 계획을 세웠다. Wrangling에서는 적극적으로 데이터 클리닝 작업을 하고 앞으로의 분석을 위한 feature engineering을 진행한다.
데이터 타입 변환, 컬럼 내 정보 나누기, value값 정리하기, 데이터 형식 일원화, 이상치 대체, 필요없는 컬럼 없애기 등이 이에 해당한다
#정제 전에는 데이터를 카피해서 원본 데이터를 가끔 찾아볼 수 있도록 한다
df_clean = df.copy()
#이상치 확인
#데이터셋에서 '몸무게' 컬럼을 오름차순으로 정렬한다
df.몸무게.sort_values
#이상치를 다룰 때는 다른 컬럼의 데이터를 종합적으로 확인해본 후 제거, 또는 대체를 결정해야한다.
#특수 부호 등 이상치 수정하기
#특수 부호가 든 데이터 확인
import re
def has_errors(inputString):
return bool(re.search('[_!.\d+]', inputString))
#위 함수는 True or False의 데이터 값을 반환한다
error_condition = df.이름.apply(has_errors)
error_names = df[error_condition]
#error_conditon에서 True였던 행만 추출해 보여준다
#에러 데이터 삭제
df.이름 = df.이름.str.replace('[_!.\d+]', '')
'Codestates AI 부트캠프 > 1. Introduction to Data Sceince' 카테고리의 다른 글
[통계학] 2-4 AB test (0) | 2023.02.26 |
---|---|
[통계학] 2-3 Hypothesis Test / p-value 활용 (0) | 2023.02.26 |
[통계학] 2-2 Central Limit Theorem (0) | 2023.02.26 |
[통계학] 2-1 Bayes' Theorem (0) | 2023.02.26 |
[DS 기초] 1-1 & 1-2 EDA, Feature Engineering (0) | 2023.02.15 |