본문 바로가기

Codestates AI 부트캠프/1. Introduction to Data Sceince

(10)
[DS 기초] 1-3 & 1-4 Data Wrangling 데이터 품질의 문제와 구조적 문제를 살펴본다. EDA에서는 데이터 결측치와 중복값 정도를 수정하고 데이터를 다각도로 살펴보며 분석 계획을 세웠다. Wrangling에서는 적극적으로 데이터 클리닝 작업을 하고 앞으로의 분석을 위한 feature engineering을 진행한다. 데이터 타입 변환, 컬럼 내 정보 나누기, value값 정리하기, 데이터 형식 일원화, 이상치 대체, 필요없는 컬럼 없애기 등이 이에 해당한다 #정제 전에는 데이터를 카피해서 원본 데이터를 가끔 찾아볼 수 있도록 한다 df_clean = df.copy() #이상치 확인 #데이터셋에서 '몸무게' 컬럼을 오름차순으로 정렬한다 df.몸무게.sort_values #이상치를 다룰 때는 다른 컬럼의 데이터를 종합적으로 확인해본 후 제거, 또는..
[DS 기초] 1-1 & 1-2 EDA, Feature Engineering 1. EDA EDA란 데이터를 다각도로 관찰하며 이해하는 단계. 통계치와 시각화를 통해 간단히 데이터를 이해해보면서 앞으로 어떻게 분석할지, 또는 모델링을 해볼지 간을 보는 단계이다. #데이터셋 정보 확인 df.shape #행렬 갯수 df.info() #데이터 갯수, 타입 확인 df.describe() #숫자 데이터 요약 정리 #중복 데이터 df.duplicated().sum() #중복데이터 갯수 확인 df[df.duplicated()] #중복데이터 확인 df = df.drop_duplicates() #중복 데이터 제거 #예를 들어 똑같은 데이터 3개가 한 데이터프레임 안에 있다. 중복 데이터를 제거하면 3개 모두가 제거되는 것이 아니라, 중복치 중 하나만 남기고 나머지 2개 데이터를 삭제하는 것이다 #..