본문 바로가기

Codestates AI 부트캠프/1. Introduction to Data Sceince

[DS 기초] 1-1 & 1-2 EDA, Feature Engineering

1. EDA

EDA란 데이터를 다각도로 관찰하며 이해하는 단계. 통계치와 시각화를 통해 간단히 데이터를 이해해보면서 앞으로 어떻게 분석할지, 또는 모델링을 해볼지 간을 보는 단계이다.

 

#데이터셋 정보 확인

df.shape #행렬 갯수
df.info() #데이터 갯수, 타입 확인
df.describe() #숫자 데이터 요약 정리

#중복 데이터
df.duplicated().sum() #중복데이터 갯수 확인
df[df.duplicated()] #중복데이터 확인
df = df.drop_duplicates() #중복 데이터 제거
#예를 들어 똑같은 데이터 3개가 한 데이터프레임 안에 있다. 중복 데이터를 제거하면 3개 모두가 제거되는 것이 아니라, 중복치 중 하나만 남기고 나머지 2개 데이터를 삭제하는 것이다

#빠진 값들이 있으므로 인덱스 리셋
df = df.reset_index(drop = True)



2. Feature Engineering (특성 공학)

컬럼들을 분리하고 조합하는 과정을 통해 의미있는 데이터를 추가 생성하고 분석하기 좋은 상태로 만든다. 

 

#데이터 합치기

df_all = df1.append(df2. ignore_index = True)
#데이터를 합치는 방법에는 append 외에도 join, merge, join이 있다

#합친 데이터 csv로 저장
df_all.to_csv('df_all.csv', index=False) 

#groupby 통해 데이터 살펴보기
df_all.groupby('age').mean()
wine_df.groupby('age')['score'].mean()
wine_df.groupby(['age', 'gender'], as_index=False).mean()
#이 외에 다중 인덱스를 설정하여 검색하고 살펴보는 방법도 있다

 

참고 https://yganalyst.github.io/data_handling/Pd_12/