1. EDA
EDA란 데이터를 다각도로 관찰하며 이해하는 단계. 통계치와 시각화를 통해 간단히 데이터를 이해해보면서 앞으로 어떻게 분석할지, 또는 모델링을 해볼지 간을 보는 단계이다.
#데이터셋 정보 확인
df.shape #행렬 갯수
df.info() #데이터 갯수, 타입 확인
df.describe() #숫자 데이터 요약 정리
#중복 데이터
df.duplicated().sum() #중복데이터 갯수 확인
df[df.duplicated()] #중복데이터 확인
df = df.drop_duplicates() #중복 데이터 제거
#예를 들어 똑같은 데이터 3개가 한 데이터프레임 안에 있다. 중복 데이터를 제거하면 3개 모두가 제거되는 것이 아니라, 중복치 중 하나만 남기고 나머지 2개 데이터를 삭제하는 것이다
#빠진 값들이 있으므로 인덱스 리셋
df = df.reset_index(drop = True)
2. Feature Engineering (특성 공학)
컬럼들을 분리하고 조합하는 과정을 통해 의미있는 데이터를 추가 생성하고 분석하기 좋은 상태로 만든다.
#데이터 합치기
df_all = df1.append(df2. ignore_index = True)
#데이터를 합치는 방법에는 append 외에도 join, merge, join이 있다
#합친 데이터 csv로 저장
df_all.to_csv('df_all.csv', index=False)
#groupby 통해 데이터 살펴보기
df_all.groupby('age').mean()
wine_df.groupby('age')['score'].mean()
wine_df.groupby(['age', 'gender'], as_index=False).mean()
#이 외에 다중 인덱스를 설정하여 검색하고 살펴보는 방법도 있다
'Codestates AI 부트캠프 > 1. Introduction to Data Sceince' 카테고리의 다른 글
[통계학] 2-4 AB test (0) | 2023.02.26 |
---|---|
[통계학] 2-3 Hypothesis Test / p-value 활용 (0) | 2023.02.26 |
[통계학] 2-2 Central Limit Theorem (0) | 2023.02.26 |
[통계학] 2-1 Bayes' Theorem (0) | 2023.02.26 |
[DS 기초] 1-3 & 1-4 Data Wrangling (0) | 2023.02.26 |