본문 바로가기
IT/캐글

[캐글] 타이타닉 - 탐색적 데이터 분석(EDA) 정리

by 작지만 중요한 것들을 발견하는 블로그. 2024. 6. 7.

캐글을 하면서 도대체 전체적인 맥락이 어떻게 돌아가는건지 궁금해서

타이타닉 캐글 내용 중 탐색적 데이터 분석(Exploratory Data Analysis) 내용을 정리해보았습니다.

데이터를 효과적으로 보기 위해 이리 저리 데이터를 굴려보는 과정이 꼭 필요할 것 같네요.

그래도 고수한테 배우는게 빠른 길이라 생각하면서! 마인드맵으로 정리한 내용은 아래와 같습니다.

 

결론:

  • matplotlib.pyplot을 기반으로 seaborn 라이브러리를 사용하면 더 쉽게 그래프를 만들 수 있다.
  • 그러나 seaborn이 없어도 matplot으로도 그래프를 만들 수 있다. 
  • EDA에 사용된 그래프: sns.countplot, catplot, kde, bar, distplot, pie, violinplot
  • EDA 사용된 표: pd.crosstab, 데이터 groupby()로 표 그리기
  • EDA에서 전처리한 컬럼
    - Fare (map과 lambda 사용해서 로그씌워주기)
    - FamilySize = Sibsp + Parch (더하기)

 

Django를 사용해서 EDA를 해볼 수 있지 않을까 싶어서 한번 생각을 행동으로 신속하게 옮겨보았는데,

생각보다 시간이 오래 걸렸어요.

 

아주 작고 귀엽(지 않)은 웹 앱을 만들어보았습니다.

하하! 아직은 그래프를 만들 수 있지는 않지만,,

컬럼을 2개 선택해서 crosstab 표를 만들 수 있군요!

 

(이유한님 타이타닉 캐글 pd.crosstab 표)

Survived vs Pclass

다음에는 그래프도 만들 수 있도록 해봐야겠어요.

이상입니다😊