캐글을 하면서 도대체 전체적인 맥락이 어떻게 돌아가는건지 궁금해서
타이타닉 캐글 내용 중 탐색적 데이터 분석(Exploratory Data Analysis) 내용을 정리해보았습니다.
데이터를 효과적으로 보기 위해 이리 저리 데이터를 굴려보는 과정이 꼭 필요할 것 같네요.
그래도 고수한테 배우는게 빠른 길이라 생각하면서! 마인드맵으로 정리한 내용은 아래와 같습니다.
결론:
- matplotlib.pyplot을 기반으로 seaborn 라이브러리를 사용하면 더 쉽게 그래프를 만들 수 있다.
- 그러나 seaborn이 없어도 matplot으로도 그래프를 만들 수 있다.
- EDA에 사용된 그래프: sns.countplot, catplot, kde, bar, distplot, pie, violinplot
- EDA 사용된 표: pd.crosstab, 데이터 groupby()로 표 그리기
- EDA에서 전처리한 컬럼
- Fare (map과 lambda 사용해서 로그씌워주기)
- FamilySize = Sibsp + Parch (더하기)
Django를 사용해서 EDA를 해볼 수 있지 않을까 싶어서 한번 생각을 행동으로 신속하게 옮겨보았는데,
생각보다 시간이 오래 걸렸어요.
아주 작고 귀엽(지 않)은 웹 앱을 만들어보았습니다.
하하! 아직은 그래프를 만들 수 있지는 않지만,,
컬럼을 2개 선택해서 crosstab 표를 만들 수 있군요!
(이유한님 타이타닉 캐글 pd.crosstab 표)
다음에는 그래프도 만들 수 있도록 해봐야겠어요.
이상입니다😊
'IT > 캐글' 카테고리의 다른 글
[캐글] 처음 시작하는 캐글 - 타이타닉(4) (0) | 2024.06.04 |
---|---|
[캐글] 처음 시작하는 캐글 - 타이타닉(3) (0) | 2024.05.29 |
[캐글] 처음 시작하는 캐글 - 타이타닉(2) (0) | 2024.05.28 |
[캐글] 처음 시작하는 캐글 - 타이타닉(1) (0) | 2024.05.24 |
[캐글] 처음 시작하는 캐글 - 타이타닉 (0) (0) | 2024.05.21 |