타이타닉4 [캐글] 타이타닉 - 탐색적 데이터 분석(EDA) 정리 캐글을 하면서 도대체 전체적인 맥락이 어떻게 돌아가는건지 궁금해서타이타닉 캐글 내용 중 탐색적 데이터 분석(Exploratory Data Analysis) 내용을 정리해보았습니다.데이터를 효과적으로 보기 위해 이리 저리 데이터를 굴려보는 과정이 꼭 필요할 것 같네요.그래도 고수한테 배우는게 빠른 길이라 생각하면서! 마인드맵으로 정리한 내용은 아래와 같습니다. 결론:matplotlib.pyplot을 기반으로 seaborn 라이브러리를 사용하면 더 쉽게 그래프를 만들 수 있다.그러나 seaborn이 없어도 matplot으로도 그래프를 만들 수 있다. EDA에 사용된 그래프: sns.countplot, catplot, kde, bar, distplot, pie, violinplotEDA 사용된 표: pd.cr.. 2024. 6. 7. [캐글] 처음 시작하는 캐글 - 타이타닉(4) 타이타닉 5번째네요. 코드를 한 줄 한 줄 보는 것이 시간이 오래걸리긴해도, 익숙해지는 것을 목적으로 끝까지 마무리해보려고 합니다!이 글은 이유한님의 글을 참고하며 캐글 필사를 해보면서유한님의 정리가 깔끔해서 그것들을 참고하고 있습니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)3. Feature engineering3.1. fill null dataAGE 채우기null data 를 어떻게 채우느냐에 따라 모델의 성능이 좌지우지될 수 있어 중요한 요소입니다.이름을 통해 Age를 채워 넣습니다. 이름으로 나이를 유추할 수 있음. (이름과의 관계를 통해 age를 채우는 방법!)- 여기서 이름을 추출하여 'Initial' 변수에 replace()함수로 주요한 특징 5가지로 (Mr, Mrs, Miss, M.. 2024. 6. 4. [캐글] 처음 시작하는 캐글 - 타이타닉(1) 이 글은 이유한님의 글을 참고하며 스스로 공부를 위해 더 자세하게 작성한 글 입니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)학습을 위해 글을 작성하다보니 코드 하나에 깊게 파고드는 경우가 있을 것 같습니다. 참고해주시면 감사하겠습니다. 타이타닉 코드의 초반부인 탐색적 데이터 확인을 진행 하고 있습니다.갈길이 아직 멀지만, 차근 차근 한걸음씩! 타이타닉과 Kaggle을 알아가보겠습니다 :-) 1. 탐색적 데이터 확인 1.2 Target Label 확인가장 중한 생존에 대한 분포를 확인하고, binary classification 문제의 경우 이 분포에 따라 모델의 평가 방법이 달라질 수 있다고 합니다.이 부분은 불러온 데이터를 활용하여 matplotlib.pyplot 모듈(패키지)을 사용한 pie.. 2024. 5. 24. [캐글] 처음 시작하는 캐글 - 타이타닉 (0) 머신러닝이 무엇인지 맛 보려고 타이타닉을 진행해보았습니다.'타이타닉'은 영화로 가장 잘 알려져 있는데, 영화로 여러번 보았는데 여기서 만났습니다.찾아보니 1912년 4월 10일 영국의 사우샘프턴을 떠나 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였다. 타이타닉이 완전히 침몰한 시간은 새벽 2시 20분이다. 타이타닉의 침몰로 1,514명이 사망한 사고 라고 알려져 있습니다. (위키백과) 처음에는 한개씩 따라 치기 시작했는데, 처음이다 보니 그저 읽고 따라치고 이해하려고 애쓰다보니 조금씩 읽히기 시작했다. 처음에는 데이터가 어떤 것이 있는지 살펴보는 것 위주로 진행했고, 여러 신기한 명령어들이 많았습니다. csv파일을 이런 저런 방식으로 차트를 만들면서 데이터를 이해하는 부분이 .. 2024. 5. 21. 이전 1 다음