IT/캐글6 [캐글] 타이타닉 - 탐색적 데이터 분석(EDA) 정리 캐글을 하면서 도대체 전체적인 맥락이 어떻게 돌아가는건지 궁금해서타이타닉 캐글 내용 중 탐색적 데이터 분석(Exploratory Data Analysis) 내용을 정리해보았습니다.데이터를 효과적으로 보기 위해 이리 저리 데이터를 굴려보는 과정이 꼭 필요할 것 같네요.그래도 고수한테 배우는게 빠른 길이라 생각하면서! 마인드맵으로 정리한 내용은 아래와 같습니다. 결론:matplotlib.pyplot을 기반으로 seaborn 라이브러리를 사용하면 더 쉽게 그래프를 만들 수 있다.그러나 seaborn이 없어도 matplot으로도 그래프를 만들 수 있다. EDA에 사용된 그래프: sns.countplot, catplot, kde, bar, distplot, pie, violinplotEDA 사용된 표: pd.cr.. 2024. 6. 7. [캐글] 처음 시작하는 캐글 - 타이타닉(4) 타이타닉 5번째네요. 코드를 한 줄 한 줄 보는 것이 시간이 오래걸리긴해도, 익숙해지는 것을 목적으로 끝까지 마무리해보려고 합니다!이 글은 이유한님의 글을 참고하며 캐글 필사를 해보면서유한님의 정리가 깔끔해서 그것들을 참고하고 있습니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)3. Feature engineering3.1. fill null dataAGE 채우기null data 를 어떻게 채우느냐에 따라 모델의 성능이 좌지우지될 수 있어 중요한 요소입니다.이름을 통해 Age를 채워 넣습니다. 이름으로 나이를 유추할 수 있음. (이름과의 관계를 통해 age를 채우는 방법!)- 여기서 이름을 추출하여 'Initial' 변수에 replace()함수로 주요한 특징 5가지로 (Mr, Mrs, Miss, M.. 2024. 6. 4. [캐글] 처음 시작하는 캐글 - 타이타닉(3) 이 글은 이유한님의 글을 참고하며 캐글 필사를 해보면서코드를 한줄 한줄 읽어가며 가능한한 자세하게 분석해보려고 합니다.유한님의 정리가 깔끔해서 그것들을 붙여넣기는 하지만! 학습한 내용 정리에 초점을 맞추었습니다. (출처: 캐글 코리아 홈페이지의 이유한 님의 글) 코드 속에 설명을 덧붙이니, 시간도 더 줄어들고 깔끔해지는 것 같네요. 한번 따라 쳐봤지만, 잘 감이 안잡혀서 코드를 하나하나 뜯어보는데 사실 이렇게 하면서 느끼는 점은matplotlib와 seaborn pandas로 여러 그래프를 그릴 수 있고, 그래프에는 어떤 옵션이 들어가는지 EDA(Exploratory Data Analysis) 탐색적 데이터 분석을 통해 어떤 데이터를 머신러닝에 사용할 것인지 판단하며데이터를 시각화 해보면서 어떤식으로 데.. 2024. 5. 29. [캐글] 처음 시작하는 캐글 - 타이타닉(2) 이 글은 이유한님의 글을 참고하며 스스로 공부를 위해 더 자세하게 작성한 글 입니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)학습을 위해 글을 작성에 초점을 맞추었습니다. 2.4 Age 나이 컬럼코드print('제일 나이 많은 탑승객 : {:.1f} Years'.format(df_train['Age'].max()))print('제일 어린 탑승객 : {:.1f} Years'.format(df_train['Age'].min()))print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean())) 결과이 코드의 의미는 Age 컬럼의 '최대, 최소, 평균'값을 나타냅니다.제일 나이 많은 탑승객: 80.0 Years제일 나이 어린 탑승객: 0.4 Years탑.. 2024. 5. 28. [캐글] 처음 시작하는 캐글 - 타이타닉(1) 이 글은 이유한님의 글을 참고하며 스스로 공부를 위해 더 자세하게 작성한 글 입니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)학습을 위해 글을 작성하다보니 코드 하나에 깊게 파고드는 경우가 있을 것 같습니다. 참고해주시면 감사하겠습니다. 타이타닉 코드의 초반부인 탐색적 데이터 확인을 진행 하고 있습니다.갈길이 아직 멀지만, 차근 차근 한걸음씩! 타이타닉과 Kaggle을 알아가보겠습니다 :-) 1. 탐색적 데이터 확인 1.2 Target Label 확인가장 중한 생존에 대한 분포를 확인하고, binary classification 문제의 경우 이 분포에 따라 모델의 평가 방법이 달라질 수 있다고 합니다.이 부분은 불러온 데이터를 활용하여 matplotlib.pyplot 모듈(패키지)을 사용한 pie.. 2024. 5. 24. [캐글] 처음 시작하는 캐글 - 타이타닉 (0) 머신러닝이 무엇인지 맛 보려고 타이타닉을 진행해보았습니다.'타이타닉'은 영화로 가장 잘 알려져 있는데, 영화로 여러번 보았는데 여기서 만났습니다.찾아보니 1912년 4월 10일 영국의 사우샘프턴을 떠나 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였다. 타이타닉이 완전히 침몰한 시간은 새벽 2시 20분이다. 타이타닉의 침몰로 1,514명이 사망한 사고 라고 알려져 있습니다. (위키백과) 처음에는 한개씩 따라 치기 시작했는데, 처음이다 보니 그저 읽고 따라치고 이해하려고 애쓰다보니 조금씩 읽히기 시작했다. 처음에는 데이터가 어떤 것이 있는지 살펴보는 것 위주로 진행했고, 여러 신기한 명령어들이 많았습니다. csv파일을 이런 저런 방식으로 차트를 만들면서 데이터를 이해하는 부분이 .. 2024. 5. 21. 이전 1 다음