본문 바로가기

모두의연구소5

[데이터 분석] 원 핫 인코딩 원 핫 인코딩은 왜 필요할까?데이터를 컴퓨터에게 학습시키기 위해서 사람과 컴퓨터가 데이터를 이해하는 방식을 알면 좋을 것 같습니다.사람은 데이터를 이해할 때 다차원적으로 이해해서, 예를 들면 시간적 흐름, 공간적인 관계, 시각적인 요소 등 사람은 그것을 쉽게 구분합니다. 컴퓨터에는 여러가지 프로그래밍 언어들이 있지만 그것도 사람이 데이터를 다루기에 편한 방식으로 발전되어왔고,결국 개발 코드를 기계어로 번역하는 과정에서 인터프리터나 컴파일러를 통해 데이터를 0,1로 이해한다. 사람이 다른 사람들과 잘 소통하기 위해서는 그 사람의 소통 방식으로 대화하듯 컴퓨터에게도 가장 좋은 방식으로 전달해줘야한다.  원 - 핫 - 인코딩은 컴퓨터에게 데이터를 이해시키는 방법으로 가장 좋은 방법인 것 같습니다. 원 핫 인코.. 2024. 6. 15.
[캐글] 처음 시작하는 캐글 - 타이타닉(4) 타이타닉 5번째네요. 코드를 한 줄 한 줄 보는 것이 시간이 오래걸리긴해도, 익숙해지는 것을 목적으로 끝까지 마무리해보려고 합니다!이 글은 이유한님의 글을 참고하며 캐글 필사를 해보면서유한님의 정리가 깔끔해서 그것들을 참고하고 있습니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)3. Feature engineering3.1. fill null dataAGE 채우기null data 를 어떻게 채우느냐에 따라 모델의 성능이 좌지우지될 수 있어 중요한 요소입니다.이름을 통해 Age를 채워 넣습니다. 이름으로 나이를 유추할 수 있음. (이름과의 관계를 통해 age를 채우는 방법!)- 여기서 이름을 추출하여 'Initial' 변수에 replace()함수로 주요한 특징 5가지로 (Mr, Mrs, Miss, M.. 2024. 6. 4.
[캐글] 처음 시작하는 캐글 - 타이타닉(3) 이 글은 이유한님의 글을 참고하며 캐글 필사를 해보면서코드를 한줄 한줄 읽어가며 가능한한 자세하게 분석해보려고 합니다.유한님의 정리가 깔끔해서 그것들을 붙여넣기는 하지만! 학습한 내용 정리에 초점을 맞추었습니다. (출처: 캐글 코리아 홈페이지의 이유한 님의 글) 코드 속에 설명을 덧붙이니, 시간도 더 줄어들고 깔끔해지는 것 같네요. 한번 따라 쳐봤지만, 잘 감이 안잡혀서 코드를 하나하나 뜯어보는데 사실 이렇게 하면서 느끼는 점은matplotlib와 seaborn pandas로 여러 그래프를 그릴 수 있고, 그래프에는 어떤 옵션이 들어가는지 EDA(Exploratory Data Analysis) 탐색적 데이터 분석을 통해 어떤 데이터를 머신러닝에 사용할 것인지 판단하며데이터를 시각화 해보면서 어떤식으로 데.. 2024. 5. 29.
[캐글] 처음 시작하는 캐글 - 타이타닉(2) 이 글은 이유한님의 글을 참고하며 스스로 공부를 위해 더 자세하게 작성한 글 입니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)학습을 위해 글을 작성에 초점을 맞추었습니다. 2.4 Age 나이 컬럼코드print('제일 나이 많은 탑승객 : {:.1f} Years'.format(df_train['Age'].max()))print('제일 어린 탑승객 : {:.1f} Years'.format(df_train['Age'].min()))print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean())) 결과이 코드의 의미는 Age 컬럼의 '최대, 최소, 평균'값을 나타냅니다.제일 나이 많은 탑승객: 80.0 Years제일 나이 어린 탑승객: 0.4 Years탑.. 2024. 5. 28.
[캐글] 처음 시작하는 캐글 - 타이타닉(1) 이 글은 이유한님의 글을 참고하며 스스로 공부를 위해 더 자세하게 작성한 글 입니다.(출처: 캐글 코리아 홈페이지의 이유한 님의 글)학습을 위해 글을 작성하다보니 코드 하나에 깊게 파고드는 경우가 있을 것 같습니다. 참고해주시면 감사하겠습니다. 타이타닉 코드의 초반부인 탐색적 데이터 확인을 진행 하고 있습니다.갈길이 아직 멀지만, 차근 차근 한걸음씩! 타이타닉과 Kaggle을 알아가보겠습니다 :-) 1. 탐색적 데이터 확인 1.2 Target Label 확인가장 중한 생존에 대한 분포를 확인하고, binary classification 문제의 경우 이 분포에 따라 모델의 평가 방법이 달라질 수 있다고 합니다.이 부분은 불러온 데이터를 활용하여 matplotlib.pyplot 모듈(패키지)을 사용한 pie.. 2024. 5. 24.