Re:제로부터 시작하는 갓생
[TIL] 25/01/30 본문
< TIL 반드시 들어가야 할 내용 >
1. 어떤 문제가 있었는지
2. 내가 시도해 본 것들 (자세히 쓰기)
3. 어떻게 해결했는지
4. 뭘 새롭게 알았는지 (자세히 쓰기)
1. 문제
프로젝트에 대해 개인적으로 얻어진 자료 없이 연휴가 끝나간다.. 큰일...!
2. 시도
원데이터 vote 가장 많은 코드 순으로 필사를 진행하고 있다.
아무 생각 없이 필사를 하는 게 아니라 코드를 직접 타이핑하면서 아래와 같은 사항을 유의했다.
- 해당 코드에서 내가 얻을 수 있는 아이디어는 뭐가 있을지?
- 주제에 대해 어떤 식으로 코드를 진행해 나가는지?
- 왜 이 단계에서 그런 코드를 쓰는지?
- 코드가 의미하는 내용은 뭔지?
- 시각화는 어떻게 보는지?
하나하나 작성하다 보니 생각보다 오래 걸리고 있는 게 문제였지만
그동안의 프로젝트들에서 놓쳤던 사항들이나 코드의 플로우를 볼 수 있다는 점에서
개인적으로 유의미한 시간이라고 느꼈다.

3. 해결
해결된 사항은 딱히 없지만 EDA나 전처리에 대한 차이점과 플로우에 대해 찍먹 해봤다
4. 배움
* EDA(탐색적 데이터 분석)
목적: 데이터를 깊이 있게 이해하고 데이터에 숨겨진 패턴, 이상치, 변수 간의 관계 등을 파악하는 것
순서
- 데이터 구조 파악
데이터의 크기, 변수의 수, 데이터 타입 확인 - 결측치 확인
데이터 내 결측치 존재 여부와 분포 확인 - 단변량 분석
각 변수의 분포, 중심 경향, 변동성 파악 - 이변량 분석
변수 간 관계, 상관관계 분석. - 시각화
히스토그램, 박스플롯, 산점도 등을 통한 시각적 분석 - 기초 통계 분석
평균, 중앙값, 표준편차 등 기초 통계량 계산
* 데이터 전처리
목적: 분석이나 모델링을 위해 데이터를 정제하고 변환하는 과정
순서
- 결측치 처리
결측치 제거, 대체, 보간 방법 적용 - 이상치 처리
이상치 탐지 및 제거 또는 수정 - 데이터 변환
로그 변환, 스케일링, 정규화 - 인코딩
범주형 변수를 수치형으로 변환 (원-핫 인코딩, 레이블 인코딩) - 특성 선택 및 생성
중요한 변수 선택, 새로운 변수 생성 - 데이터 세트 분할
훈련, 검증, 테스트 데이터 세트로 분할
'Daily > TIL' 카테고리의 다른 글
[WIL] 10주차_01/27~01/31 (0) | 2025.01.31 |
---|---|
[TIL] 25/01/31 (0) | 2025.01.31 |
[TIL] 25/01/27 (0) | 2025.01.27 |
[WIL] 9주차_01/20~01/24 (0) | 2025.01.25 |
[TIL] 25/01/24 (0) | 2025.01.25 |