머신러닝 = ['지도학습', '비지도학습', '강화학습'] 이있고
빅분기는 "지도학습"으로 진행됩니다. 지도학습은 분류 OR 회귀가있습니다.
*피처(컬럼)라는 단어는 현업자들이 많이 사용하는것이니 꼭 익혀두기
대략적으로 이렇게 진행됩니다.
문제를 읽어보면서? 문제정의하기
분류인지? 회귀인지?
예측해야하는 피처(컬럼)은?
예측 결과?(확률, 0인지 1인지)
평가방식?
최종 생성파일은?
이런 부분들을 생각하면서 읽어야합니다. 그래야 작업내용에 오류가 없습니다.
탐색적 데이터분석(EDA)
샘플데이터 확인(df.head(), df.info()등)
데이터 크기
컬럼(피처)타입
결측치
분류:타겟, 라벨 비율
수치형인지 범주형인지 컬럼파악하기 ->왜냐면 datetime등으로 변환해야해서
시각화를 지원하지않다는점 알고있어야합니다!
데이터 전처리
- 결측치 (mean, median, max, min, mathod=bfill 등)
- 이상치 (IQR 등등..)
피처엔지니어링
-수치형(float, int)
- minmax스케일링 (0~1사이 값으로 변경하는 것)
-범주형(obt)
- 라벨인코딩(레이블인코딩)
- 원핫인코딩(많지 않다면 사용하기)
test/validation나누기
100중에 train/val 나누고 test하기!
평가하기
분류 모델
- Random Forest
- Decision Tredd
- XGBoost
회귀 모델
- Random Forest
- Linear Regression
- XGBoost
모델 = 어떤모델? model.fit() model.predict() |
model = RandomForest model.fit() model.predict() |
시험제출은?
to_csv("수험번호.csv")로 제출하면 됨
'자격증 > [빅분기] 빅데이터분석기사' 카테고리의 다른 글
[작업형2] 'tuple' object is not callable (0) | 2024.10.13 |
---|---|
[작업형2] 데이터로드 & EDA (1) | 2024.10.12 |
[작업형1] TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType' (1) | 2024.10.10 |
[작업형1] TypeError: agg function failed [how->mean,dtype->object]간단하게 numeric_only=True 쓰세요 (0) | 2024.10.09 |
[작업형1] print(df) vs df (1) | 2024.10.03 |