[빅분기] 빅데이터 분석기사 필기 정리자료(2)

3장. 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

(1) 데이터 수집

■ 데이터 수집 프로세스

수집단계	설명
수집대상 선정	1. 수집이 필요한 데이터를 도출하여 분석 목적에 맞는 대상 선정 2. 수집 가능성, 보안, 정확성, 난이도 , 비용 등을 고려하여 목록 작성
데이터 수집 세부계획 수립	1.데이터의 원천(내외부)과 원천의 데이터 현황, 수집과 관련된 조건 및 보안 사항 등을 파악하여 데이터 수집 협의 진행 2.데이터 유형 분류, 유형에 맞는 수집 기술 선정 3. 유형에 따른배치, 실시간 , 준실시간 등 수집 주기 결정 4. 데이터 소스 구성요소와 수집 주기 및 데이터양 그리고 데이터 수집방법등을 포함한 데이터 수집 계획서 작성
테스트 수집 실행	1. 수집 계획에 따라 사전 테스트 진행 2. 테스트 결과에 따른 보안 조치 후 데이터 수집 실행 3. 수집된 데이터에 대한 처리방안 마련

● 대상에 대해서 데이터 수집 방법 정리(147p)

데이터 처리

1) 데이터 처리

- 데이터 수집단계에서의 데이터 처리는 수집 데이터를 저장하기 전 단계의 데이터의 품질을 높이고 수집 효율성을 높이기 위해 진행하거나(전처리),

저장된 데이터를 사용목적에 맞도록 가공(후처리)하는 것

-전처리 : 필터링, 변환, 정제

-후처리 : 통합, 축소, 변환

2) 처리기술

- 데이터를 특정 규칙에 따라 변경하는 것으로 데이터의 유형, 사용목적, 활용성 등을 고려하여 변환 여부와 기술 결정

- 필터링: 오류 탐색, 보정, 삭제 중복확인 등의 과정을 통해 데이터의 품질향상

목표 : 오류 데이터, 공백 데이터, 중복데이터 등 제거하여 분석 결과 정확도, 시간 단축

1) 이상값 검출 방법

■ ESD(Extreme Studentized Deviation) == 평균을 기준으로 표준편차x3 만큼 떨어진 값을 이상치라고 판단합니다.

평균을 기준으로하니까

정상범위 : 평균 - 3*표준편차 < dataset < 평균 + 3*표준편차

■ 기하 평균의 정상범위 : 기하평균 - 2.5*표준편차 < dataset < 기하평균 + 2.5*표준편차

■ 사분위수 : 데이터값들을 크기에 따라서 순서대로 정렬했을 때, 위에서부터 1/4의 위치에 있는 데이터값

정상범위 : Q1-1.5*(Q3-Q1) < dataset <Q3+1.5*(Q3-Q1)

●변수 변환

■ 로그/지수 변환 : 한 쪽으로 치우친 변수를 로그/지수 변환을 통해 분석 모형을 적합하게 변환

-변수들의 치우침이 감소됨

■ 비닝(bining) : 연속형 데이터를 범주형 데이터로 변환하기 위해 사용(220p~221p)

■ 더미 변수화 : 범주형 데이터를 연속형 변수로 바꾸는 방법(222p)

[작업형1] TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType' (1)	2024.10.10
[작업형1] TypeError: agg function failed [how->mean,dtype->object]간단하게 numeric_only=True 쓰세요 (0)	2024.10.09
[작업형1] print(df) vs df (1)	2024.10.03
[작업형1] drop 에러 (1)	2024.10.01
[작업형1] 판다스 loc, iloc 개념 및 에러정리 (0)	2024.10.01