3장. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
(1) 데이터 수집
■ 데이터 수집 프로세스
수집단계 | 설명 |
수집대상 선정 | 1. 수집이 필요한 데이터를 도출하여 분석 목적에 맞는 대상 선정 2. 수집 가능성, 보안, 정확성, 난이도 , 비용 등을 고려하여 목록 작성 |
데이터 수집 세부계획 수립 | 1.데이터의 원천(내외부)과 원천의 데이터 현황, 수집과 관련된 조건 및 보안 사항 등을 파악하여 데이터 수집 협의 진행 2.데이터 유형 분류, 유형에 맞는 수집 기술 선정 3. 유형에 따른배치, 실시간 , 준실시간 등 수집 주기 결정 4. 데이터 소스 구성요소와 수집 주기 및 데이터양 그리고 데이터 수집방법등을 포함한 데이터 수집 계획서 작성 |
테스트 수집 실행 | 1. 수집 계획에 따라 사전 테스트 진행 2. 테스트 결과에 따른 보안 조치 후 데이터 수집 실행 3. 수집된 데이터에 대한 처리방안 마련 |
● 대상에 대해서 데이터 수집 방법 정리(147p)
대상 | 구분 |
로그데이터 | Log Aggregator |
웹 | 크롤링, 스크래핑 |
파일 | FTP |
실시간 | Open API, Streaming |
Contents | RSS |
RDB기반 데이터 | RDB Aggregator |
데이터 처리
1) 데이터 처리
- 데이터 수집단계에서의 데이터 처리는 수집 데이터를 저장하기 전 단계의 데이터의 품질을 높이고 수집 효율성을 높이기 위해 진행하거나(전처리),
저장된 데이터를 사용목적에 맞도록 가공(후처리)하는 것
-전처리 : 필터링, 변환, 정제
-후처리 : 통합, 축소, 변환
2) 처리기술
- 데이터를 특정 규칙에 따라 변경하는 것으로 데이터의 유형, 사용목적, 활용성 등을 고려하여 변환 여부와 기술 결정
- 필터링: 오류 탐색, 보정, 삭제 중복확인 등의 과정을 통해 데이터의 품질향상
목표 : 오류 데이터, 공백 데이터, 중복데이터 등 제거하여 분석 결과 정확도, 시간 단축
outer( 이상값 )
1) 이상값 검출 방법
■ ESD(Extreme Studentized Deviation) == 평균을 기준으로 표준편차x3 만큼 떨어진 값을 이상치라고 판단합니다.
평균을 기준으로하니까
정상범위 : 평균 - 3*표준편차 < dataset < 평균 + 3*표준편차
■ 기하 평균의 정상범위 : 기하평균 - 2.5*표준편차 < dataset < 기하평균 + 2.5*표준편차
■ 사분위수 : 데이터값들을 크기에 따라서 순서대로 정렬했을 때, 위에서부터 1/4의 위치에 있는 데이터값
정상범위 : Q1-1.5*(Q3-Q1) < dataset <Q3+1.5*(Q3-Q1)
●변수 변환
■ 로그/지수 변환 : 한 쪽으로 치우친 변수를 로그/지수 변환을 통해 분석 모형을 적합하게 변환
-변수들의 치우침이 감소됨
■ 비닝(bining) : 연속형 데이터를 범주형 데이터로 변환하기 위해 사용(220p~221p)
■ 더미 변수화 : 범주형 데이터를 연속형 변수로 바꾸는 방법(222p)
'자격증 > [빅분기] 빅데이터분석기사' 카테고리의 다른 글
[작업형1] TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType' (1) | 2024.10.10 |
---|---|
[작업형1] TypeError: agg function failed [how->mean,dtype->object]간단하게 numeric_only=True 쓰세요 (0) | 2024.10.09 |
[작업형1] print(df) vs df (1) | 2024.10.03 |
[작업형1] drop 에러 (1) | 2024.10.01 |
[작업형1] 판다스 loc, iloc 개념 및 에러정리 (0) | 2024.10.01 |