본문 바로가기
자격증/[빅분기] 빅데이터분석기사

[빅분기] 빅데이터 분석기사 필기 정리자료(2)

by 바다의 공간 2024. 8. 4.

3장. 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

(1) 데이터 수집

 

■ 데이터 수집 프로세스

수집단계 설명
수집대상 선정 1. 수집이 필요한 데이터를 도출하여 분석 목적에 맞는 대상 선정
2. 수집 가능성, 보안, 정확성, 난이도 , 비용 등을 고려하여 목록 작성
데이터 수집 세부계획 수립 1.데이터의 원천(내외부)과 원천의 데이터 현황, 수집과 관련된 조건 및 보안 사항 등을 파악하여 데이터 수집 협의 진행
2.데이터 유형 분류, 유형에 맞는 수집 기술 선정
3. 유형에 따른배치, 실시간 , 준실시간 등 수집 주기 결정
4. 데이터 소스 구성요소와 수집 주기 및 데이터양 그리고 데이터 수집방법등을 포함한 데이터 수집 계획서 작성
테스트 수집 실행 1. 수집 계획에 따라 사전 테스트 진행
2. 테스트 결과에 따른 보안 조치 후 데이터 수집 실행
3. 수집된 데이터에 대한 처리방안 마련

 

● 대상에 대해서 데이터 수집 방법 정리(147p)

대상 구분
로그데이터 Log Aggregator
크롤링, 스크래핑
파일 FTP
실시간 Open API, Streaming
Contents RSS
RDB기반 데이터 RDB Aggregator

 

데이터 처리

 

1) 데이터 처리

- 데이터 수집단계에서의 데이터 처리는 수집 데이터를 저장하기 전 단계의 데이터의 품질을 높이고 수집 효율성을 높이기 위해 진행하거나(전처리),

저장된 데이터를 사용목적에 맞도록 가공(후처리)하는 것

 

-전처리 : 필터링, 변환, 정제

-후처리 : 통합, 축소, 변환  

 

2) 처리기술

- 데이터를 특정 규칙에 따라 변경하는 것으로 데이터의 유형, 사용목적, 활용성 등을 고려하여 변환 여부와 기술 결정

- 필터링: 오류 탐색, 보정, 삭제 중복확인 등의 과정을 통해 데이터의 품질향상

 

목표 : 오류 데이터, 공백 데이터, 중복데이터 등 제거하여 분석 결과 정확도, 시간 단축

 

 

 


outer( 이상값 ) 

1) 이상값 검출 방법

 

■ ESD(Extreme Studentized Deviation) == 평균을 기준으로 표준편차x3 만큼 떨어진 값을 이상치라고 판단합니다.

 평균을 기준으로하니까

정상범위 : 평균 - 3*표준편차 <  dataset < 평균 + 3*표준편차

 

■ 기하 평균의 정상범위 : 기하평균 -  2.5*표준편차 < dataset < 기하평균 + 2.5*표준편차

 

■ 사분위수 : 데이터값들을 크기에 따라서 순서대로 정렬했을 때, 위에서부터  1/4의 위치에 있는 데이터값 

정상범위 : Q1-1.5*(Q3-Q1) < dataset <Q3+1.5*(Q3-Q1)

 

이상치


●변수 변환

■ 로그/지수 변환 : 한 쪽으로 치우친 변수를 로그/지수 변환을 통해 분석 모형을 적합하게 변환

-변수들의 치우침이 감소됨

■ 비닝(bining) : 연속형 데이터를 범주형 데이터로 변환하기 위해 사용(220p~221p)

■ 더미 변수화 :  범주형 데이터를 연속형 변수로 바꾸는 방법(222p)