본문 바로가기

AI/컴퓨터 비전

[DL] 컴퓨터 비전 데이터셋 활용링크

by 바다의 공간 2024. 8. 25.

1. 컴퓨터 비전

인공지능(AI)의 한 분야로, 컴퓨터와 시스템을 통해 디지털 이미지, 비디오 및 기타 시각적 입력에서 의미 있는 정보를 추출한 다음에 이러한 정보를 바탕으로 작업을 실행하고 추천할 수 있게 하는 것
- AI -> 생각
- 컴퓨터 비전 -> 보기, 관찰

2. 컴퓨터 비전과 데이터셋

컴퓨터 비전의 모델은 데이터의 모음(일반적으로 이미지, 비디오, 시각적 정보)을 학습
데이터셋은 모델의 성능을 결정하는데 중요(양이 많아야하고, 품질이 좋아야 합니다) -> 데이터셋의 크기는 모델이 학습 중에 본 예제의 수를 나타내기 때문입니다.
데이터셋의 품질은 주석이 잘 못 지정되거나, 레이블이 잘 못 저장된 경우 모델의 성능에 부정적 영향을 줄 수 있음
다양한 객체 변형의 존재, 조명 조건, 배경 등을 포함한 데이터셋의 다양성도 모델의 견고성을 보장하는데 중요한 역할.

3. 어노테이션(주석)

데이터셋의 데이터에 대한 정보 또는 레이블을 추가하는 프로세스
어노테이션은 데이터셋에 수동으로 추가하거나 컴퓨터 알고리즘을 사용하여 자동으로 생성할 수 있음
예시) 이미지에서 특정 객체의 존재, 객체의 위치, 속성(색상, 크기, 모양 등)을 나타내는 레이블 포함

3-1. 어노테이션 종류

Bounding Box: 이미지 내에서 객체의 위치 및 크기를 정의하는 작업. 객체 주위에 Box를 그리고 클래스로 label을 지정
keypoint: 객체 내의 특정 관심 지점을 표시하는 작업. 예) 이미지 내 사람의 관절의 위치를 예측하는것이 목표인 작업
Segmentation: 이미지 내에서 객체의 경계를 정의하는작업. 컴퓨터 비전 모델을 이러한 경계를 인식하고 이미지 내의 객체를 분류하도록 학습이 됩니다.

3-2. 어노테이션의 방법

수동 주석: 마우스 또는 스타일러스와 같은 도구를 사용하여 이미지 내의 각 객체에 수동으로 레이블을 지정하는 작업. 가장 시간이 많이 걸리지만 최고 수준의 제어와 정확성을 제공합니다.
반자동 주석: 컴퓨터 지원 도구를 사용하여 주석 프로세스의 속도를 높이는 작업. 예) 어노테이터 도구를 사용하여 객체 주위에 경계 상자를 그릴 수 있으며 컴퓨터는 자동으로 객체에 해당 클래스로 레이블을 지정
자동 주석: 컴퓨터 알고리즘을 사용하여 이미지 내의 객체에 자동으로 레이블을 지정하는 작업. 가장 빠르지만 정확도가 낮다는 단점이 있습니다.

4. 유명 데이터셋

4-1. PASCAL VOC(Visual Object Classes)

PASCAL VOC
컴퓨터 비전에서 객체 인식 및 분류를 위한 데이터셋
디지털 카메라, 웹페이지 및 스캔 이미지를 포함한 다양한 이미지로 구성(여러가지 형태로 구성)
사람, 동물, 차량 및 일상적인 객체를 비롯한 20개의 다양한 객체 포함

4-2. COCO(Common Object in Context)

COCO
컴퓨터 비전을 위한 대규모 이미지 인식 데이터셋
Microsoft Research에서 만든 데이터셋
이미지 및 비디오의 객체를 인식하기 위한 알고리즘을 개발하고 평가할 수 있도록 설계
디지털 카메라, 웹페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집 된 330,000개 이상의 이미지
사람 동물 차량 및 일상적인 객체를 비롯한 80개의 다양한 객체 포함

4-3. ImageNet

ImageNet
스탠포드 비전 랩과 프린스턴 대학에서 만든 데이터셋
디지털 카메라, 웹페이지 및 스캔 이미지를 포함한 다양한 소스에서 수집 된 1,400만개 이상의 이미지
사람 동물 차량 및 일상적인 객체를 비롯한 1,000개의 다양한 객체 포함
1,000개의 객체 범주 집합에서 하나 이상의 클래스 레이블이 주석으로 지정

4-4. KITTI(Karlsruhe Institue of Technology and Tyota Technological Institue at Chicago)

KITTI
컴퓨터 비전 및 로복 공학을 위한 데이터셋
움직이는 차량에서 캡쳐한 이미지 및 비디오에서 객체 인식 및 감지를 위한 알고리즘의 개발 및 평가를 위한 실제 데이터를 제공
움직이는 차량에서 캡쳐한 7천개 이상의 이미지와 비디오로 구성
도시 및 농촌 환경, 도로, 건물, 차량 및 보행자를 포함한 다양한 객체와 장면
주석에는 3D 공간에서 객체의 위치와 방향에 대한 정보를 포함

저작자표시 (새창열림)

'AI > 컴퓨터 비전' 카테고리의 다른 글

[DL] AlexNet을 활용한 안경착용 vs 안경 미착용 구분/완료 (1)	2024.09.08
[DL] AlexNet을 활용한 <깔끔한 방 VS 지저분한 방> 분류하기 (0)	2024.08.26
[DL] open cv2 필터(블러링, 평균, 가우시안, 미디언, 바이레터럴) (1)	2024.08.24
[DL] ROI함수 활용하여 마우스 클릭 이벤트 구현하기 /완료 (1)	2024.08.22
[DL] 영상이어붙이기, 키이벤트, 사진 효과(add,blending...) (0)	2024.08.09

티스토리툴바