YOLO(You Only Look Once)
🟨 Abstract
욜로에 대해서 소개합니다.
객체탐지를 위한 새로운 접근 방식인 YOLO입니다.
기존의 객체탐지는 분류를 번형하여 탐지를 수행하는 방식에 의존하지만
YOLO는 객체 탐지를 공간적으로 분리된 바운딩 박스와 관련된 클래스 확률로의 회귀문제로 정의합니다.
하나의 신경망은 전체 이미지를 한번 평가하고 바운딩박스 , 클래스 확률을 직접 예측합니다.
전체 탐지 파이프라인이 단일 네트워크로 구성되어 있어서 탐지 성능을 기준으로 처음부터 끝까지 최적화할 수 있습니다.
아키텍쳐로보면 통합되어있고 매우 바릅니다.
기본 YOLO는 초당 45프레임으로 실시간 처리합니다.
좀 더 작은 모델인 FAST YOLO는 초당 155프레임이라는 속도로 이미지 처리하고 다른 실시간 탐지기보다 2배의 mAP를 달성합니다. 최신 탐지 시스템과 비교했을때 YOLO는 더 많은 위치 오차를 발생시키긴 하지만 배경에 대해 잘못된 긍정(FP)을 예측할 가능성이 적다고 합니다.
마지막으로 YOLO는 매우 일반화된 표현을 학습합니다. 자연 이미지에서 다른 도메인(예: 예술작품)을 일반화할 때,
YOLO는 DPM및 R-CNN을 포함한 다른 탐지방법보다 더 뛰어난 성능을 보입니다.
1. DPM (Deformable Parts Model)
- 슬라이딩 윈도우 방식을 사용해 객체를 탐지하는 모델
- 고정된 특징을 사용하고 객체의 위치를 정확하게 파악하기 어렵습니다.
그에 반해 yolo는 학습된 특징을 사용하고 객체를 한 번의 처리로 탐지하므로 DPM보다 더 빠르고 정확함.
2. R-CNN(Region-based Convolutional Neural Networks)
- 이미지를 잘게 나누고 각 영역을 별도의 분류기로 분석함
- 이 과정이 느리고 복잡하며 각 단계가 독립적으로 작동합니다.
- 반면 YOLO는 하나의 신경망으로 전체 과정을 통합하여 빠르고 간단하게 동작합니다.
RNN은 테스트시 이미지당 40초가 걸리지만 YOLO는 초당 45프레임이상을 처리할 수 있다.
즉
YOLO는 속도 정확도 실시간 처리 능력에서 다른 두 모델보다 뛰어나고
특히 장점은 실시간 탐지가 잘 된다!
🟨 1.서론
사람들은 이미지를 한 번 보는것만으로 이미지에 어떤 객체가 있는지 어떻게 상호작용하는지 즉각적으로 파악할 수 있습니다. 인간의 시각 시스템은 빠르고 정화갛여 운전처럼 복잡한 작업도 거의 의식적인 생각 없이 수행할 수 있게 해줍니다.
객체 탐지를 위한 빠르고 정확한 알고리즘은 컴퓨터가 특수 센서 없이 자동차를 운전하게 하고
보조기기가 인간 사용자에게 실시간 장면 정보를 전달하도록 하고 범용적이고 반응성이 뛰어난 로봇 시스템의 가능성을 열어줄 수 있습니다.
현재의 탐지 시스템은 분류기를 변형하여 탐지를 수행합니다.
객체를 탐지하려면 이러한 시스템은 해당 객체의 분류기를 사용하여 테스트 이미지의 여러 위치와 크기에서 평가를 수행합니다. 예를들어서 아까 위에서 말했던 DPM과같은 시스템은 슬라이딩 윈도우 방식을 사용하여 분류기를 이미지 전체에서 일정한 간격으로 위치를 옮기며 실행합니다.

🟨 Figure1
욜로를 사용하여서 이미지를 처리하는 과정입니다.
1. 448*448로 리사이즈합니다.
2. 단일 컨볼루션 신경망을 실행합니다.
3. Non-max suppression: 객체탐지에서 중복된 바운딩박스를 제거하고 가장 적합한 박스를 선택하기 위해 사용되는 기법
모델의 신뢰도를 기준으로 탐기 결과를 임계값 처리합니다.
이런식으로 최적의 결과를 찾습니다.
기존의 객체 탐지 방식은 이미지에서 잠재적인 바운딩 박스를 생성하고 제안된 박스에 대해서 분류기를 실행합니다.
분류 후에는 후처리를 통해서 바운딩박스를 세분화하고 중복 탐지는 제거하며 장면 내 다른 객체를 기반으로 박스의 점수를 재조정합니다.
이러한 복잡한 파이프라인은 시간이 느리고 각 구성 요소를 개별적으로 학습해야하므로 최적화가
어렵습니다.
첫번째..
YOLO는 객체탐지를 단일회귀문제로 재구성하여서 이미지 픽셀에서 바로 바운딩 바긋좌표와 클래스 확률을 예측합니다.
YOLO를 사용하면 이미지를 한번만 보아도 어떤 객체가 어디에 있는지 예측할 수 있습니다.
FIGURE1을 참고하면 정말 간단합니다.
단일 컨볼루션 신경망이 동시에 여러바운딩박스와 해당박스의 클래스 확률을 예측합니다.
전체이미지를 학습에 사용하며 탐지 성능을 직접적으로 최적화합니다.
이러한 통합된 모델은 기존의 객체 탐지 방법에 비해 아래와 같은 장점을 제공합니다.
1. 탁월한 속도
YOLO는 객체 탐지를 회귀 문제로 정의했기 떄문에 복잡한 파이프라인이 필요 없습니다.
테스트시 새로운 이미지에 대해 신경망을 실행하기만 하면 탐지 결과를 예측할 수 있습니다.
기본 네트워크느는 GPU에서 배치없이 초당 45프레임(FPS)을 처리합니다.
빠른 버전은 초당 150프레임 이상을 처리할 수 있습니다.
이 말은 25밀리초 미만의 지연으로 실시간 스트리밍 비디오까지 처리할 수 있다는것을의미합니다.
정확도도 다른 실시간 시스템보다 2배이상의 평균 정밀도를 보여줍니다.
두번째로...
yolo는 전역적으로 이미지를 이해하면서 예측을 수행합니다!
슬라이딩 윈도우나 영역제안 기반 기술과 달리 ,yolo는 학습 및 테스트시 전체 이미지를 한번에 처리하기 때문에
클래스의 맥락적 정보와 외형을 암묵적으로 인코딩(입력)할 수 있습니다.
fast R-CNN과같은 상위 탐지기법은 이미지의 배경 패치를 객체로 잘못 탐지하는 경우가 있는데
이것은 더 큰 맥락을 볼 수 없기때문이라고 합니다.
YOLO는 이것보다 배경을 오탐지하는 확률을 절반 이하로 줄였다고 합니다.
세번째는...
YOLO는 객체에 대한 일반화 가능한 표현을 학습합니다.
자연이미지를 학습하고 예술 작품을 테스트했을때 YOLO는 DPM과 같은 상위 탐지 방법보다
훨씬 뛰어난 성능을 보였습니다.
YOLO는 높은 일반화 능력을 가지고 있어서 새로운 도메인이나 예상치 못한 입력에서도 성능이 크게 저하되지 않습니다.
한계점..
YOLO는 여전히 최신 탐지 시스템에 비해서 정확도는 뒤쳐집니다.
이미지에서 객체를 빠르게 식별할수는 있지만 특히 작은 객체의 위치를 정확히 로컬라이즈하는데에는 어려움을 겪습니다.
이러한 트레이드오프에 대해서는 실험에서 좀 더 자세히 분석합니다.
🟨 2. 통합된 탐지
YOLO는 객체 탐지의 개별 구성 요소를 단일 신경망으로 통합했습니다.
이 신경망은 전체 이미지에서 추출한 특징을 사용하여 각 바운딩 박스를 예측하며 동시에 이미지의 모든 클래스에 대해 모든
바운딩 박스를 예측합니다. 즉 YOLO는 이미지 전체와 그 안의 모든 객체에 대해 전역적으로 사고합니다.
YOLO의 설계는 ent-to-end 학습과 실시간 처리 속도를 가능하게 하면서도 높은 평균 정밀도(MAP)를 유지합니다.
그리그 기반 이미지 분할
YOLO는 입력 이미지를 S *S 그리드로 나눕니다.
객체의 중심이 특정 그리드 셀에 속하면 그 그리드 셀이 해당 객체를 탐지하는 역할을 맡습니다.
바운딩박스와 신뢰도 예측
각 그리드 셀은 B개의 바운딩 박스와 해당 박스에 대한 신뢰도 점수를 예측합니다.
신뢰도 점수는 모델이 박스에 객체가 포함되어있다고 확신하는정도와 모델이 예측한 박스가 얼마나 정확한지를 나타냅니다.
신뢰도는 아래처럼 정의됩니다.
* 객체가 없는 셀의 경우 신뢰도 점수는 이어야합니다.
* 객체가 있는 셀의 경우 신뢰도 점수는 예측된박스와 실제 박스 간의 교집합 비율(IOU)을 반영해야합니다.
바운딩박스의 구성
각 바운딩 박스는 5개의 값을 예측합니다
조건부 클래스 확률
각 그리드 셀은 C개의 조건부 클래스 확률을 예측합니다.
테스트시 계산 방식
테스트 시간에는 조건부 클래스 확률과 개별 박스의 신뢰도 예측 값을 곱하여 클래스별 신뢰도 점수를 계산합니다.
이 계산은 각 박스에 대해 특정 클래스가 나타날 확률과 예측된 박스가 객체에 얼마나 잘 맞는지를 동시에 인코딩합니다.

🟨 2.1. 네트워크 설계
YOLO모델은 CNN(컨볼루션 신경망)으로 구현되어있으며 파스칼 VOC객체 탐지 데이터셋에서 평가되었습니다.
- 네트워크 초키 CNN은 이미지에서 특징(Feature)을 추출합니다.
- Fully Connected Layers는 출력 확률과 좌표를 예측합니다.
네트워크 구조
- yolo의 네트워크 구조는 이미지 분류를 위한 gollgleNet 모델에서 영감을 받았습니다.
- 네트워크는 총 24개의 컨볼루션 레이어와 2개의 완전 연결 레이어로 구성됩니다.
- GoogleNetdml Inception 모듈 대신 Lin et al의 방식과 유사하게 1*1 축소 레이어와 3*3 컨볼루션 레이어를 사용합니다.
- 전체 네트워크 구조는 figure3에 자세히 나와있습니다.

FastYOLO
YOLO의 빠른 버전은 매우 빠른 객체 탐지를 목표로 설계되었습니다.
- 컨볼루션 레이어 수를 줄임(24->9)과 동시에 각 레이어의 필터 수도 줄였습니다.
- Fast YOLO는 네트워크 크기를 제외하면 YOLO와 동일한 학습 및 테스트 파라미터를 사용합니다.
YOLO와 Fast YOLO의 설계 차이는 속도와 정확도의 균형을 조정하여 다양한 응용분야에 적합하도록 만들어졌습니다.
FIGURE3을 보면
네트워크는 24개의 컨볼루션 레이어와 그 뒤에 이어지는 2개의 완전 레이어로 구성됩니다.
- 1*1 컨볼루션 레이어를 교차적으로 배치하여 이전 레이어의 특징 공간을 축소합니다.
- 이러한 축소는 계산 효율성을 높이고 특징을 압축적으로 표현하도록 돕습니다.
사전 학습 과정
- 컨볼루션 레이어는 ImageNet분류 작업에서 224*224 해상도의 입력이미지로 사전학습을 수행합니다.
이후 객체 탐지를 위해서 입력 이미지 해성도를 두 배로 늘려 448 * 448 로 학습합니다.
이런 설계는 대규모 데이터셋인 ImageNet에서 사전 학습을 통해 강력한 특징 표현을 학습한 후 탐지 작업에 적합하도록 해상도를 조정해 최적의 탐지 성능을 제공합니다.
우리 네트워크의 최종 출력은 7*7*30 크기의 예측 텐서입니다.
🟨 2-2 Trainin(훈련)
컨볼루션 레이어를 ImageNet 1000클래스ㅡ 대회 데이터셋에서 사전학습합니다.
사전학습시 figure3 에서 첫 20개의 컨볼루션 레이어 뒤에 평균 풀링 레이어와 완전 연결 레이어를 추가해 네트워크를 구성합니다.
약 7일동안 네트워크를 훈련한 결과, ImageNet 2012 검증세트에서 단일 크롭 기준 상위 5개 정확도가 88%에 도달했으며
이는 caffe의 model zoo에서 제공하는 GoogLeNet모델과 유사한 성능입니다.
그 후 모델 탐지 작업에 맞게 변환합니다. Ren et al. 은 사전 학습된 네트워크에 컨볼루션 레이어와 완결 연결 레이어를 추가하면 성능이 향상된다고 보여주었습니다. 이를 참고하여 랜덤 초기화된 가중치로 4개의 컨볼루션 레이어와 2개의 완전 연결 레이어를 추가했습니다.
탐지 작업은 정교한 시각 정보를 요구하기 때문에 네트워크의 입력 해상도를 224 *224에서 448*448로 증가시켰습니다.
최종레이어
최종레이어는 클래스 확률과 바운딩 박스 좌표를 동시에 예측합니다.
-바운딩 박스의 너비와 높이를 이미지의 너비와 높이로 정규화하여 0에서 1사이의 값이 되도록합니다.
-바운딩 박스의 x,yx yx,y좌표는 특정 그릳 셀 위치를 기준으로 한 오프셋으로 파라미터화하여 역시 0에서 1사이 값으로 제한합니다.
-최종 레이어는 선형활성화함수를 사용하며 나머지 레이어는 Leaky ReLU활성화 함수를 사용합니다.
( Leaky ReLU : ReLU의 변형으로 음수 입력에 대해 작은 기울기를 제공하여 죽은 뉴런 문제를 완화한 버전입니다.)
오차 함수 및 최적화
모델출력에 대해 합 제곱 오차(Sum-Squared Error)를 최적화합니다.
- 이방법은 최적화가 쉽지만 평균 정밀도를 최대화 하는 목표와는 완벽히 일치하지 않습니다.
- 합 제곱 오차는 로컬라이제이션 오류와 분류오류를 동일하게 가중치로 반영합니다.
-또한 이미지의 많은 그리드 셀이 객체를 포함하지 않으므로 해당 셀의 신뢰도 점수를 0으로 끌어내리는 경향이 있습니다.
이로인해 모델이 불안정해지거나 초기 단계에서 학습이 수렴하지 않을 수 있습니다.
이것의 해결방법은
- 바운딩 박스 좌표 예측에서의 손실을 증가시키고 객체가 없는 박스의 신뢰도 예측에서의 손실을 감소시킵니다.
-이를 위해 두 개의 파라미터를 사용하며 각각 5와 0.5로 설정합니다.
- 바운딩박스 크기에 따른 오차를 보정하기 위해 너비와 높이 대신 해당 값의 제곱근을 예측합니다.
훈련시 바운딩 박스 할당
훈련중 각 객체에 대해 하나의 바운딩 박스 예측기가 채김을 맡도록 설정합니다.
- 가장 높은 IOU를 가지는 예측기가 해당 객체를 책임지도록 합니다.
- 이를 통해 바운딩 박스 예측기가 특정 크기 비율 또는 객체 클래스에 대해 더 전문화되며 전체적인 재현율(RECALL)을 개선합니다.
훈련 중 최적화할 다중 구성 요소

손실함수를 나타낸것입니다. 탐지 성능을 최적화하기 위해서 손실함수를 정의하고 이것으로 바운딩 박스 좌표, 클래스 확률, 신뢰도 값을 포함한 여러 요소로 구성됩니다.
손실 함수의 동작 원리
- 분류오류 : 객체가 해당 그리드 셀에 존재하는 경우에만 패널티가 부여됩니다.(조건부 클래스 확률에 기반)
- 바운딩 박스 좌표 오류 : 해당 예측기가 실제 바운딩 박스를 '책임'지는 경우에만 패널티가 부여됩니다.
이는 그리드 셀 내 예측기 중 가장 높은 IOU를 가진 예측기가 선택된다는 뜻입니다.
훈련설정
- 훈련데이터 : PASCAL VOC2007 의 2012의 훈련 및 검증 데이터를 사용하고 2012테스트 시 VOC2007 테스트 데이터를 추가로 훈련에 포함합니다.
- 훈련 반복수 : 약 135 에포크동안 네트워크를 훈련합니다
(생각보다 적다는생각을 했는데 양이 엄청 많으니까 시간이 어마무시했겠죠?)
- 하이퍼 파라미터
1. 배치크기 64, 2.모멘텀:0.9, 3.감쇠율(decay): 0.0005
3.감쇠율(decay): 0.0005 이 의미하는것? 정확히는 가중치감쇠는 정규화 기법의 일종으로 모델학습중 과적합을 방지하기 위해서 가중치를 규제하는데 사용됩니다. 그렇게해서 모델의 복잡성을 제어합니다. |
과접합 방지
1. 드롭아웃
2. 데이터 증갑
이렇게 설정해서 네트워크가 다양한 상황에서도 일반화할 수 있도록 설계되었습니다.
🟨 2-3. 추론
훈련 과정과 마찬가지로 테스트 이미지에 대한 탐지 예측도 한 번의 네트워크 평가만 필요합니다.
PASCAL VOC데이터셋에서 네트워크는 이미지당 98개의 바운딩 박스와 각 박스에 대한 클래스 확률을 예측합니다.
YOLO는 단일 네트워크 평가만으로 탐지를 수행하므로 테스트 시간에 매우 빠릅니다.
이는 분류 기반방식과의 큰 차이점입니다.
그리드 설계의 공간 다양성
그리드 설계는 바운딩 박스예측에서 공간적 다양성을 보장합니다.
- 대부분의 경우, 객체가 어떤 그리드 셀에 속하는지 명확하여 네트워크는 각 객체에 대해 하나의 박스만 예측합니다.
-하지만 일부 큰 객체나 여러 셀의 경계에 걸친 객체는 여러 셀의 잘 로컬라이즈 할수 있습니다.
- 이러한 중복 탐지는 비최대억제를 사용하여 해결할 수 있습니다.
- YOLO에서는 R-CNN이나 DPM처럼 필수적이지는 않지만 mAP를 2~3% 정도 향상시킵니다.
🟨 2-4.욜로의 한계
1. 공간적 제약
- YOLO는 각 그리드 셀이 2개의 바운딩 박스만 예측하고 한가지 클래스만 가질 수 있도록 제한합니다.
-이러한 제약으로 인해 모델은 근접한 객체를 여러 개 예측하는데 어려움을 겪습니다
- 특히 세 때와 같이 그룹으로 나타나는 작은 객체를 탐지하는데 취약합니다.
2. 새로운 비율 및 구성에 대해 일반화
- 모델은 데이터를 기반으로 바운딩 박스를 예측하기 때문에 새로운 또는 비정상적은 종횡비나 구성을 가진 객체를 일반화하는데 어려움을 겪습니다.
- 또한 입력 이미지에서 여러 번의 다운샘플링 레이어를 거치므로 상대적으로 조잡한 특징을 사용해 바운딩 박스를 예측합니다.
3. 손실 함수의 한계
- 손실 함수는 탐지 성능을 근사하지만 작은 바운딩 박스와 큰 바운딩 박스에서 오류를 동일하게 취급합니다.
- 큰 박스에서의 작은 오류는 영향이 미미하지만 작은 박스에서는 IOU에 큰 영향을 미칩니다.
이런부분들이 잘 안잡힌다고 하는데 논문리뷰가 끝나고 한번 쭉 해보려고 합니다!
🟨 3. 다른 객체 탐지 시스템과의 비교
객체 탐지는 cv의 핵심적인 문제입니다.
기존 탐지 파이프라인은 일반적으로 입력 이미지에서 강력한 특징을 추출한 뒤 분류기나 로컬라이저를 사용해서 특징 공간에서 객체를 식별합니다.
이러한 분류기나 로컬라이저는 이미지 전체를 슬라이딩 윈도우 방식으로 처리하거나 특정 영역을 대상으로 실행됩니다.
YOLO는 여러 상위 탐지 프레임워크와 비교되며 주요 유사점과 차이점을 강조합니다.
DPM
-고정된 파이프라인에서 정적인 특징을 추출하고 영역을 분류하며 점수가 높은 영역에 대해 바운딩 박스를 예측하는 과정을 거칩니다.
-YOLO는 이러한 개별 요소를 단일 컨볼루션 신경망으로 대체하여 특징 추출, 바운딩 박스 예측, 비최대억제, 맥락적 판단을 동시에 수행합니다.
- 정적특징대신 학습된 특징을 사용하여 탐지작업에 최적화합니다.
-YOLO가 더 낫다.
R-CNN
- DPM처럼 슬라이딩 윈도우 대신 영역제안을 사용하여 객체를 찾습니다.
- 컨볼루션 신경망이 특징을 추출한 뒤 , SVM이 박스를 평가합니다. 이후 박스를 조정하고 NMS로 중복탐지를 제거합니다.
- 복잡한 파이프라인을 가지고있기때문에 테스트에 시간이 매우 느립니다(이미지당 40초 이상 소요)
-YOLO와의 차이점
1. YOLO는 그리드 셀이 잠재적 바운딩 박스를 제안하고, 컨볼루션 특징을 사용해 박스를 평가합니다.
2. 공간적 제약을 통해 동일 객체에 대한 중복 탐지를 줄입니다.
3. 셀렉트 서치보다 훨씬 적은 바운딩박스를 생성합니다
4. 이러한 구성 요소를 통합된 모델로 결합하여 최적화합니다.
🟨 다른 빠른 탐지기
(Fast and Faster R-CNN, selective,단일클래스)등 보다 YOLO가 낫다는 설명을 하고있다.
YOLO는 대규모 탐지 파이프라인의 개별요소를 최적화하려는 시도를 버리고 처음부터 빠른 설계를 채택합니다.
탐지 방식 | 전체 이미지를 한 번에 처리하며 회귀 문제로 모델링 | 영역 제안 (region proposal)으로 탐지 가속화 |
특정 클래스 (예: 얼굴) 탐지에 최적화 |
CNN으로 관심 영역(ROI) 예측 | 지역화 (localization) 학습 신경망 활용 |
그리드 기반으로 파지 가능 영역 예측 |
속도 | 실시간 처리 가능 (150 FPS) | Faster R-CNN도 실시간 성능 미달 | 특정 클래스만 탐지하므로 빠름 | 다중 클래스 작업에는 느림 | 슬라이딩 윈도우로 효율적이나 느림 | 단일 객체만 처리하므로 빠름 |
다중 클래스 탐지 | 다양한 클래스의 다중 객체를 탐지 | 다중 클래스 가능하나 느림 | 불가능 (단일 클래스 전용) | 추가 분류 필요 → 다중 클래스에 부적합 | 전역 맥락(context) 고려 불가 | 단일 객체만 처리 (클래스 예측 불가) |
후처리 의존성 | 최소화 (모든 과정 단일 네트워크로 통합) | Selective Search와 후처리 필요 | 후처리 거의 불필요 | 후처리 필요 (이미지 패치 분류) | 후처리에 크게 의존 | 후처리 거의 불필요 |
활용 사례 | 실시간 객체 탐지, 다중 클래스 탐지 | 탐지 정확도가 중요한 작업 | 얼굴 탐지, 사람 탐지 등 | 특정 영역 예측 작업 | 지역화 중심 작업 | 단일 객체의 파지 가능 영역 예측 |
모델의 한계 | 작은 객체 탐지에 약함 | 속도가 느림 (실시간 처리 미달) | 클래스 다양성이 부족 | 일반 객체 탐지에는 부적합 | 전역 맥락 고려 불가, 분리된 시스템 문제 | 객체의 크기, 위치, 클래스는 예측 불가 |
🟨 결론은
Fast R-CNN보다 좀 더 높고 실시간 처리가 가능하고 작은객체를 탐지하는것에서는 살짝의 어려움을 겪습니다.
Fast R-CNN + YOLO 결합모델
- 가장 높은 성능을 보이는 탐지 방법 중 하나입니다.

욜로로 탐지한 결과를 나타낸 결과입니다.
🟨 YOLO의 한계
1. 작은객체 탐지가 어렵습니다.
=> 작은 객체를 정확히 로컬라이즈하는데 어려움을 느끼며, 근접한 여러 객체를 탐지하는데도 제한이 있습니다.
2. 공간적 제약이 있습니다
=> 각 그리드 셀의 2개의 바운딩 박스만 예측하고 한 가지 클래스만 처리할 수 있기때문에 근접한 객체를 탐지하기 어렵습니다.
3. 손실함수의 한계가 있습니다.
=> 손실함수는 작은 바운딩 박스와 큰 바운딩박스에서 발생하는 오류를 동일하게 처리하여
작은 객체에 더 큰 영향을 미칩니다.
발전 가능성
1. 개선된 버전
=> 3,4,5등 발전된 버전에서 작은 객체 탐지 성능과 정확도를 크게 개선하고 실시간 성능을 유지하고있어요.
2. 다중객체 탐지 향상
=> 더 세밀한 그리드 분할과 개선된 손실함수 설계로 근접한 객체탐지성능을 높일 수 있어요
3.다양한 응용 분야 확장:
=> 드론 비전, 의료 영상 분석, 스마트 시티 등 다양한 새로운 영역에 적용 가능성이 커 보여요
https://arxiv.org/pdf/1506.02640
아래는 gpt버전 한영 번역버전이다.
'모델 논문, 학습' 카테고리의 다른 글
모델 GITHUB참고 (0) | 2025.02.23 |
---|---|
Vision Transformer(ViT) 논문 리뷰(직역) (0) | 2025.02.18 |
YOLO TRACKER 문서 및 실험&구현해보기 (2) | 2024.12.24 |
[논문] alexnet 알렉스넷 논문 (0) | 2024.10.16 |