이미지 처리 모델
ResNet (Residual Network)
깊은 신경망을 학습하기 위해 개발된 모델이다. 잔차학습 개념을 도입하여 기울기 소실 문제를 해결하였고, 층이 몇개로 구성되어 있냐에 따라 이름이 바뀐다. 딥러닝에서 중요한 발전을 이룩한 모델이다. 이미지 분류, 객체 검출 등 다양한 컴퓨터 비전 작업에서 높은 성능을 발휘하고, 깊은 네트워크에서도 안정적으로 학습할 수 있어, 복잡한 패턴을 잘 학습한다.
-> 잔차학습 (Residual Learning) : 잔차연결 또는 스킵연결 이라 불리는 연결 방식을 도입하는 것이다. 일반적인 네트워크는 각 층이 이전층의 출력을 받아 계산하지만 ResNet에서는 일부 층을 건너뛰어 신호를 다음 층으로 직접 전달하는 잔차연결이 추가된다. 이를 통해 각 레이어는 이전 출력의 잔차만을 학습하게 된다. 잔차연결의 목표는 입출력이 같아지도록 하는것이 아니라 입력과 출력이 유사한 경우에는 변환을 거치지 않고 그대로 전달하여 정보를 보존하는 것이다.
VGG (Visual Geometry Group)
단순하고 깊은 신경망 구조를 가진다. 작은 3x3필터를 여러층에 쌓아 더욱 깊은 네트워크를 만들면서 복잡도를 낮추었다. 이미지 분류 및 객체인식에 많이 사용된다. 계산 비용이 높아 실시간 이미지 처리에는 잘 사용되지 않는다.
Inception
다양한 크기의 필터를 병렬로 사용하는 독특한 구조(인셉션 모듈)를 가진다. 이 구조덕에 이미지의 세부와 큰 특징을 동시에 분석할 수 있어 성능을 크게 높인다. 대규모 데이터 처리에서 효율적인 이미지 분류와 검색에 사용된다. 효율성과 정확성의 균형이 중요한 경우 많이 채택된다.
YOLO (You Only Look Once)
실시간 객체 탐지에 최적화된 모델이다. 이미지를 '단 한 번만 보는 구조'로 설계되었다. 객체의 위치와 클래스 정보를 동시에 예측함. 매우 빠르며 예측과 분류를 동시에 수행 할 수 있다. 보안 감시 시스템, 자율주행 등에서 자주 사용된다. 매우 작은 객체나 복잡한 배경에서는 정확도가 떨어진다. 특정 상황에서는 다른 모델과 함께 사용되기도 한다.
이미지 세그멘테이션
이미지 처리와 컴퓨터 비전에서 이미지내의 픽셀을 객체나 영역별로 나누는 작업이다. 이미지 분석의 기초.
목적 -> 사진이나 영상에서 관심 있는 객체의 위치와 모양을 정확히 파악하는 것을 목표로 한다.
종류
시맨틱 세그멘테이션(Semantic Segmentation) : 이미지의 각 픽셀을 클래스 레이블로 분류하는 방법
인스턴스 세그멘테이션(Instance Segmentation) : 같은 클래스에 속하는 여러 객체를 구별하는 방식으로, 예를 들어 여러 대의 자동차가 있을 때 각 자동차를 개별 객체로 인식한다. 이 방식은 객체의 개별 인스턴스를 분리하여 각 객체를 독립적으로 식별하는데 유리하다.
주요 세그멘테이션 모델
- FCN (Fully Convolutional Network) : 전체 이미지에서 각 픽셀의 클래스 분류를 학습한다.
- U-Net : 주로 의학 이미지 분석에 사용되며, 이미지 복원과 세그멘테이션에 효과적인 U자형 구조를 가진다.
- Mask R-CNN : 객체 탐지와 인스턴스 세그멘테이션을 동시에 수행하는 모델이다.