[컴퓨터비전] 12. 장면 이해

2025-06-10

#컴퓨터비전

1분

12.1 동물은 어떻게 보나?

•
1981년 노벨의학상은 Hubel과 Wiesel의 시각 신경망 연구에 수여됨

•
이들은 고양이의 시각 피질에 마이크로 전극을 삽입하여, 특정 에지 방향에 반응하는 뉴런이 존재함을 발견
- ◦
  같은 방향에 반응하는 뉴런은 열(column) 형태로 배열됨

•
이는 시각 피질이 에지 정보를 추출하는 구조로 되어 있음을 의미

•
깡충 거미는 네 쌍의 눈으로 360° 시야 확보, 특정 패턴(예: 다리 형태의 직선)에 반응하여 먹이와 동료를 구별함

•
이들 동물 실험은 시각 시스템의 정보 처리 구조와 특징 추출 기능을 밝히는 데 중요한 기여를 함

•
사람의 시각 시스템은 신경생리학적으로 분석되며, 빛은 수정체 → 망막 → 시신경 → 시각 피질로 전달됨
- ◦
  시각 피질 손상 시에도, 위둔덕(superior colliculus)의 도움으로 움직이는 물체 추적 가능

12.2 이해로 가는 길

•
영상 이해는 지금까지 다룬 저수준 기술(2~11장)만으로는 불충분

•
장면 이해를 위해 다음과 같은 고수준 인지 기법들이 필요함:

1. 선택적 주의 집중

•
Yarbus의 연구: 관찰자의 임무에 따라 주의의 초점이 달라짐

•
시선 추적 실험 결과, 특정 과제가 주어졌을 때 시선이 집중되는 영역이 달라짐

•
이는 시각 시스템이 인지적 제어에 의해 작동함을 시사

2. 문맥(context)

posting image

•
동일한 시각 정보라도 주변 정보에 따라 인식이 달라짐
- ◦
  예: 글자 “거지”와 “꺼지지”는 문맥이 없으면 구별 불가

•
문맥은 인식의 정확성과 속도를 향상시킴

•
예시: 이미지 조각만 보면 해석이 어렵지만 전체 장면을 보면 금문교(Golden Gate Bridge)임을 인식 가능

3. 영상 파싱(image parsing)

•
장면을 의미 단위로 분해하여 이해하려는 시도

•
물체 간의 관계 (예: occlude, support 등)와 부품 간의 관계 (예: attach, part-of 등)를 모델링함

•
영상 파싱의 결과로, 장면을 문장으로 표현하는 기술까지 발전됨