[컴퓨터비전] 12. 장면 이해

2025-06-10
#컴퓨터비전
1

12.1 동물은 어떻게 보나?

  • 1981년 노벨의학상은 Hubel과 Wiesel의 시각 신경망 연구에 수여됨

  • 이들은 고양이의 시각 피질에 마이크로 전극을 삽입하여, 특정 에지 방향에 반응하는 뉴런이 존재함을 발견

    • 같은 방향에 반응하는 뉴런은 열(column) 형태로 배열됨

  • 이는 시각 피질이 에지 정보를 추출하는 구조로 되어 있음을 의미

  • 깡충 거미는 네 쌍의 눈으로 360° 시야 확보, 특정 패턴(예: 다리 형태의 직선)에 반응하여 먹이와 동료를 구별

  • 이들 동물 실험은 시각 시스템의 정보 처리 구조와 특징 추출 기능을 밝히는 데 중요한 기여를 함

  • 사람의 시각 시스템은 신경생리학적으로 분석되며, 빛은 수정체 → 망막 → 시신경 → 시각 피질로 전달됨

    • 시각 피질 손상 시에도, 위둔덕(superior colliculus)의 도움으로 움직이는 물체 추적 가능


12.2 이해로 가는 길

  • 영상 이해는 지금까지 다룬 저수준 기술(2~11장)만으로는 불충분

  • 장면 이해를 위해 다음과 같은 고수준 인지 기법들이 필요함:

1. 선택적 주의 집중

  • Yarbus의 연구: 관찰자의 임무에 따라 주의의 초점이 달라짐

  • 시선 추적 실험 결과, 특정 과제가 주어졌을 때 시선이 집중되는 영역이 달라짐

  • 이는 시각 시스템이 인지적 제어에 의해 작동함을 시사

2. 문맥(context)

  • 동일한 시각 정보라도 주변 정보에 따라 인식이 달라짐

    • 예: 글자 “거지”와 “꺼지지”는 문맥이 없으면 구별 불가

  • 문맥은 인식의 정확성과 속도를 향상시킴

  • 예시: 이미지 조각만 보면 해석이 어렵지만 전체 장면을 보면 금문교(Golden Gate Bridge)임을 인식 가능

3. 영상 파싱(image parsing)

  • 장면을 의미 단위로 분해하여 이해하려는 시도

  • 물체 간의 관계 (예: occlude, support 등)와 부품 간의 관계 (예: attach, part-of 등)를 모델링함

  • 영상 파싱의 결과로, 장면을 문장으로 표현하는 기술까지 발전됨