반응형

오늘은 이미지 인식, 즉 컴퓨터 비전의 역사에 대해 개괄적으로 최대한 짧게 핵심만 모아 설명해보겠습니다.

목차는 아래와 같습니다.

시각의 시작

우리들에게 있어 시각이란?

시각을 알기 위한 인간의 노력

물체 인식?

물체 인식 너머

뇌과학에서는?

언어에서 뇌를 추론하다

컴퓨터 비전의 검증

딥러닝의 시대

딥러닝의 한계

 

시각의 시작

5억년 전까지만 해도 생명체는 별로 없었습니다. 그런데 캄브리아기, 5억3천만년 전부터 생물의 종이 다양해졌습니다. 사실, 대멸종 이후에는 적응방산이 많이 일어나긴 합니다. 그런데 이때부터 시각 시스템이 생기기 시작했으며 이와 함께 종이 더욱 많아졌습니다.

 

잠깐! 적응방산이란?

대멸종 후 등장한 동물들은 왜 이렇게 이상하게 생겼을까?, 적응 방산에 대한 좋은 영상

적응방산은 같은 조상을 가진 생물의 어떤 한 분류군이 환경에 적응해가는 과정에서 식성, 생활방식 등에 따라 다양하게 진화하여 그것이 심화되고 결과적으로 여러 종으로 나뉘는 것을 의미한다. 대표적인 예로 갈라파고스 핀치새가 있다. 위키백과

 

우리들에게 있어 시각이란?

동물들이 대부분의 활동을 하는 데 필요한 기초적인 정보는 시각입니다. 즉, 시각적으로 처리하는 정보가 매우 중요한 것이지요. 이것으로 동물들은 각자만의 생존 시스템을 구축하는 데 성공해왔습니다. 조개의 눈, 벌의 겹눈, 인간의 눈 등 각각 모양은 다르지만 각자만의 눈을 통해 시각적 정보를 파악할 수 있습니다.

 

시각을 알기 위한 인간의 노력

인간은 과거부터 이러한 시각 시스템을 이해하고자 하는 시도가 많아왔습니다. 1545년 헤마 프리시우스의 핀홀 카메라, 16세기 다빈치, 18세기 카메라 옵스큐라 등.. 지금의 인간은 딥러닝을 이용해 다양한 task를 처리하는 단계까지 왔습니다.

 

 

 

휴벨과 위젤(Hubel and Wiesel, 1959)의 연구. 같은 모양이더라도 자극의 방향에 따라 고양이의 뇌에서 반응하는 부분이 다릅니다.

 

 

20세기에 들어와서는 다양한 연구가 이루어졌습니다. 대표적인 연구가 휴벨과 위젤(Hubel and Wiesel, 1959)의 연구입니다. 이들은 고양이의 뇌가 어떤 시각 자극에 어떤 반응을 하는지를 살펴보고자 했습니다. 이로부터 추론하길, 인간의 뇌는 시각 정보를 계층 구조적으로 처리하는 것 같다는 것이었습니다.

 

 

 

 

예를 들어 단순한 시각 자극 같은 로우 레벨에서 개, 새, 고양이 등을 구분하는 하이 레벨까지를 순차적으로 처리한다는 뜻입니다. 뉴럴 네트워크의 핵심 또한 이와 같습니다. 로우 레벨 데이터를 쌓은 뒤 하이 레벨 정보를 얻자가 핵심입니다. 그리고 인공지능에서의 중요한 개념들 또한 생겨났습니다. 1957년 프랑크 로젠블라트는 퍼셉트론(perceptron)을, 1986년 루멜하트 백프로파게이션(backpropagation)을 고안하며 인공지능의 기초를 쌓아왔습니다.

 

그런데 사실 이 연구들은 결과적으로 살아남은 연구들입니다. 이것들 외에도 다양한 시도와 과정이 있었습니다. 대멸종 이후의 생명체의 적응방산과 같이 말이지요. 시각을 이해하기 위한 다양한 시도들 중에서 성공해 살아남은 것이 뉴럴 네트워크였기에 이러한 연구들이 중요하게 된 것입니다. 지금까지는 시각의 굵직굵직한 역사였습니다. 조금 더 구체적으로 들어가볼까요?

 

물체 인식?

 

 

래리 로버츠(Larry Roberts, 1963, 1st thesis of Computer Vision)

 

 

컴퓨터 비전이란 용어가 처음 나온 것은 1963년입니다. 래리 로버츠(Larry Roberts, 1963, 1st thesis of Computer Vision)의 연구에서 나왔습니다. 컴퓨터가 이미지를 어떻게 처리하게끔 하겠는가 등을 연구했습니다. 그리고 1966년, 패턴 인식의 시발점이 나타납니다. MIT에서 여름 동안 컴퓨터가 패턴인식(pattern recognition)을 할 수 있게끔 하려고 연구를 시작했습니다. 처음에는 이들도 그리 어렵게 생각하지는 않았습니다. 여름 내에 끝낼 수 있을 것이라 생각했지요.

 

 

 

MIT의 시각 시스템의 기본 구축을 위한 프로젝트. 여름 인력들을 이용해 금방 끝낼 것이라 예단했지요.. 허허...

 

 

 

그러나 저때 시작한 연구가 지금 2021년까지 완벽하게 되었다고 볼 수 없습니다. 지금도 패턴 인식 등을 포함한 시각 비전은 연구가 활발한 분야지요.

 

 

David Marr, 1970s

 

 

이 책은 컴퓨터가 이미지를 인지하게 하기 위해서는 우리가 물체를 인지하는 방법 말고 다른 방식으로 접근해야 함을 말하며 접근 방법을 제시합니다. 그리고 이때부터 다양한 책과 연구들, 유의미한 성과들이 나오기 시작했습니다.

 

 

 

 

92년에는 Edge detection, 97년에는 NormalizedCut(Shi&Malik,1997), 79년에는 Generalized Cylinder, 73년에는 Pictorial Structure 등 이미지를 이해하기 위한 다양한 노력들과 결과들입니다. 그리고 1999년도에 드디어 꽤나 성공적으로 물체 인식에 성공했습니다.

 

 

 

 

 

물체 인식 너머

사람들은 단순 물체 인식을 넘어 컨텍스트, 맥락에 관심을 가지기 시작했습니다.

 

 

다양한 연구 기법들

 

 

현재 스마트폰에 기본적으로 탑재되어 있는 얼굴 인식은 2001년에 처음 나왔고 2006년에 후지 카메라에 적용되었습니다. 이 또한 사람을 넘어 사람의 특별한 부분을 인식하는 맥락적 연구이지요.

 

 

 

 

 

뇌과학에서는?

컴퓨터 쪽에서만 시각을 연구했나 하면 또 아닙니다. 인간의 인지과정 역시 수많은 연구가 이뤄졌습니다. 인간의 인지과정에서는 컨텍스트, 즉 맥락적 정보가 중요하다는 것을 알려준 연구가 있습니다.

 

 

좌. 실제 세상이랑 비슷한 콘텍스트 바탕 우. 무작위적 배열.  정보 파악에 있어서 속도가 다르다.

 

 

좌측은 하나의 사진, 우측은 사진을 잘라 무작위로 재배열한 사진입니다. 좌우 둘 다 자전거가 어디 있는지 알 수 있지만 발견하는 속도가 확연히 다릅니다. 조명 등 다른 물체들도 마찬가지입니다. 위 연구 말고도 인간의 시각 능력을 알아보기 위한 여러 연구들이 있었습니다. 아래 gif에서 결혼식 사진을 찾아보세요.

 

 

 

RapidSerialVisualPerception(RSVP), 출처:mollylab-1.mit.edu/sites/default/files/images/CSTM_Demo3.gif

 

 

이 연구에서는 사람들에게 위와 같이 빠르게 지나가는 사진을 여럿 보여주고 특정 알파벳이 있었는가? 결혼 사진이 있었는가? 등을 물어봤습니다. 이 실험에서 연구자들은 인간이 시각 정보를 얼마나 빨리 처리할 수 있는지를 알고자 했습니다. 그리고 생각보다 엄청난 결과를 얻었고 속독하는 학원이나 앱들도 보통 이 이론을 바탕으로 합니다. 이로 인해 후속 연구도 많이 이뤄졌고 다음은 한 예입니다.

 

 

 

 

 

이 실험은 단순했습니다. 피실험자들에게 위와 같이 사진을 빠르게 보여주고 동물인지 아닌지만을 대답하게끔 했습니다. 결과는 인간은 0.15초만 있으면 판단할 수 있다는 것입니다. 즉 1초에 6장까지는 아주 빠르게 처리할 수 있다는 뜻입니다. 물론 대답까지 행동으로 오는 데 시간이 좀 걸릴 수 있지만 뇌파를 분석한 결과, 뇌에서 이해하고 해석하는 데까지는 엄청 빠르다는 것을 보여주었습니다. 다른 연구들은 인간의 시각에 대해 어떤 결과들을 보여줬을까요?

 

 

 

 

복잡한 씬을 처리할수록 뇌가 더 열심히 일하더라. scrambled한 후에도 처리한다.

 

 

위 연구는 원본 사진과 섞여진(scrambled) 사진을 보고 사람이 인식할 수 있는지, 뇌가 어디가 어떻게 활성화되는지를 알아본 실험입니다. 여기서는 주요한 두 결과가 있습니다.

첫 번째는 우측으로 갈수록, 복잡한 사진일수록 사진을 이해하는 데 뇌를 많이 사용한다는 것입니다.

두 번째는 섞여진 사진의 경우 단순한 사진일수록 무엇인지 이해하기 더 쉽다는 것입니다. 사람의 얼굴이 섞여진 사진의 경우 눈, 코, 입 등을 파악하여 저것은 사람을 섞어놓은 것이구나를 알 수 있었으나 오른쪽으로 갈수록 어려움을 느꼈습니다.

즉 우리 뇌는 texture 같은 로우 레벨 picture에 많은 영향을 받는다는 것을 알았습니다. 이로 인해 사람들은 AI에도 Object Recognition에 많은 연구를 해야 한다고 생각했습니다.

 

 

이뤄진 다양한 연구들

 

 

 

언어에서 뇌를 추론하다

위와 같은 시각을 기본으로 한 연구 말고도, 인간의 뇌를 알기 위한 연구는 다양하게 이뤄졌습니다. 세상은 수많은 물질들로 구성되어 있고 우리는 이를 언어로 표현합니다. 그리고 사람들은 세상을 명확히 이해하기 위해, 수평적, 수직적 계층 구조를 만들어 단어간의 관계를 파악해야겠다고 생각했습니다. 바로 워드넷이라는 연구입니다. 80년대 중반에 시작해 단어들의 관계를 지금의 딥러닝이 아닌, 사람이 일일이 손으로 직접 계층관계를 구분해 만든 유일한 연구입니다.

단어의 계층화를 위한 노력들

 

 

 

컴퓨터 비전의 검증

우리는 지금껏 인간의 뇌를 알기 위한 노력을 봐왔습니다. 컴퓨터 비전의 역사에 대한 얘기를 하는데 주제에 약간 벗어난 느낌이었지요? 왜 이 얘기를 했을까요? 바로 컴퓨터 비전의 목표는 단순 물체 인식을 넘어 인간의 인지를 따라가는 것이 목표이기 때문입니다. 이미지넷은 워드넷 분류 체계에 따라 조직화한 이미지데이터 베이스입니다. 이 이미지를 기반으로 AI를 테스트해서 인간과 비슷한 결과가 나온다면 그 AI는 인간과 비슷하다고 할 수 있겠지요.

 

 

이번에는 데이터셋 자체에 초점을 맞춰보자. 워드넷 기반의 이미지넷

 

 

Top-5 Accuracy라고 있습니다. 컴퓨터에 이미지를 집어넣고 컴퓨터는 해당 사진이 무엇인지 답을 하면 됩니다. 컴퓨터는 알고리즘을 이용해 정답을 5개까지 말하고 그 안에 답이 있으면 해당 테스트를 통과했다고 하는 것이지요. 이 테스트는 이미지 인식 테스트에서 중요한 지표로 활용되어 왔습니다. 반 세기가 넘는 연구가 진행되어왔음에도 2010년, 11년에는 정확도가 72%, 74%밖에 안 되었지요. 그런데 2012년도부터 갑자기 정확도가 향상됩니다. 딥러닝의 출현입니다. 이는 급기야 2015년에 인간의 정확도를 뛰어넘기에 이릅니다.

 

 

2012년 CNN 등장 이후 갑작스런 정확도 향상이 이뤄졌다.(0.28은 28%의 실패율을 나타내는 것이다)

 

 

 

그렇다고 2012년 전에는 딥러닝이 없었는가 하면 그건 또 아닙니다. 과거에도 딥러닝 관련 연구를 했으며 주목할 만한 성과도 냈었습니다. 다만 글자 한정이었습니다.

 

 

 

 

 

딥러닝의 시대

이후 딥러닝의 시대가 열렸습니다.

 

 

2011년까지는 HoG 등을 어떻게 잘 뽑을 것이냐로 보았습니다. 컨벤셔널과 딥러닝이 나뉜 순간입니다.
컴퓨터 비전과 패턴 인식 컨퍼런스(CVPR, Conference on Computer Vision and Pattern Recognition)에 나왔던 논문 주제수 비교. 과거엔 Low/Mid Level Vision 관련 주제가 많았다면 지금은 압도적으로 Object Recognition이 많습니다. 지금은 더 큰 격차를 내고 있습니다.

 

 

 

 

 

 

 

그렇다면 어떻게 이게 가능하게 되었을까요? 과거에도 기술이 있었음에도 말이죠. 바로 컴퓨팅 파워의 향상, 알고리즘의 향상, 데이터셋의 집적이 그 원동력입니다.

 

 

 

 

 

 

 

 

 

2012년 이후, 알파고 이후 AI의 성장과 함께 각종 AI 컨퍼런스의 수는 매해 증가하고 있고 티켓팅은 더더욱 어려워졌습니다. 국제 컴퓨터 비전 학회(ICCV, International Conference on Computer Vision, CRPV와 양대산맥) 참가자는 매해 2배씩 증가하고 있습니다. 2018년 컴퓨터 과학의 노벨상인 튜링상 또한 딥러닝 기여자들에게 돌아갔습니다.

 

 

 

 

딥러닝의 한계

 

 

 

 

2015년에 이미 물체 인식에 있어선 사람의 한계를 뛰어 넘은 컴퓨터 비전도 아직 한계는 있습니다. 그리고 인간의 시각 능력이 결코 떨어지는 것도 아닙니다. 오른쪽은 인간의 시력을 보여주는 한 예시입니다. 오른쪽 글은 한 사람에게 왼쪽의 사진을 0.5초 동안만 보여주고 설명해보라 했을 때 들은 대답입니다.

 

 

 

오바마가 체중계에 장난 치는 사진

 

 

우리는 여러 정보를 종합해 이 사진이 재미있다고 파악합니다. 대통령이라는 무거운 자리에 앉은 오바마가 체중계 위에 발을 얹은 아이러니한 상황과 뒤의 다른 사람들은 웃고 있는 사실을 보고 이 사진을 재미있다고 인식하는데 아직 딥러닝은 그런 수준에 이르지 못했습니다. 인공지능이 분명 인간을 뛰어넘기는 하였지만 아직 인간만이 할 수 있는, 인간이기에 웃을 수 있다는 점이 우리를 인간답게 만드는 것 같습니다.

반응형

+ Recent posts