인공지능과 딥러닝

과학 2018. 3. 14. 19:45

- 인간의 사고가 프로그램으로 실현된다는 사고방식은 확실히 무언가 신성한 것을 범하고 있다는 생각을 들게 한다. 인간이라고 하는 귀중한 존재가 단순계산으로 바뀌는 것이 가능하다는 것은 갑자기 믿기 어려운 일일 수도 있다. 실제로 저명한 과학자들 중에서도 이런 생각을 부정하고 있는 사람이 많다. 예를 들면 이론물리학자 스티븐 호킹과 함께 블랙홀 연구를 한 것으로 유명한 수학자 로저 펜로즈는 그의 저서 '황제의 새로운 마음'에서 뇌 속에 있는 미세한 관에 양자현상(직관적으로는 이해가 어려운 물리현상)이 발생하고 있어서, 그것이 의식에 연결된다고 주장. 또한 철학자 휴버트 드레이퍼스는 '컴퓨터는 무엇을 할 수 없는가'라는 책을 통해 인공지능의 실현을 계속해서 부정하고 있다. 고명한 과학자조차 그러한 시각의 비합리적인 이론을 꺼내서 인간의 특수성을 설명하려고 할 정도이니 역시 인간만이 특별한 존재라는 것은 누구나 그렇게 바라고 싶은 것인지도 모른다. 인간을 특별하게 간주하고 싶은 기분도 이해하지만 뇌의 기능이나 그 계산의 알고리즘과의 대응을 하나하나 냉정하게 생각해 가다보면, 인간의 지능은 원리적으로는 모두 컴퓨터로 실현될 것이라는 것이 과학적으로는 타당한 예상이다. 그리고 인공지능은 본래 그 실현을 목표로 삼고 있는 분야이다.
- 탐색트리를 탐색하는 방법은 주도 두가지가 존재하는데, 그중 첫번째는 어쨌든 갈 수 있는 곳까지 계속 파고들이 안되면 다음 갈래로 옮겨가는 깊이우선 탐색이 있고, 또 다른 하나는 같은 계층을 이 잡듯이 조사한 후, 다음 계층으로 나아가는 너비우선 탐색이 있다. 너비우선 탐색이라면 골까지 최단거리로 도착하는 답을 반드시 찾지만, 가는 중의 노드를 전부 기억해 두어야 하므로 메모리가 많이 필요로 함. 복잡한 미로가 된다면 기억량이 방대해져서 컴퓨터의 기억능력이 따라잡지 못할수도 있다. 한편 깊이우선 탐색은 반드시 최단의 답을 처음부터 찾게 되는 것은 아니지만, 막히면 한걸음 되돌아가 다음 갈래에서 진행하면 되므로 메모리는 그다지 필요하지 않다. 운이 좋으면 빠르게 답을 찾지만 운이 나쁘면 시간이 걸린다. 둘 중 어느쪽이라도 일장일단이 있다.
- 오셀로라는 게임은 8*8의 반상에 말이 흑백이고, 뒤집기가 존재하여 약 10의 60승이 된다. 8*8의 반상에 흑말과 백말이 각각 6종류인 체스는 약 10의 120승, 9*9의 반상에서 말이 8종류씩 말을 사용하는 장기는 약 10의 220승, 19*19의 반상에 말이 흑돌과 백돌인 바둑은 약 10이 360승이다. 즉 경우의 수로만 말하면 오셀로가 가장 간단하고, 체스, 장기, 바둑의 순서. 관측가능한 우주전체 수소원자의 수가 약 10의 80승개라고 알려져 있다.
- 온톨로지 연구에 의해 지식을 적절하게 기술하는 것이 얼마나 어려운 것이 밝혀지면서 크게 2개의 유파가 생겨남. 지식을 기술하기 위한 방법에 대해 인간이 적극적으로 개입하여 정확한 상호관계를 찾는 것을 고민하는 것이 헤비웨이트 온톨로지파라고 불리는 입장이며, 컴퓨터에 데이터를 읽게 해서 자동으로 개념간의 관계성을 찾자는 것이 라이트웨이트 온톨로지 파. 라이트웨이트 온톨로지파는 완전히 정확한 것이 아니어도 사용할 수 있는 것이라면 상관없다는 식의 다소 뜨뜻미지근한 입장이었지만 현실적 접근법이었다. 그 때문에 웹데이터를 해석해서 지식을 꺼내는 웹마이닝이나, 빅데이터를 분석해서 지식을 꺼내는 데이터 마이닝과 궁합이 잘 맞았다. 예를 들어 온라인 백과사전 위키피디아의 어느 페이지에 링크가 붙여지고 있는지를 통계저긍로 처리하고 그것을 개념끼리의 관계성으로 나타낼 수 있다.
- 제2차 AI붐에서는 지식을 많이 받아들일수록 그만큼 행동할 수는 있었지만 기본적으로 입력한 지식 이상의 것을 할 수 없었다. 그리고 입력하는 지식이 보다 실용적이어야 하고, 예외에도 대응할 수 있도록 만들려면 방대해져서 언제까지나 입력(기억)시킬 수는 없었다. 근본적으로 기호화 그것이 가리키는 의미가 결부되지 않았고, 컴퓨커가 의미를 취급하는 것은 상당히 어려웠다. 이러한 폐쇄감 속에 차근차근 힘을 키워온 것이 기계학습이라는 기술이며, 그 배경에는 문자식별 등의 패턴인식 분야에서 오랜 세월 축적되어 온 기반기술과 증가하는 데이터의 존재가 있었다. 웹에 처음으로 페이지가 생긴 것이 90년, 초기에 유명 브라우저 모자이크가를 할 수 있었던 것이 93년 이었다. 구글의 검색엔진을 사용할 수 있었던 것이 98년이고, 고객의 구매데이터나 의료데이터 등의 데이터마이닝 연구가 왕성하고 국제적 학회를 열었던 것이 같은 해인 98년이다. 특히 인터넷 상에 있는 웹페이지의 존재는 강렬해서 웹페이지의 텍스트를 다루는 거이 가능한 자연어처리와 기계학습 연구가 크게 발전.
- 서로 답하기를 해서 틀릴 때마다 가중치의 조정을 되풀이하고 인식의 정밀도를 올려가는 대표적인 학습법을 오차역전파라고 말한다. 이것을 조정하기 위해서는 우선 전체의 오차가 적어지게 기울기값을 잡는다. 기울기값을 잡는다는 것은 결국 어떤 하나의 가중치를 크게 하면 오차가 줄어드는지, 작게 하면 오차가 줄어드는지를 계산한다는 것. 그리고 오차가 작아지는 방향에, 8만개의 가중치 각각에 미세한 조정을 해간다.
- 지금까지 이미지 인식이라는 태스크에서 기계학습을 이용하는 것은 상식이었지만, 기계학습에서 사용특징의 설계는 인간의 일이었다. 각 대학, 연구기관은 소수점 이하 몇 %의 정밀도로 에러율을 낮추기 위해 맹렬히 싸우고, 그 때문에 이미지 안에 이러저러한 특징에 주목하면 에러율이 낮아지지는 않을까라는 시행착오를 거듭해왔다. 기계학습이라 해도 특징의 설계는 오랜 지식과 경험이 말하는 장인기법이다. 장인기법에 의해 기계학습의 알고리즘과 특징의 설계가 조금씩 진행되면서 1년 공들여 1% 에러율이 떨어지는 세계이다.
- 자연어 처리에서도, 검색에서도 인공지능 기술을 이용해서 마지막으로 소수점이하 몇% 라는 성ㄴ으의 승부단계가 되면 반드시 장인기법(휴리스틱)의 덩어리로 되어 온다. 즉 연구로서는 별로 재미없는 곳이기도 함. 사실은 시리와 같은 음성대화 시스템도, 왓슨과 같은 질문응답 시스템도 대부분 이 단계에 들어 있고, 연구자로서는 해도 좋지만 힘든 것에 비해 별로 미래가 없다는 생각이 들게 한다. 그 분야에서 조금씩 성능을 올려가기 위해서는 까마득한 노력이 요구됨. 그런데 12년 처음으로 참가한 토론토 대학에서 다른 인공지능과 10포인트 이상 차이를 벌려 에러율 15%대를 만들어냄. 문자 그대로 다른 참가자들에 비해 월등했다. 이것은 오랜 세월 이미지 인식 연구를 진행시켜 온 다른 연구자들을 혼비백산하게 했다. 무엇이 토론토대학에 승리를 안겼을까? 그 승리의 원인은 같은 대학교수 제프리 힌톤이 중심이 되어 개발한 새로운 기계학습방법(딥러닝)이었다.
- 딥러닝은 데이터를 바탕으로 컴퓨터가 스스로 특징을 만들어 낸다. 인간이 특징을 설계하는 것이 아니고 컴퓨터가 스스로 높은 차원인 특징을 획득하고, 그것을 바탕으로 이미지를 분류할 수 있게 된다. 딥러닝으로 인해 지금까지 인간이 관여해야만 했던 영역에 인공지능이 깊이 파고들 수 있게 된 것. 인공지능 연구에 있어 50년간의 혁신이라 불릴만함. 좀더 정확하게는 인공지능의 주요 성과가 대부분 인공지능의 여명기, 즉 56년부터 최초의 10년 내지는 20년 사이에 태어났다고 본다. 그 후 몇가지 큰 발명은 있었지만, 발전 방향에 대해 말한다면 마이너 체인지였다. 그러나 딥러닝에 대표되는 특징표현 학습은 여명기의 혁신적 발명, 발견에 필적할만한 대발명이다. 컴퓨터 스스로 특징표현을 만들어내는 것은 그 자체만으로 큰 비약인 것이다. 한편 통상적으로 딥러닝은 표현학습의 하나로 여겨지지만 이 책에서 표현이라는 단어를 알기 쉽게 하기 위해 특징표현 학습이라고 부른다. 그렇다고 딥러닝에 의해 인공지능이 실현된다는 것은 지나치게 간단히 관련지우는 것이고, 지금의 딥러닝은 모자란 부분이 많음. 이것 또한 기술의 가능성을 잘못 보고 있는 것이다. 딥러인은 인공지능 분야에서 지금가지 풀리지 않은 특징표현을 컴퓨터 스스로가 획득한다는 문제에 하나의 답을 제시했다. 즉 커다란 벽에 하나의 구멍을 뚫었다.
- 인간의 뇌는 겹친 구조를 하고 있어서 뉴럴 네트워크 연구 초기부터 깊은 층의 뉴럴네트워크를 만드는 것을 당연한 시도로 생각했지만 아무리 노력해도 잘 되지 않았다. 3층의 뉴럴네트워크라면 잘 될 것이기 때문에 4층, 5층으로 하면 더 좋아질 것이라고(실제로 은닉층의 뉴런수를 일정하게 하면 층을 거듭한 만큼 자유도는 올라가고, 뉴럴네트워크로 표현할 수 있는 함수의 종류는 층을 거듭하면 포갠만큼 늘어난다) 여겼는데 정작 해보면 그렇게 되지 않고, 정밀도도 오르지 않는 것이다. 왜냐하면 깊은 층에는 오차반대전파가 아래쪽까지 도달하지 않기 때문. 상사의 판단이 좋았던 것인가, 아닌가에서 부하와의 관계를 강화할지 약화시킬지 수정한다. 이 계층을 차례로 내려가면서 진행해 나가면 된다는 것이 오차반대전파였지만 조직의 계층이 지나치게 깊어지면 맨 위의 상사 판단이 좋았는지, 나빴느지라는 것이 말단의 종업원에 도달할 때는 대부분 영향이 제로가 되어버리는 것이다. 그런데 딥러닝은 그 다층의 뉴럴네트워크를 실현했다. 어떻게 실현한 것일까? 딥러닝이 종래의 기계학습과는 다른 점이 크게 두가지가 있다. 하나는 한층씩 계층마다 학습해 가는 점, 또 하나는 오토 인코더라는 정보압축기를 사용했다는 점이다. 오토인코더에서는 조금 바뀐 처리를 하는데, 뉴럴 네트워크를 만들기 위해서는 정답을 주어서 학습시키는 학습 페이즈가 필요했다. 예를 들면 손으로 쓴 3이라는 이미지를 보여주면 정답 데이터로서 3을 준다. 그런데 오토인코더에서는 출력과 입력을 같이 한다. 손글씨 3의 이미지를 입력하고 정답도 같은 손글씨 3의 이미지로 서로 답하기를 하는 것이다. 손글씨3의 이미지를 입력하고 이것이 3입니다라고 가르치는 것이 아니고, 손글씨3의 이미지를 입력하고 정답은 같은 손글씨3의 이미지라고 가르치는 것. 통상적으로 생각하면 의미는 없다. 실업가 제프 호킨스는 그의 저서 '생각하는 뇌 생각하는 컴퓨터'에서 딥러닝이 되기 전에 이 방식을 예상하고 있었으며, 오토인코더는 야채가게에서 새로운 바나나를 살 때에 썩은 바나나로 지불하는 것과 같은 것 혹은 은행에 가서 너덜너덜한 100불짜리 지폐를 100불짜리 새 지폐로 교환하느 것이라 말하고 있다.
- 2012년에 구글의 연구자들이 발표해 유명해진 구글의 고양인 인식 연구는 다음과 같다. 손으로 쓴 문자를 입력하는 것이 아니라 유튜브 동영상에서 천만장의 이미지를 꺼내서 그것을 입력. 일반적인 이미지를 다루므로 당연히 손으로 쓴 문자의 경우보다 힘들고, 이용하는 뉴럴네트워크는 보다 거대해짐. 아래층에서는 점이나 엣지 등의 이미지에 자주 검출되는 모양을 인식하는 것뿐이지만 위로 가면서 원이나 삼각형 등의 모형을 인식할 수 있다. 그리고 그것들을 조합해서 둥근형(얼굴) 속에 2개의 점(눈)이 있고, 그 한복판에 세로로 한줄기(코) 복잡한 부품을 조합시킨 특징을 얻는다. 그 결과 위의 층에서는 인간의 얼굴 같기도 하고 고양이 얼굴 같은 것이 나온다. 즉 유튜브로부터 꺼낸 이미지를 대량으로 보여주고 딥러닝에 걸면 컴퓨터가 특징을 꺼내고 자동적으로 인간의 얼굴이나 고양이의 얼굴이라는 개념을 획득하는 것이다. 컴퓨터가 개념(시니피에, 의미되는 것)을 자력으로 만들어낼 수 있으면, 그 단계에서 이것은 인간이다, 이것은 고양이다라는 기호 표현(시니피앙, 의미하는 것)을 적용시키는 것만으로도 스스로 시니피앙과 시니피에가 조합된 기호를 습득한다. 여기까지 오면 그 후에는 인간이나 고양이의 이미지를 보는 것만으로 이것은 인간이다 또는 이것은 고양이다라고 판단가능. 단 이 연구에서는 천만장의 이미지를 다루기 위해서 뉴런끼리의 관계의 수가 100억개라는 거대한 뉴럴네트워크를 사용하고 1000대의 컴퓨터(1만 6000개의 프로세서)를 3일간이나 가동했을 정도로 방대한 계산량을 필요로 했다.
- 딥러닝의 등장은 적어도 이미지나 음성이라는 분야에 있어서 데이터를 바탕으로 무엇을 특징표현해야 할까를 컴퓨터가 자동적으로 획득할 수 있다는 가능성을 나타내고 있다. 간단한 특징을 컴퓨터가 스스로 찾아내고 그것을 바탕으로 높은 차원의 특징을 찾아낸다. 그 특징을 사용해서 나타나는 개념을 획득하고, 그 개념을 사용해서 지식을 기술한다는 인공지능의 최대 난관에 하나의 길이 제시된 것이다. 물론 대상은 이미지나 음성만이 아니기 때문에 이것만으로 모든 상황에 있어서 특징표현의 문제가 해결되었다고는 생각하지 않는다. 그러나 지극히 중요한 하나의 브레이크스루를 주고 있는 것은 틀림없다.
- 딥러닝은 특징표현 학습의 한 종류인데, 그 의의와 평가에 대해서는 전문가들 사이에서도 크게 두가지 의견으로 나뉨. 첫번째는 기계학습의 하나의 발명에 지나지 않고 일시적 유행에 머물 가능성이 높다는 입장. 이것은 기계학습 전문가에게 흔한 사고방식이다. 두번째는 특징표현을 획득할 수 있는 일은 본질적인 인공지능의 한계를 돌파할 가능성이 있다는 입장이다. 이쪽은 기계학습보다도 좀더 넓은 범위를 다루는 인공지능 전문가들에게 많이 인식되고 있다.
- 기업의 조직구조도 추상화라는 관점에서 보면 특징표현의 계층구조와 가깝다. 아래 계층사람들은 현장을 보고 있고, 위로 가면 추상도가 오르는데, 맨 위에서는 가장 대국적인 정보를 보고 있다. 이것이 위아래로 제휴를 취하면서 조직으로서의 정확한 인식 및 그것에 근거하는 판단을 하고 있는 것이다. 뇌 속에서 행해지는 혹은 딥러닝이 가고 있는 추상화는 부호화(인코딩)와 복호화(디코딩)로 실현하고 있다. 그것과 통신, 즉 다른 주체가 정보를 교환하는 것은 본질적으로 지극히 가깝다. 그 때문에 조직내에서 교환(통신)을 함으로써 조직 자체가 뇌와 같은 추상화의 기구를 가진다는 것도 이상하지 않다. 인지심리학자 제럴드 에델만은 뇌 속에도 종(씨앗)의 진화와 같은 선택과 도태의 메커니즘이 작용하고 있다. 우리가 사는 이 세계에서 복잡한 문제를 푸는 방법은 선택과 도태, 즉 유전적 진화의 알고리즘밖에 없는 것인지도 모른다. 뛰어난 것은 변화를 남기고 뒤떨어진 것은 도태된다. 인간의 뇌 속에서도 예측이라는 목적으로 도움이 되는 뉴런의 한 무리는 남고, 그렇지 않은 것은 사라져가는 구조가 있는 것은 아닐까?

 

'과학' 카테고리의 다른 글

일렉트릭 유니버스  (0) 2018.05.06
지능의 탄생  (0) 2018.03.18
인공지능 인간을 유혹하다  (0) 2018.03.14
인간 vs 기계  (0) 2018.03.10
통계학, 빅데이터를 잡다  (0) 2018.01.06
Posted by dalai
,