프레디쿠스

IT 2020. 2. 17. 12:08

- 인공지능이라는 멋진 단어는 56년도 다트머스 회의에서 처음 등장했고, 이름에 걸맞은 연구도 이때부터 본격적으로 시작되었음. 당시 학자들은 체스를 두는 기계나 미로찾기 알고리즘 같은 것을 구현하기 위해 총력을 쏟아부었다. 초기에는 기호주의 혹은 규칙기반이란 방법론을 통하여 어느 정도 성공을 거두었다. 그러나 단순하게 외부에서 규칙을 컴퓨터에게 주입하는 방식으로 인간의 지능을 모방한다는 것은 현실적으로 불가능하다는 것이 드러났다. 이런 상황에서 인간의 기존지식을 잘 활용하여 지식을 추론할 수 있는 전문가 시스템이 등장하기도 했다. 한편 인간의 신경망을 모방하는 퍼셉트론이라는 인공신경망 컴퓨터가 57년도에 등장. 인공신경망은 기계가 학습한다는 의미의 머신러닝이라는 개념을 탄생시켰다. 머신러닝은 전통적 규칙기만 방법론과 함께 인공지능 연구의 양대 축으로 발전. 인공지능을 만들기 위하여 위 두가지 방법론은 서로 치열하게 대립하면서 나름의 역사를 만들어갔지만 결국 각자의 기술적 문제를 완전히 해결하지 못하고 90년대 이후 패망의 길로 들어선다 그런데 06년도 딥러닝이라는 것이 갑자기 등장하여 인공지능이 화려하게 부활하였다. 딥러닝은 인공신경망이 진화발전된 것이며 특별히 새로운 것이 아니다.
- 인공지능 연구자들은 우리가 아는 모든 것을 컴퓨터에 이식하면 컴퓨터가 지능을 갖고 인간처럼 생각할 수 있다고 생각했다. 언뜻 보면 이런 발상은 지극히 합리적이고 그럴듯하다. 데이터를 정리하고 검색하고 세금을 정산하고 비행 스케줄을 최적화하고 심지어 자동차를 만드는 작업까지 컴퓨터는 인간보다 월등히 뛰어난 성능을 자랑한다. 비록 지루하고 고통스러운 프로그래밍 작업이 선행되지만 어쨌든 컴퓨터는 잘 작동한다. 그런데 문제는 언어나 추론 같은 인간의 고등한 지능을 컴퓨터로 구현하자니 무한한 비용과 시간이 들어간다는 것이다. 더 심각한 것은 보고 듣고 움직이는 인간의 아주 기본적인 지능의 활동은 애초 그 규칙을 말로 설명할 수 없다는 것이다. 이것이 바로 널리 회자되는 폴라니의 역설이다. 66년 마이클 폴라니는인간의 인지특징을 "우리는 말할 수 있는 것보다 더 많이 안다"라고 요약하면서, 말로 설명할 수 없는 암묵지가 우리 지식의 대부분을 차지한다고 보았다. 예를 들어 우리는 반복학습을 통해 자전거를 타는 법을 터득한다. 그러나 타는 법을 모두 말로 설명할 수는 없다. 개와 고양이를 구별하는 것도 마찬가지다. 어떤 식으로 구별하는지 설명하기는 어렵지만 보면 안다. 이런 지식이나 지능은 말로 도두 설명할 수 없기 때문에 규칙이나 논리로 변형해서 프로그래밍하는 것이 불가능하다. 폴라니의 역설은 인간을 묘사하는 것이지만 '기계가 인간을 모방할 수 없다'는 이유가 되었다. 세상이 모두 놀란 알파고의 등장은 딥러닝이 폴라니의 역설을 돌파했다는 상징을 의미를 가지고 있다. 우리 인간이 암묵지의 형태로 지식을 흡수하면서 지능이 향상하듯이 이제 컴퓨터는 데이터를 통해서 스스로 학습을 하면서 세상의 규칙을 이해할 수 있다. 인간의 모든 규칙을 손수 컴퓨터에 가르치는 성가신 작업이 사라지는 순간이다. 아기가 말문이 처진 것처럼 딥러닝은 이제 알아서 암묵지를 형성해 나간다
- 예측적 지각 : 우리 시각 시스템은 과거의 정보를 바탕으로 0.1초 이후의 상황을 예측하여 미리 예상 이미지를 생성하는 방향으로 진화했음. (인지과학자 마크 창기지)
- 소송 전에 방대한 문서를 분석해야 하는 인간의 수작업 업무는 컴퓨터와 분석기술에 의해 조금씩 대체되고 있다. 전자증거개시제도가 도입되는 시기에 이미 블랙스톤 디스커버리같은 회사가 등장했고, 예츠코딩기술이 퍼지면서 관련 산업이 활성화됐다. 예측코딩 산업의 대표주자로 떠오른 에버로라는 회사 변호사가 원하는 대로 방대한 문서를 검색하고 관련문서를 추출해준다. 광범위한 사용자 제어 기능을 통해 변호사 및 법률 종사자는 검색결과를 60%, 75% 등 사용자가 지정한 예측률 범위내로 설정하여 검토할 수 있다. 에버로 사용자는 최종검색결과를 바탕으로 사용자가 직접 2차 검수한 문서를 바탕으로 검색범위를 좁히거나 확장시킬 수 있다. 한편, 예측기반 법률 시스템은 자료검색과 분류에 탁월한 예측코딩과는 달리 자료분석보다는 예측에 무게중심을 둔다. 예측기반도 본질적으로는 데이터 분석을 기반으로 하기 때문에 전통적인 데이터 마이닝 기술에 의존한다. 이 분야의 대표회사는 렉스 마키나다. 이 회사는 09년 설립됐는데, 데이터 마이닝을 기반으로 법률과 판례추이 등을 분석해 어떻게 판결이 날지를 예측하며 세심한 소송전략을 제시해준다. 또한 연방법원 판사들을 모두 분석해서 사건 경험, 평균소요시간, 관련 사건의 기각률, 손해배상 인용액 등의 자세한 판사비교표를 제공하고 있다. 렉스 마키나의 예측 분석 시스템이 큰 성공을 거둔 후 유사한 예측 시스템이 많이 등장했다. 주목할 만한 것은 송무와 괄년한 예측분석을 넘어 법률 자체를 예측하는 서비스 모델의 탄생이다. 미국의 피스컬노트라는 회사는 예측분석 기법을 입법으로 확장했다. 이 회사의 핵심 서비스는 연방정부와 50개주에서 발의된 법안을 추적하고 법안 통과가능성을 예측해주는 것이다. 온라인 인상에서 미국 연방정부 법과 50개주 법안, 그리고 법안을 만드는 데 참여한 상하원 의원들과 통과 여부를 확률로 보여준다. 입법 예측은 예측 법률세계에서 예측 본연의 개념에 가장 근접하고 있다.
- 17년 구글의 인공지능 챗봇 2대가 서로 대화를 하면서 수다를 떠는 모습이 실시간 방송됐다. 두 챗봇은 각각 블라디미르와 에스트라공이라는 이름표가 붙어 있다. 아일랜드 출신 극작가 사무엘 베케트의 희곡 고도를 기다리며에 등장하는 주인공들의 이름을 따서 만든 재치있는 별명이다.
- 기호주의 혹은 규칙기반 인공지응은 세상의 모든 것을 인간이 직접 기호화하거나 규칙으로 표현해야 하기 때문에 비용과 시간의 측면에서 근본적 한계를 지니고 있다. 이런 문제를 극복하기 위해 데이터를 통해 학습하는 인공신경망 같은 학습기반 혹은 연결주의 방식의 머신러닝 연구도 물밑에서 활발하게 진행됐다. 그러나 이런 도전들도 역시 기술적 벽을 넘지 못하고 2차 인공지능 겨울과 함께 시들해짐. 튜링 이후 인공지능에 대한 인류의 꿈은 이렇게 하나의 추억으로 사라졌다가 딥러닝이라는 이름으로 부활하고 있는 것이다. 우리가 보는 지금의 인공지능은 오랫동안 축적된 연구결과를 바탕으로 하는 것이며 특별히 새로운 것은 아니다.
- 법률은 의료분야와 함께 대표적인 전문지식 영역에 속한다. 두 종류의 전문가 시스템(규칙기반과 사례기반)의 형식을 잘 살펴보면 놀랍게도 법률세계와 궁합이 잘 맞는다는 것을 알 수 있다. 먼저 법률의 형식과 내용을 보면 그 자체로 이미 규칙으로 표현된 텍스트다. 민법, 형법, 저작권법 같은 법률은 개개의 논리와 체계를 가지고 있으며 엄격한 법적 규칙을 담고 있다. 법률은 그 자체가 컴퓨터 프로그래밍 코드처럼 작동하며 법적 분쟁해결과정도 법률을 기초로 하여 정교한 논리 추론 형식으로 진행된다. 법률가들은 이런 규칙덩어리를 갖고 그 규칙에 따라 연역적 추론을 하는 것처럼 보인다. 이런 이유로 학자들은 일찍부터 법률세계를 주목하면서 규칙기반 법률 시스템 연구를 시작했다. 그런데 법률가들은 법률규칙에 따라 컴퓨터 알고리즘처럼 추론하기도 하지만 유사한 사례를 기억에 떠올려서 귀납적으로 판단하는 경우도 있다. 이런 인지과정은 사례기반 시스템과 잘 어울린다. 결론적으로 법률세계는 규칙기반과 사례기반 모두 가능하다는 것이다. 그런데 역사적으로 보면 법률 전문가 시스템 연구는 규칙기반 시스템이 등장한 이후에 시간이 좀 더 흘러 사례기반 시스템 연구가 시작됐다. 규칙이냐 사례냐 하는 이분법은 오랫동안 대립하면서 격렬한 논쟁을 가져왔다. 법률추론이라는 것이 주로 연역의 과정이라는 관점과 법 이론을 유추하는 과정이라는 관점의 충돌이었다. 그러나 법률가의 추론은 어느 하나의 관점으로 설명할 수 없는 복합적인 면이 있다. 실제 변호사는 법률적 상담을 할 때 의뢰인이 처한 상홍을 분석하여 특징을 잡아낸 후 법률논리에 대입하게 된다. 그러나 법률용어의 추상성과 애매성 등의 이유로 규칙에 의해 일의적으로 분명하게 판단을 내릴 수 없는 경우도 많다. 이런 경우에는 과거 유사한 사례나 판례를 근거로 유추한다. 예를 들면 교통사고로 사람이 다치면 교통사고특례법, 도로교통법, 형법 등의 관련법을 잘 검토하고 조항 하나하나를 논리적으로 따지면서 추론을 한다. 그러나 변호사는 실제 처리했거나 기억 속에 있는 유사한 판례를 머릿속에서 검색하여 단번에 결론을 내기도 한다. 이런 변호사의 해결전략은 매우 일반적이다. 그러나 머릿속에 유추할 수 있는 사례가 부족하고 없다면 법률조항을 하나씩 따져가면서 법률 규칙 알고리즘을 작동시킬 수밖에 없다. 결국 변호사는 연역과 귀납을 동시에 사용하는 셈이다.
- 전문가 시스템 연구는 기존에 존재하는 지식과 인간의 상식을 모두 주입하면 인간 의사나 변호사처럼 추론하는 기계를 만들 수 있다는 믿음으로 출발했다. 그러나 예상과는 달리 전문가 시스템은 현실세계에서 인간의 능력과는 비교되지 못하며 매우 제한적으로만 작동한다. 전문가 시스템은 형식적으로 인간을 단순하게 모방한 것에 불과하며 실제 인간의 복잡한 인지과정을 그대로 반영한 것은 아님. 뇌과학이나 신경생물학 같은 학문이 고도로 발달한 지금도 우리는 뇌에 대해서 아는 것이 별로 없을 정도로 뇌는 난공불락의 세계다. 인간의 뇌를 모방해서 인공지능을 구현한다는 관점에서는 그 당시 학문 수준으로 인간처럼 추론하는 기계를 만드는 것은 애초 불가능한 도전이었는지 모른다. 또한 형식적으로나마 인간의 인지과정을 모방한다고 해도 지식을 추출하고 규칙을 입력하는 것은 결국 인간이 해야 하기 때문에 무한한 시간과 비용의 문제를 극복할 수 없다. 이것은 인공지능 구현에 학습개념이 절대적으로 필요하다는 것을 암시하고 있다. 이런저런 이유로 파이겐바움의 그 원대한 꿈은 끝이 났다. "어려운 것은 쉽고 쉬운 것은 어렵다"는 모라벡의 역설처럼 기계에게 복잡한 계산이나 연산은 쉽지만 걷고 움직이고 사물을 지각하는 것은 어려운 일이다. 사물을 보고 인식하거나 상식적인 것을 이해하는 것에는 특별한 규칙이 없어 보인다. 따라서 기계에게 어떤 규칙을 부여하는 것 자체가 너무나 애매하고 막막하다. 우리는 물, 나무, 바람 같은 것들을 상식적으로 이해하고 있으며, 그런 상식은 고도의 지능에 의존하기보다는 어린 시절에 별 생각없이 반복했던 언어훈련에서 부지불식간에 형성된 것이다. 단어의 상식적 의미나 개념은 다른 단어에 의해 논리적으로 설명되어지는 것이 아니라 우리 몸이 외부세계와 상호작용을 하는 과정에서 자연스럽게 감각적으로 체득되는 면이 있다. 따라서 몸이 없는 기계는 그런 것을 애초 가정할 수 없고 상식을 가르칠 뾰족한 방법도 없다.
- 전문가 시스템은 인간의 지식을 잘 표현하는 것이 핵심이라고 했다. 그런데 그 지식의 의미를 잡아내기 위해 또 다른 지식의 표현이 필요한데 이런 식으로 계속 연결하다 보면 상식 수준의 지식이 등장하게 된다. 그런데 이런 상식은 컴퓨터가 그 의미를 직접 잡아내지 못하므로 또 다른 지식이나 단어가 필요하고 끝없는 반복을 하게 된다. 이것은 우리가 지식을 표현하는 방법으로 추론지능을 만드는 것은 물리적으로 감당할 수 없는 작업임을 암시한다. 결국 초기의 생각하는 기계는 전문가 시스템으로 진화했지만 이런 본질적인 한계를 극복하지 못하고 머신러닝과 같은 학습기반 인공지능과 융합할 때까지 긴 정체기를 가진다. 법률 전문가 시스템도 이런 운명의 길을 걷는 것은 당연하다. 재미있는 것은 전문가 시스템이라는 개념이 등장하기 훨씬 전인 57년에 이미 컴퓨터를 이용한 법률 자동화연구가 시작되었다는 것이다. 법률의 자동화는 인공지능과 만나면서 자연스럽게 법률정보학, 법률 인공지능, 컴퓨테이션 법률학과 같은 다양한 종파들이 생겨났고 리걸테크라는 새로운 산업을 잉태하게 된다. 법률과 컴퓨터의 성공적 결합은 알고리즘과 컴퓨터를 이용하는 방법론이 세상의 모든 학문과 지식에도 적용가능함을 암시한다. 또한 '생각이 알고리즘이며 알고리즘이 곧 생각'이라는 컴퓨테이션 철학이 일종의 패러다임으로 작동하고 있다는 의미도 된다.
- 케플러 추측은 위대한 물리학자 케플러가 1611년 제안한 것으로 여러 개의 구를 가장 효율적으로 쌓는 방법은 과일가게가 오렌지를 진열하는 것과 같은 방법(피라미드식)이라는 것이다. 이 문제도 수많은 수학자가 도전했지만 일반적인 증명에 실패했고 300년이 더 지난 98년도에 와서 수학자 토마스 헤일스와 그의 제자 숀 맥러플린이 케플러 추측을 증명. 그런데 기존 방식과는 달리 증명은 컴퓨터를 이용하는 방식이었다. 헤일즈는 그들의 증명을 수학연보에 제출. 이후 12명의 수학자들이 심사위원으로 투입되어 증명의 오류를 검토하였고 4년 이상의 세월이 흘렀다. 그런데 헤일즈가 제출한 증명에는 컴퓨터 프로그래밍 파일도 있었는데, 심사위원들이 컴퓨터 프로그램 오류를 모두 검증하기 어려웠다. 최종적으로 수학연보는 증명이 참이라는 것은 99% 확신한다고 발표했다. 수학역사에서 보기 힘든 희대의 발표였다. 한편 헤일즈는 지루한 검토과정을 보면서 증명과정을 컴퓨터 알고리즘을 이용해 자동을 검토할 수 있는 프로그램을 만들기로 마음먹고 플라이스펙 프로젝트를 기획하게 된다. 이 프로젝트는 03년도에 시작하여 14년에 최종 마무리되었다. 결국 컴퓨터가 등장해서 헤일즈의 증명이 100% 참이라는 것을 증명한 것이다. 컴퓨테이션을 기반으로 증명의 증명, 소위 메타증명의 세계가 펼쳐지는 순간이었다. 이제 컴퓨테이션 수학은 이산수학처럼 컴퓨터를 위한 수학에서 나아가 수학자체를 위한 수학으로 진화하고 있다. 바야흐로 컴퓨터는 증명의 검토뿐 아니라 가설을 세우거나 증명을 하는 단계에서 인간과 협업할 준비를 하고 있다. 결론적으로 자동계산과 알고리즘을 바탕으로 하는 컴퓨테이션은 인간사고의 초절정 영역인 수학의 영역에 소리없이 침투하고 있다. 이제 컴퓨테이션은 수학과 과학을 넘어 인문학, 사회학, 예술, 법률에도 적용되면서 우리의 생각방식을 확장하고 있다. 소위 컴퓨테이셔니즘 시대가 오고 있는 것이다.
- 머신러닝에는 인공신경망 외에도 선형회귀, 로지스특회귀, 의사결정나무, 나이브베이즈, 서포트벡터머신 등 다양한 모델이 있다. 그런데 인공신경망 중에서 특별한 구조를 가지고 있는 것이 딥러닝이다. 우리는 보통 인공지능, 머신러닝, 딥러닝이라는 단어를 구별없이 사용한다. 이들은 비슷하면서도 조금씩 다른 의미를 가지고 있기 때문에 집합의 포함관계로 해석하는 것이 가장 간명하다. 즉 인공지능의 부분집합이 머신러닝이고 머신러닝의 부분집합이 딥러닝이다. 새로운 인공지능 시대를 열고 있는 딥러닝은 머신러닝의 일종이며 인공신경망의 후손인 셈이다.
- 초기의 신경망 모델인 퍼셉트론은 입력층과 출력층만을 가지는 간단한 형식이었지만 일반적으로 인공신경망은 입력층, 중간층(은닉층), 출력층 등 여러 개의 층으로 이루어진 다층 네트워크 구조를 가진다. 각층은 여러 개의 노드로 이루어져 있고 노드와 노드의 연결에 의해 전체 네트워크가 작동한다. 각 노드는 뉴런의 몸체이며 연결선은 축삭돌기이고 연결자체는 시냅스 연결을 의미한다. 정보의 전달과 연산은 실제 인간의 뉴런에서 일어나는 과정과 유사하다. 노드는 일정 크기 이상의 자극을 받으면 반응을 하는데 그 반응의 크기는 입력값과 노드 연결선의 계수(또는 가중치)를 곱한값에 비례. 일반적으로 노드는 여러 개의 입력을 받으며 입력마다 다른 계수를 가지고 있다. 이 계수가 바로 각 입력에 대한 가중치가 되며 실제 시냅스의 신호전달 가변성을 대변함. 각 노드는 들어오는 모든 입력값과 각 연결선의 가중치를 곱한 값들을 전부 더한 후 그 값을 입력값과 각 연결선의 가중치를 곱한 값들을 전부 더한 후 그 값을 최종 판결자인 활성함수의 입력으로 보낸다. 활성함수의 결과가 그 노드의 출력에 해당한다. 이런 식으로 노드는 층층이 배치되어 정보입력과 출력을 이어간다. 데이터를 입력받아서 학습한다는 것은 노드와 노드를 연결하는 연결선의 가중치를 변화시키면서 최종응답(출력)의 오류를 최소화하는 과정이다. 학습이 끝나면 이 가중치가 특정 수치로 결정된다. 인공신경망은 보통 2,3개의 중간층을 가지는 신경망 구조로도 좋은 성능을 보이며 학습도 쉽게 이루어진다. 그러나 언어지능이나 시각지능같이 복잡하고 어려운 영역에서는 중간층의 개수가 여러 개인 깊은 구조로 만들어진 네트워크가 필요하다. (다층신경망 혹은 심층신경망) 그러나 무작정 중간층(은닉층)을 많이 늘린다고 좋은 것은 아님. 층이 늘어나면 연산 양이 기하급수적으로 늘어나면 학습자체가 부족하면 오답을 학습할 가능성이 높아짐. 더 큰 문제는 융통성 없이 학습한다는 것. 주어진 학습 데이터에 기반을 두고 학습하다보니 조금이라도 변수가 생기면 적합한 답을 내놓지 못하는 경우가 생긴다. 이런 현상을 과적합이라고 하며 실제 데이터에 대한 오차가 급격하게 증가하는 현상. 다층신경망은 80년대부터 연구가 진행됐지만 실전에서 큰 활약을 못하고 역사속으로 사라지는 듯 했다.
- 힌튼이라는 영웅이 등장하여 수렁에 빠진 다층신경망을 구해낸다. 힌튼과 그의 동료들이 86년에 발표한 오차역전파 기법에 의해 다층신경망은 기적적으로 회생을 하게 됨. 이것이 바로 1차 신경망 구출작전이다. 극적으로 부활한 신경망은 영상처리, 제어분야, 자연어 처리 등에서 제법 활약을 하는 듯하였지만 과적합 같은 문제들을 해결하지 못하면서 2차인공지능 겨울과 함께 90년대 이후에 서서히 몰락하게 된다. 2차 인공지능 겨울은 대부분의 학자들과 투자자들이 인공지능을 외면하는 시대였고, 인공신경망은 더욱더 심한 냉대속에 있었다. 이런 싸늘한 분위기 속에서도 힌튼은 '인공신경망이 바로 인공지능이라는 신념을 굽히지 않았다. 불굴의 힌튼과 그의 동료들의 노력에 의해 꺼져가는 신경망의 불씨가 조금씩 살아나기 시작했다. 06년도에 와서 캐나다의 지원을 받아온 힌튼팀은 한편의 기념비적 논문을 발표하게 되는데 이것이 바로 딥 빌리프 넷을 위한 패스트 러닝 알고리즘이다. 이 논문은 인공신경망의 고질적인 문제가 데이터의 사전학습 등을 통해 해결될 수 있음을 밝혔고, 인공신경망 연구의 새로운 이정표를 세운다. 힌튼의 2차 신경망 구출작전이 성공한 것이다. 이 논문 이후에 딥러닝이란 말이 유행하기 시작. 흥미로운 것은 논문제목에서 신경망이란 단어대신 딥 빌리프 넷이 사용된 점이다. 2000년대 초기만 하더라도 논문에 신경망의 neural이란 단어만 들어가도 탈락당할 정도로 신경망은 죽은 분야였다. 이런 참단한 시기에 힌튼은 색다른 단어를 선택해서 악마의 프레임을 빠져나오고 있었다. 그후 6년의 세월이 지난 2012년 세계 최대의 이미지 인식 경연대회 ILSVRC에 출전한 힌튼 팀은 마치 다른 팀들을 비웃기라도 하듯 압도적 기록으로 우승하면서 딥러닝의 가공할 위력을 보여주게 된다. 힌튼의 신경망 구출작전이 성공하면서 우리가 보는 지금의 인공지능 시대가 열린 것이다.
- 과일 분류기와는 달리 아파트 가격예측의 경우만 하더라도 결정적 피처를 선택하기 위해서는 일반 상식보다 더 깊은 전문가의 지식이나 경험이 필요함을 알 수 있다. 좀 더 복잡한 경우를 생각해보자. 엑스레이 사진을 보고 암을 판정하는 기계를 머신러닝 방식으로 만드는 경우, 역시 일단 세포에 대한 이미지 데이터를 준비해야 하는 것이 급선무다. 그런데 암세포와 정상세포를 구별할 수 있는 피처(특징)를 어떤 식으로 정의해서 데이터를 모아야 할까? 정교한 의료지식이 없다면 이 단계에서 벌써 막히게 된다. 이제 눈치를 챘겠지만 머신러닝 방식의 결정적 단점은 도메인 특징을 반영하는 피처를 정의하거나 좋은 피처를 찾아내는 것이 쉬운 작업이 아니라는 것이다. 어느 정도 피처에 대한 감이 온다면 이미지 이식의 경우로 돌아가보자. 사물을 구별하는 것은 너무나 쉬운 일인 것 같은데 이미지의 어떤 것을 피처로잡아서 입력으로 사용해야 할지 분명하지가 않다. 이미지의 개별 픽셀 하나하나를 입력으로 해도 되고 털을 먼저 검출하여 그것을 피처로 잡아도 된다. 눈, 코, 입 등을 모듈로 구분하여 피처로 잡아도 될 것 같다. 그러나 좋은 성능을 내는 최적의 피처가 무엇인지 알 수 없기 때문에 인간이 수작업으로 하나씩 잡아서 모두 검토해야 한다. 또한 하나의 얼굴이라고 보는 각도 등에 따라 수많은 경우가 발생하므로 그것을 모두 반영하는 피처를 설계하는 것은 거의 불가능에 가깝다. 결국 머신러닝 방식도 고전적인 규칙기반 시스템이 갖고 있는 문제로 수렴한다.
- 여기서 자연스럽게 컴퓨터가 자동으로 피처를 잡아주는 시스템을 상상할 수 있다. 이런 상상이 현실이 된 것이 바로 딥러닝이다. 딥러닝은 피처를 사람이 선택하는 고전적인 머신러닝과는 달리 적절한 피처(입력값)를 스슬 생성해낸다. 딥러닝은 엄청난 양으 데이터를 학습하여 스스로 피처를 만들고 인간이 인식하지 못한 숨은 특징도 찾아낸다. 이런 의미에서 딥러닝을 표현학습 혹은 특징학습이라 한다. 고전적 머신러닝은 이미 만들어진 입력 피처를 받아서 분류기를 학습한다. 그러나 딥러닝은 입력 데이터에서 스스로 피처를 찾아내고 그것을 입력값으로 변환하여 다시 분류기로 넘기는 작업을 동시에 수행한다.
- 컨볼루션 신경망은 기계적 시각지능을 구현한 일등공신이며 딥러닝의 철학을 만든 장본인이다. 컨볼루션 신경망의 핵심은 피처를 자동을 잡아내는 것이라고 했다. 컨볼루션 신경망은 이미지의 특징이나 피처를 잡아내는 필터의 집합체다. 단계별로 나누어진 필터는 사물의 피처를 잘 잡아낼 수 있도록 학습을 통해 최적화된다. 피카소가 사물의 피처를 멋지게 잡아내서 표현하는 것처럼 기계는 학습을 통해 사물의 피처를 이해하는 것이다. 그러나 기계가 고양이와 개를 구별한다고 해서 그 의미를 이해하는 것은 아니다. 단지 이미지를 분류할 수 있을 뿐이다. 기계는 딱 거기까지 가능하다. 따라서 기계는 모나리자보다 피카소가 만든 얼굴이 더 인간적이라고 판단할 수도 있다.
- 이미지 인식의 신기원을 이룩한 컨볼루션 신경망은 입력 이미지에서 자동으로 피처를 뽑아내는 것이 주특기. 그렇다면 반대로 생각하여 피처맵을 이용하여 이미지를 뽑아내면 어떨까? 앞에서 살펴보았듯이 컨볼루션 신경망은 위계적인 구조를 바탕으로 단계별로 피처를 잡아낸다. 이런 피처를 역으로 이용하여 이미지를 복원하여 연구가 활발하게 진행되고 있다. 17년도에 들어와 구글 브레인 연구팀은 저해상도의 흐릿한 얼굴 이미지에서 뚜렷한 고해상도 이미지를 생성하는 알고리즘 '픽셀 리커시브 슈퍼 레졸루션'을 발표했다. 흐릿한 8*8 픽셀 사진을 입력하면 컴퓨터는 원본사진을 복원하여 출력으로 보낸다. 이미지 복원기술은 다양하게 응용될 수 있다. 사진을 확대할 때 사진이 깨지거나 일그러지는 현상을 막을 수 있다. 구글은 이미 고해상도 이미지 변경 기술을 통해 사진을 깨지지 않게 확대해주는 서비스를 시작한 상태. 한편 이런 이미지 기술들은 범죄 현장이나 범인의 얼굴을 찍은 CCTV 영상을 깨끗하게 복원하는 데 응용이 될 수도 있다. 최근에 차량 블랙박스의 흐린 이미지를 깨끗하게 복원하는 연구가 활발하다. 뺑소니 사고 등 크고 작은 교통사고를 해결하는 데 결정적 역할을 할 것이다.
- 컨볼루션 신경망은 자율자동차 개발에도 빠질 수 없다. 자율자동차는 전통적인 자동차 기술뿐 아니라 센서기술, 자동제어 기술, 이미지 인식기술 등 거의 모든 첨단 기술들이 필요. 특히 움직이는 주위 환경을 인식하는 기술은 자율자동차의 생명이다. 급변하는 환경과 빠른 속도로 지나가는 다른 차와 사람들을 올바르게 인식하지 못하면 곧바로 사고로 이어진다. 따라서 이미지를 분류하거나 이미지 속에서 한 객체의 위치를 알아내는 수준으로는 자율자동차에 적용하기 어렵다. 자율자동차의 영상정보에는 다양한 객체들이 다양한 위치에 존재함. 사람, 신호등, 차량, 표지판 등 수많은 객체들이 총 동원되어야 함. 객체의 위치를 특정해서 분류해야 하고(분류 및 구역화), 여러 객체들을 인식해야 하고(객체 탐지), 객체의 윤곽을 잡아서 독립된 파편으로 분할해야 하는(객체 분할) 등 자율자동차 등 거의 인간 수준의 시각지능이 필요하다. 여기서 객체분할은 객체의 윤곽을 잡아내는 것으로 세그멘테이션이라고 부르기도 한다. 15년 켐브리지 대학은 이 기술을 자율자동차에 적용할 수 있는 세그넷이라는 시스템을 공개했다. 이 시스템은 컨볼루션 신경망을 기반으로 만들어졌는데 위치추적 시스템을 통한 위치측정과 함께 도로위의 표지판과 도로표지, 거리의 모습, 보행자, 심지어 날씨까지 인식할 수 있다. 세그넷은 지금까지 본 적인 없는 거리의 풍경을 분석하고 도로 및 도로 표지판, 보행자, 건물, 자전거 등 12개의 다른 카테고리 별로 사물과 풍경을 분류한다. 요즘은 이 시스템을 능가하는 모델들이 계속 등장하면서 자율자동차의 가능성을 높이고 있다. 컨볼루션 신경망은 자율자동차의 꿈을 실현하는 데 일등공신임에 틀림없다.
- 인공신경망을 트윈모듈로 연결하여 경쟁을 시키는 적대적 생성 네트워크 모델은 한 방향으로 흐르는 기존 신경망과는 달리 실제 자연의 생태계처럼 진화할 수 있는 상호작용 시스템을 구현한 것이다. 이 아이디어를 경쟁하는 다중 모듈로 계속 확장한다면 점점 인간에 가까운 능력을 발휘할지도 모른다. 컨볼루션 신경망의 완성자 얀 르쿤 교수가 적대적 생성 네트워크는 최근 10년간 머신러밍 분야에서 가장 혁신적인 아이디어라고 극찬했을 정도로 응용분야가 무궁무진하다. 적대적 생성 네트워크를 만든 이언 굿펠로우는 대강의 그림만 그려놓으면 나머지는 인공지능이 완성하는 형태의 시스템이 구현가능함을 강조했다. 실제 적대적 생성 네트워크는 이미지 분야뿐 아니라 음성인식 분야나 예술분야 등으로 계속 응용되고 있으며 적대적 생성 네트워크의 변종들이 계속 탄생하고 있다. 시각지능은 이제 창조지능이 되고 있다.
- 리걸테크 산업의 종류는 변호사의 업무 영역만큼 다양하지만 서비스 형태를 기준으로 간단하게 나누어보면 다음과 같다. 지능형 법률정보 검색, 변호사 소개 서비스, 법률 데이터 분석 및 예측, 전자증거개시 분석, 법률 프로세스 자동화, 법률문서 자동화 등이다. 결국 인공지능 변호사라는 닉네임을 달고 나타나는 모든 서비스는 하나로 볼 수 있다. 리걸테크는 요즘 갑자기 등장한 것 같지만 그 뿌리는 매우 깊다. 컴퓨터와 법률의 만남 자체가 리걸테크의 시작이며 가시적으로는 법률정보검색 서비스이 형태로 나타났다. 50년대 이후에 컴퓨터는 문헌이나 자료를 검색하는 데 필수적인 도구로 자리잡았따. 법률 영역은 판례나 법률자료를 검색하는 것이 너무나 중요하기 때문에 다른 분야보다 일찍 컴퓨터가 응용되었다. 60년대에 이미 미국 오하이오 변호사협회는 판례를 검색하는 컴퓨터 시스템을 도입하였다. 이후에 민간영역에서 법률 정보검색 서비스가 본격화되었다. 렉시스 넥시스가 민간영역에서 최초로 법률검색 서비스를 시작하였고, 웨스트로가 방대한 법률문서의 데이터베이스를 기반으로 검색 서비스 사업에 뛰어들었다. 이 두 회사가 법률검색 서비스를 거의 독점하면서 리걸테크는 그 자체의 산업으로 다양성을 확보하지는 못하였다.

 

Posted by dalai
,