AI 혁명의 미래

IT 2023. 5. 25. 11:15

- 2012년 알렉스넷의 승리는 단순히 이미지넷이라는 특정 대회에서 우승을 차지했다는 것 이상의 의의가 있었다. SVM과 같은 기존의 머신러닝 알고리즘은 성능을 높이려면 고민해야 할 것이 아주 많았다. 어떤 사진에서 특성이 잘 추출 안 되는지, 사물을 분류하기 위해 필요한 어떤 요소를 빼먹었는지 등에 대해 연구원들이 머리를 맞대고 고민해야 했다. 하지만 딥러닝 기반 인공신경망은 달랐다. 신경망 사이즈를 조금 더 키우거나 구조설계를 바꾼 뒤 학습 버튼을 누르고 기다리기만 하면 되었다. 수십 명의 숙련된 개발자가 하던 일을, 데 이터를 가진 한두 사람이 더 정확하게 해낼 수 있게 된 것이다. 2012 년 알렉스넷의 우승은 '이후에 인공신경망은 다른 알고리즘에게 절대 지지 않는다'는 메시지를 던진 것이나 다름없었다. 복잡한 전처리 방법들을 고민할 필요 없이 데이터를 신경망에 넣고 학습시키기만 하면 되는 엔드 투 엔드 인공신경망 방식을 택한 것 그리고 GPU를 통해 이를 실행 가능하게 만들어 준 것, 이런 요소들이 한데 모여 드 디어 인간처럼 배우는 인공지능이 세상에 데뷔할 수 있었다. 이 과정 에서 딥러닝이 어떤 식으로 사물을 인식하고 이해하는지에 대한 증 거도 발견되었다. [그림 1)는 학습된 인공신경망의 은닉층이 하는 일을 요약하여 설명한 것이다.
사람의 얼굴을 찾아내는 인공지능을 학습시키면 별 역할이 없던 특정 은닉층들이 서서히 [그림 1-1처럼 특정 도형-원, 가로선, 세로 선 등에 반응한다. 그리고 그 값을 넘겨받은 다음 은닉층들은 전 단계에서 얻은 이미지들을 강하게 (높은 가중치) 반영할지 약하게 낮은 가중치) 반영할지 등을 학습하며 눈, 코, 입 등에 반응하게 스스로 변 화해 간다. 인간의 눈을 발견하는 은닉층이라면 그림 속의 원이 가장 중요할 것이며, 반면 세로선은 별로 중요하지 않을 것이다. 만약 코 를 찾아야 한다면 세로선(날)과 원(구멍)이 중요할 것이다.
- IBM의 첫 도전은 순탄하지 않았다. 1989년 슈퍼컴퓨터 '딥 소트' 는 인간 체스 챔피언 가리 카스파로프에게 패했고, 이에 절치부심한 IBM은 이를 업그레이드한 '딥 블루'를 만들어 1997년 카스파로프에 게 재도전한 끝에 승리한다. 딥 블루는 최고 수준의 인간 체스 선수 보다 더 많은 수를 더 빠르게 계산할 능력이 있었으며, 내부에 수십 만 개의 기보까지 저장되어 있는 슈퍼컴퓨터였다. 딥 블루는 진짜 의 미로 체스를 학습한 것은 아니었다. 엄청난 연산력을 통해 모든 경우 의 수를 파악하는 것에 가까웠다. 하지만 그 원리가 어떠했든 간에 인공지능 암흑기에 컴퓨터가 인간 챔피언을 상대로 승리한 것은 사 람들을 흥분하게 만들기에 충분했다.
IBM은 여기에 그치지 않고 지속적으로 인공지능에 투자했고, 왓 슨이라는 인공지능을 개발하게 된다. 왓슨은 2011년에 미국의 인기 퀴즈 쇼인 <제퍼디>의 과거 우승자들을 상대로 퀴즈 대결을 펼쳐 승리하는 쾌거를 이뤘다. (수를 수학적으로 읽어 내는) 앞의 체스 인공지능과 비교했을 때 (문장을 입력받아 답을 찾아내는 등) 행동 면에서 좀 더 인간다웠던 왓슨 덕분에 IBM은 이번에도 큰 주목을 받았다. 이후에 도 꽤 오랫동안 사람들은 인공지능하면 IBM과 왓슨을 떠올렸다.
왓슨의 구조는 [그림 1-11과 같다. 그림의 맨 왼쪽이 질문Question이 들어오는 곳이다. 질문이 들어오면 질문에 대해 분석하는 부분과 가 설을 생성하는 부분, 답변과 답변에 대한 근거를 검색 Retrieval하는 구 조가 연이어 나타난다. 또한 여러 가설에서 도출된 답변에 대해서 심 사하고 랭킹을 매기는scoring 부분 등 다양한 기능이 보인다.
[그림 1-10]에서 각각의 네모 칸이 뭘 하는지 이해할 필요는 없다. 하지만 이 책을 꾸준히 따라온 독자들이라면 왓슨 내에 정의된 세밀 한 단계별 프로세스를 보면서 무엇이 잘못되어 있는지 정도는 감을 잡을 수 있을 것이다. 인위적으로 세세한 역할을 정해 둔 부분들이 보이지 않는가? 여기까지만 봐도 우리가 앞에서 설명한 사람의 뇌와 같은 엔드 투 엔드 방식과는 거리가 멀어 보인다.
왓슨과 같은 시스템을 한마디로 정리하자면 지식 검색 Retrieval 시스 템이다. 물론 지식 검색은 단순한 키워드 검색이 아니다. 예를 들어, 검색엔진에 '이순신 탄신일'로 검색을 해 보자. [그림 1-11]과 같은 이 해하기 쉬운 결과가 나올 것이다.
이번엔 조금 검색어를 바꿔 퀴즈쇼 형식으로 검색해 보자. '조선 시대의 장군으로 임진왜란에서 삼도수군통제사로서 수군을 이끌고 전투마다 승리를 거두어 왜군을 물리치는 데 큰 공을 세웠다. 이 사 람은 누구인가?"라고 검색해 보는 것이다. 왓슨과 같은 지식검색 시스템은 퀴즈 쇼 문장 형태로 질문이 들어왔을 때 우선 이 문장을 '조선 시대', '장군', '임진왜란', '삼도수군통제사' 등으로 잘게 쪼갠다. 그 다음 쪼개진 단어들을 하나씩 사용해 왓슨 내부의 지식 베이스를 검 색한다. 왓슨 내부의 지식 베이스는 매우 거대하기 때문에 키워드별 로 여러 개의 지식 문서가 나온다. 한 예로 왓슨의 지식 베이스 내에 서 '장군'을 검색하면 강감찬, 신립, 이순신, 을지문덕 등의 단어가 포 함된 수많은 문서가, 임진왜란을 치면 1592년, 이순신, 일본, 도요토 미, 선조 등의 단어가 포함된 수많은 문서가 나올 것이다. 왓슨은 여 기 나온 수많은 단어의 등장 빈도를 확인한다.
한편 입력 문장에 '누구'라는 단어가 있다. 이를 통해 왓슨은 답으 로 사람의 이름을 언급해야 한다고 파악하며, 앞서 찾은 수많은 키워 드 중 가장 많이 등장한 사람의 이름을 고르는 것이다. 여기서 알 수 있지만 왓슨은 진짜로 질문의 의도를 이해하고 답변한 것이 아니다.
실제로 대화가 가능한 인공지능이 아닌 것이다. 왓슨과 같은 AI는 '일반 상식에 대한 질의응답'이라는 한정된 분야에서만 작동할 수 있 었고, 반드시 지식 베이스에 색인해 놓은 문서에 포함된 내용만을 답 할 수 있었으며, 질문의 형태 역시 매우 구체적이어야 했다. 단어 숫 자를 카운팅함으로써 의도와 할 일을 파악하기 때문이다. 그리고 결 정적으로 인간이 만들어 준 규칙인 '검색 결과에서 가장 많이 중복된 단어를 답하라'에 묶여 있는 것이다. 답변 속도도 상당히 느려 상용 화하기에도 매우 어려웠다. 개별 단어 여러 개를 반복 검색한 뒤 검 색된 문장들 안에서 중복도 등을 확인해 점수를 매겨야 하니 당연한 일이다.
- 엔드 투 엔드 인공신경망이 성공하면서 인공지능 개발의 트렌드가 크게 바뀌었다. 개발 방법이 달라지고 응용처가 늘어나면서 세상의 모습도 크게 변했다. 가장 큰 변화는 누구나 인공지능을 만들어 볼 수 있었다는 것이다. 앞에서 소개한 IBM 왓슨은 프로그래머가 알 고리즘을 만들어 데이터를 순서에 맞춰 처리하는 형태였다. 이런 인공지능을 만들기 위해서는 각 부분을 개발하는 소프트웨어 개발자가 다수 필요하다. IBM 정도 되는 규모의 회사만이 만들 수 있는 인공 지능인 것이다. 왓슨에 문제가 생길 경우에도 IBM만이 해결할 수 있 다. 어떻게 보면 모든 힘과 주도권이 IBM에 쏠리는 방식인 것이다. 반면 엔드 투 엔드 인공신경망은 다르다. 자신이 실험해 보고 싶은 인공신경망 구조가 있다면 수백 줄에 불과한 인공신경망 코드를 구 현한 뒤 가지고 있는 데이터를 사용해 학습시켜 보면 그만이다. 학습 에 대한 노하우가 필요하긴 하지만 수백 명의 개발자를 필요로 하지 는 않는다. 이는 특히나 자신들만의 전문 도메인을 가진 회사들에게 큰 의미가 있다. IBM의 인공지능은 작은 시장에는 손을 뻗으려 하지 않을 것이기 때문이다. 하지만 엔드 투 엔드 인공신경망 기반이라면 작은 파트너를 끼고서라도 한 번 해 볼 수 있다.
또 한 가지 중대한 변화는 도메인 전문가 의존성의 감소이다. 기 존 방식에서는 인공지능을 만들기 위해 각 분야의 전문가를 무조건 채용해야 했다. 번역기를 만든다면 번역 전문가, 동물 분류기를 만든 다면 동물 전문가 등 각 분야 전문가가 깊이 관여하고 이에 맞춰 소 프트웨어를 구현해야만 했다. 문제는 이런 전문가들을 언제나 구할 수 없을 뿐 아니라 이들의 의견이 반드시 정답이라는 보장도 없다는 것이다. 인간의 두뇌가 하는 작업 중 태반은 인간 자신도 어떻게 해 내는지 잘 설명하지 못한다. 설명을 한다고 해도 언제나 사후약방문 死後藥方文식일 수밖에 없다. 직감적으로 하는 것을 말로 풀어 설명하는 것은 전문가에게도 매우 어렵다.
이런 변화 덕분에 인공지능으로 새로운 것을 시도하기 더욱 쉬워 졌다. 전문가가 필요 없으니 업종을 빠르게 바꿀 수 있게 된 것이다. 즉 수백 개의 작은 시장 Niche으로 쪼개져 있던 인공지능 기업들이 인 공지능 자체에 집중할 수 있게 되었다.
- AI 페인터와 같은 사례가 의미 있는 이유는 이 서비스는 네이버만이 할 수 있는 것이기 때문이다. 학술적으로 공개된 인공신경망을 사용해 개선판 논문을 쓰는 것은 상대적으로 쉽고 안전하다. 하지만 AI 페인터는 그 길을 가지 않았다. 네이버 웹툰이라는 경쟁력 있는 기존 서비스에서 자신들만이 가질 수 있는 데이터를 얻어 낸 뒤, 여기에 인공지능이라는 신기술을 접목하여 만들어진 것이다. AI 페인터는 기존에 영위하던 사업과 인공지능 기술 두 가지 모두를 잘 이해하는 회사가 어디까지 해낼 수 있는지를 보여 주는 매우 좋은 예이다.
- GPT-3는 '트랜스포머"라는 단위 인공신경망을 기반으로 만든 사전 학습된 생성 모델이다. 숫자 3에서 알 수 있듯 과거에 GPT-1과 GPT-2도 있었다. 이들의 경쟁자는 Google의 BERT였으나 그동안은 크게 두각을 나타내지 못했다. 하지만 GPT-3에서 큰 진전이 있었다. 단순한 트랜스포머 알고리즘을 쓰되 네트워크의 크기를 키우고, 학 습 데이터의 양을 늘리는 것에 최대한 집중했다. 특정 전문 분야에 집중하기보단 언어로 되어 있는 모든 다양한 데이터를 학습에 사용 했으며, 여기에 기존에 자연어 이해와 자연어 생성에서 사용하던 학 습 방식을 병행하여 사용했다. GPT-3의 성능은 충격적이었다. 일단 GPT-3로 생성한 뉴스는 인간이 구분할 수 없을 정도로 정교했다. 더 놀라운 점은 GPT-3가 '언어'의 범주에 들어가는 거의 모든 작업을 수 행할 수 있다는 것이다. 소설이나 수필을 작성할 수 있었고, 기존 기 술들보다 훨씬 자연스러운 대화 생성도 가능했다. 사용자가 원하는 대로 스토리를 즉석 생성하는 AI 던전Al Dungeon>이라는 게임에 사용 되었을 정도다. 심지어 일반적인 언어가 아닌 컴퓨터 프로그래밍 언 어나 수식도 다룰 수 있었다. GPT-3 자바나 파이썬 같은 프로그래 밍 언어로 코딩을 해 주는 경지에 이른 것이다. 기존의 개별 인공신 경망이 담당하던 인간과의 대화, 기사 분류 등의 작업도 당연히 가능하다.
Google 역시 초거대 언어 모델인 람다 LaMDA를 내놓았다. 람다는 아예 자신이 명왕성인 것처럼 가정하고 대화하기도 한다. 이와 같은 방식은 과거의 생성 모델로는 상상도 하기 힘든 일이다.
- 이 같은 성공 덕분에 수많은 기업이 초거대 언어 모델에 뛰어들겠 다고 선언하기 시작했다. Google, 네이버뿐만 아니라 LG전자 등인 공지능과 무관해 보였던 기업들 역시 진출을 선언했다. 하지만 이과 정에서 때때로 초거대 언어 모델의 본질과 멀어진 이야기들이 나오 고 있어 독자들의 주의가 필요하다. 하이퍼클로바는 오리지널 GPT-3 의 1250억 개 파라미터보다 큰 2000억 개의 파라미터를 사용하며, LG전자의 엑사원은 그보다 많은 3000억 개를 목표로 개발을 시작했 다고 한다. 하지만 초거대 언어 모델에서 중요한 것은 파라미터의 개 수만이 아니다. 앞서 언급했듯 본질은 더욱 인간에 가깝게, 다양한 경험을 인공신경망에게 제공하는 것이다. 파라미터의 개수 증가는 이 과정에서 지식이 저장될 공간을 늘려 주는 역할을 할 뿐이다.
현재 초거대 언어 모델은 넘어야만 하는 수많은 도전이 기다리고 있다. 거대 신경망을 학습시키는 것은 굉장한 모험이다. GPT-3는 기 사는 잘 작성하지만 덧셈의 경우 특정 자릿수 이상은 제대로 해내지 못하기도 한다. 이는 아직 초거대 신경망이 진짜 의미로 '이해'의 영 역에는 도달하지 못했기 때문인지도 모른다. 이 원인을 찾고 해결하 기 위해서는 인간을 모사하는 수많은 시도가 이뤄져야 한다. 예를 들 면 인간은 어릴 때부터 오감을 이용해 세상을 경험하는데, 어쩌면 초거대 신경망도 인간과 같이 글뿐만 아니라 이미지 등 다른 감각에 해당하는 정보까지 함께 학습하는, 멀티모달리티 Multi-modality를 구현해야 할지도 모른다.
초거대 언어 모델은 인공지능에서 현재 가장 거대한 인공신경망 이며, 가장 많은 종류의 일을 해낼 가능성이 있는 모델이다. 이후에 도 수많은 회사가 여기에 도전장을 던질 것이다. 이런 시대에 적응하 기 위해서는 독자들 역시 초거대 언어 모델이 무엇인지를 어느 정도 이해하고, 나아가 파라미터 숫자나 모델 크기 등의 정량 지표를 넘어 서는 평가 지표를 이해할 수 있어야 한다.
- 특정 작업을 하는 AI를 만들 수 있는지 여부를 알고자 하는 독자 라면 다음과 같이 생각해 보면 된다. 우선 그 일을 인간이 한다면 어 떨지 곰곰이 생각해 보라. 만약 의사결정을 하기 위해 자료들에서 특 정 정보들을 추출하고 싶은 것이라면 인식 분야의 인공지능이 필요 하다. 창의력을 발휘해서 뭔가를 만들고자 한다면 생성 분야가 필요 한 것이며, 매 순간 특정 행동을 하는 등 의사결정을 하려 한다면 강 화학습을 공부해 보면 된다. 대부분 문제는 이 범주 안에서 해결될 것이다. 단 여기서 '인간이 할 수 있는 일을 명확히 해야 한다. 날 부 자로 만들어 주는 인공지능'과 같은 형태보다 구체적이어야 한다. 한 예로 택배 회사를 운영하고 있다면 '외관만으로 택배 불량을 알아내 는 인공지능'을 통해 운수 효율을 높여 부자가 될 생각을 해야 한다.
- 과거에는 인공지능에게 시키고자 하는 작업에 맞는 단위 인공신 경망 구조를 사용했다. 사물인식에는 동물의 시각 피질을 흉내 낸 합성곱 신경망CNN, 자연어처리 (번역 등)에는 내부에 기억 Memory 이라 는 개념을 가진 순환신경망RNN을 사용하는 방식이었다. 예를 들어, Give him a present(그에게 선물을 전달해라)'를 번역해야 한다고 하면, present란 단어를 '선물'로 번역하기 위해서는 '주다'라는 뜻의 give 가 같은 문장에 있음을 알아야 한다. 과학자들은 RNN을 설계할 때 [그림 3-3]과 같이 과거에 지나간 단어들을 어렴풋이 기억할 공간을 만들어 두었다. Present를 번역해야 할 순간이 오면, 그 전에 give him이 있었음을 알고 있으니 제대로 번역이 되는 것이다. CNN에는 저런 기억 공간이 없으므로 번역 작업을 시킬 경우 효율이 떨어지는 것이다.
하지만 위와 같은 흐름은 Google이 2017년 「필요한 것은 어텐션 뿐Attention is All You Need」이라는 논문에 트랜스포머 Transformer라는 인공신 경망이 발표되면서 바뀌게 된다.
본래 트랜스포머는 RNN과 마찬가지로 자연어처리를 위해 만들어 졌다. 하지만 그 구조는 크게 변화했다. 일단 RNN과는 달리 트랜스 포머 기반 신경망에는 문장이 단어 단위로 순차적으로 들어가지 않 고 전체가 통째로 들어간다. 그리고 어텐션Attention 이라고 불리는, 단 어간 연관성을 지시하는 그 자체로 학습 가능한 구조를 추가했다.
트랜스포머는 [그림 3-4]와 같이 문장을 이해한다. Give him a present라는 문장의 각 단어를 번역할 때 언제나 전체 문장이 보이며, 어텐션은 Give를 번역할 때 present에 집중해야 함을 알려 준다. 나머지 세 단어를 번역할 때도 마찬가지다.
- 트랜스포머는 기존에 다른 분야라고 생각했던 것들이 실제로는 비슷한 특징이 있음을 보여 주었다. 이에 신경망 구조에 대해 연구하 던 사람들은 충격을 받았으며, 일부는 트랜스포머를 마치 만병통치 약처럼 생각하기도 했다. 엔드 투 엔드 인공지능은 인간의 의도적 데 이터 전처리를 줄이는 방향이다. 트랜스포머는 이런 흐름을 인공신 경망 구조 자체에까지 확산시킨 것이다. 트랜스포머로 모든 것이 해결된다면 인공지능 연구원들도 줄일 수 있지 않겠는가? 정말로 트랜스포머는 만능일까?
- 트랜스포머는 성능이 우월하고 범용성이 높은 대신 학습을 위해 대체로 더 많은 데이터를 필요로 한다. 기존 신경망은 연구원이 신 경망에게 '선후의 단어를 봐야 한다'는 정보를 암시적으로 주는 것과 도 같다. LSTM과 같은 단위 신경망은 이미 '기억'에 해당하는 값을 가 지고 있기 때문이다. 하지만 트랜스포머의 어텐션은 '기억'이란 개념 이 필요하단 것조차 학습해야 한다. 학습할 것이 더 많으므로 데이터 가 더 많이 필요한 것이다. 같은 이유로 트랜스포머 기반으로 인공신 경망을 만들면 RNN이나 CNN 기반 인공신경망보다 복잡도가 높아 진다. 연산 자원이 더 많이 필요하단 의미이다. CNN 기반의 인공신경망의 동시 사용 인원이 10명이라면, 트랜스포머 기반의 인공신경 망은 동시에 2명 사용도 벅찰 수 있다. 개발 인력과 관리 인력 숫자를 줄였으나 대신 인프라 운용비용이 증가해 버리는 것이다.
트랜스포머와 같이 정확도가 좋고 범용성이 높은 인공신경망은 대세가 될 수밖에 없다. 그러나 인공신경망은 정확도만으로 성립하 지 않는다. 비즈니스가 성립할 수준의 원가를 확보하는 것 역시 매우 중요하다.
산업 현장에서 인공지능을 개발할 때는 엔드 투 엔드 패러다임을 지키는 범위 내에서 범용성과 최적화를 저울질하고 절충해야 하는 일이 종종 발생할 것이다. 이 과정에서 올바른 의사결정을 내리고자 한다면 범용성을 일정 부분 포기하고 최적화를 할 때 필요한 비용과 최적화를 통한 이익을 정확하게 측정할 수 있어야 한다. 그리고 최소 의 비용으로 최대의 효과를 가져올 수 있는 최적화 방법을 알아내야 한다. 이를 위해서는 인공신경망의 구조를 보다 깊이, 세부적으로 이해하고 있어야 한다. 여전히 인공신경망의 구조를 이해하고 설계할줄 아는 전문가가 가치 있는 이유다.

- 가장 먼저 할 일은 인공지능이 창출할 것으로 예상되는 가치를 측 정하는 것이다. 너무나 당연한 이야기임에도 의외로 많은 인공지능 프로젝트가 가치 창출에 대한 진지한 고민 없이 시작되었다가 자리 잡지 못한 채 흐지부지된다. 특히 '인공지능을 도입하는 것 자체가 목적이 될 경우 프로젝트가 방향을 잃고 헤맬 수 있다. 무리하게 인 공지능 자체를 도입하려 할 경우 되레 인공지능이 업무 효율성을 낮 추고 구성원들이 인공지능을 불신하기도 한다.
그다음 할 일은 해당 업무가 인공지능을 통해 해결 가능한지, 가능하다면 어떤 정보들을 입력받아야 하는지를 확인하는 것이다. 이를 파악하는 가장 좋은 방법은 사람이 할 수 있는지를 상상해 보는 것이다. '기판에서 용접 불량인 저항을 찾아내라'와 같이 명확히 정의되는 업무는 인공지능도 해낼 수 있다.
- 최근 인공신경망 설계는 과거에 비해 매우 자유로워졌다. 이미지는 CNN, 자연어나 음성은 RNN을 기본으로 층수나 파라미터만 바꾸 던 과거와는 달리, 주어진 데이터에 따라 좀 더 유연하게 인공신경망 을 설계한다. 이 덕분에 단백질 구조 예측 등의 다양한 작업들도 인 공지능으로 할 수 있게 되었다. 또한 인공신경망 설계자의 역량에 따 라 같은 데이터셋으로 정확도에 더 중점을 둔 신경망을 만들거나 처 리 속도에 중점을 둔 신경망을 만들 수도 있다. 이해도가 더 높다면 상대적으로 적은 데이터로도 높은 정확도를 낼 수도 있다.
이와 같은 이유로 기업이 인공지능 개발을 내재화하려고 마음먹 었다면 숙련된 인공신경망 설계자를 확보하는 것은 거의 필수다. 일 반적으로 이러한 사람들은 인공신경망의 근간이 되는 선형대수학을 알아야 하므로 수학 기초가 강해야 하며, 여기에 신경망의 각 층과 구조를 이해하고 설계할 수 있는 공학적 사고방식을 함께 갖춰야 한 다. 만약 인공신경망 설계를 직접 해 보고 싶은 독자가 있다면 이 두 역량에 초점을 맞춰 공부해야 할 것이다.
- 더 난감한 점은 정확도를 높이는 데에 필요한 대가가 기하급수 적으로 불어난다는 것이다. 위 대회에서 Google은 정확도를 99.0% 에서 99.1%로 올리기 위해 무려 1억 2100만 개의 파라미터를 필요 로 했으며, 이는 용량으로 500MB 가까이 된다. 이보다 정확도가 더 높은 모델이자 현재 대회에서 1등을 차지한 모델은 ViT-H/14인데, 99.5%의 정확도를 달성하기 위해 6억 3200만 개의 파라미터, 3GB가 넘는 메모리를 사용해야 했다. 이러한 경향은 거의 모든 인공신경망 에서 나타난다. 신경망이 99.1%의 정확도를 가지기 위해서는 기존 99.0% 때는 신경 쓰지 않던 매우 사소한 요소도 구분하도록 학습되어야 한다. 사소한 요소까지 배우려면 더 거대한 인공신경망이 필요해지며, 더불어 사소한 요소들을 포함하고 있는 수많은 학습 데이터 도 필요해지는 것이다.
결과를 요약해 보면 다음과 같다. CIFAR-10과 비슷한 인식 작업 을 인공신경망으로 하려 하는데 사용자가 0.5%의 추가 정확도를 원 한다면 최대 동시 사용자 수가 1/15 가까이로 줄어 버린다는 것이다. 만약 특정 고객이 스마트 팩토리를 추진하는데 정확도가 99.998%(6 시그마) 정도여야만 하는 공정이 있다면 어떻게 할 것인가? 이런 비즈니스 모델에서도 인공신경망은 노동자를 직접 고용해서 일을 시키는 방식이나 기존의 프로그래밍을 통해 공장을 운영할 때와 비교해 비 용우위를 가질 수 있을까?
이렇게 연산력을 많이 사용하는 상황이라면 반응속도도 매우 나 뽈 가능성이 높다. 스마트 팩토리에서 물건이 컨베이어 벨트를 지나 초당 1개씩 지나가는데, 불량을 감지하고 처리하는 것에 2초가 걸리 는 상황이라면 매우 난감할 것이다. 불량 감지 카메라를 2개 설치하고 속도가 느린 컨베이어 벨트 2개를 설치하는 방법도 있겠으나 이렇게 되면 기존 공장의 구조를 고쳐야 한다. 사용자가 원치 않거나 상황에 따라서는 개선하기 힘들 수 있다.
그리고 이렇게 인공신경망의 크기가 커질 경우, 이를 재학습하고 배포해서 기능을 업데이트하는 것 역시 숙련된 인원들이 해야 한다. 학습 시간이 길어 학습 실패의 대가가 매우 클 뿐만 아니라 신경망의 구조가 복잡해 학습이 잘되지 않았을 경우 문제 지점을 찾기 힘들기 때문이다. 인공신경망 내부의 문제들은 원인이 직관적이지 않아서 숙련된 연구원과 프로그래머들에게도 큰 골칫거리이다.
- 기존 프로그램에 문제가 생길 경우 개발자들은 코드를 살펴보며 코드 내의 논리적 모순을 찾는 방식으로 문제를 해결했다. 대부분의 문제는 '덧셈, 곱셈의 순서가 틀렸다'와 같이 해결해야 할 부분이 직 관적이었다. 하지만 딥러닝에서 이러한 문제 발견은 쉽지 않다. 앞서 살펴봤듯 인간 뇌를 이해하지 못하듯 인공신경망의 각 뉴런이 각층에서 하는 일을 추정하는 것은 쉽지 않다. 신경망이 얕고 단순하다면 어느 정도는 시각화해서 역할을 알아낼 수 있지만, 99%에서 99.1% 로 개선된 신경망의 수백 개 층이 무슨 역할을 하는지 이해하기는 힘 들다. 많은 경우 능력이 뛰어난 연구원이 각종 통계적 방법과 직관을 동원해서야 문제의 원인을 '짐작' 정도나 해 볼 수 있으며, 그나마도 해당 신경망의 학습 히스토리를 알아야 제대로 해낼 수 있다.
- 사람의 '기억'을 어떻게 인공신경망으로 구현할 것인지에 대해서는 상대적으로 많이 연구되지 않았다. 현재의 일반적인 인공신경망은 개와 고양이를 잘 구분하고, 음성을 잘 인식해 문장으로 변환하는 등 매우 특정한 업무만을 반복적으로 수행한다. 이런 작업을 수행하는 인공신경망에 굳이 기억이라는 기제를 구현할 필요는 없다고 생각하 는 것이다. 그러나 개와 고양이를 구분하는 인공신경망을 개발할 때 도 기억을 하지 못하기 때문에 생기는 소소한 문제점이 존재한다. 개와 고양이를 거의 완벽하게 구분하도록 학습시킨 인공신경망이 있다고 하자. 이 신경망이 코끼리도 구분하게 만들기 위해 코끼리 데 이터만 추가로 학습시키면 어떻게 될까? 안타깝게도 이 인공신경망은 코끼리는 잘 인식하게 되는 대신 개와 고양이를 잘 인식하지 못하게 된다. 이런 문제를 피하려면 어떻게 해야 하는가? 코끼리를 추가 학습시킬 때 기존에 사용했던 개와 고양이 데이터까지 가져와야 한 다. 반면 사람의 경우 코끼리를 새로 학습했다고 해서 개와 고양이를 잊어버리는 일은 없을 것이다. 이렇듯 지식을 저장하고 기억하는 방 식에서 인공신경망은 아직 사람의 뇌와 차이가 있다.
혹자는 이 문제를 대수롭지 않게 생각할 수도 있다. 실제로 지금 까지 대부분의 인공지능 개발 현장에서 이 정도의 번거로움은 감수 했다. 그러나 최근 유행하는 초거대 언어 모델 같은 큰 인공신경망을 개발할 때는 이 문제가 매우 심각하게 다가온다. 거대 인공신경망은 학습에 많은 시간이 걸리고, 한 번에 매우 많은 데이터를 사용한다. 기존에 이해하지 못하던 한 줄의 공식만 더 이해할 수 있도록 재학습 시키고 싶어도 온 세상 문제집을 처음부터 다 풀어야 하는 상황이 생 기는 것이다.
네이버가 개발한 초거대 언어 모델 하이퍼클로바 사례를 들어 보 자. 하이퍼클로바는 한국어 뉴스와 블로그, 지식인, 카페, 웹문서 등 약 2TB 분량의 데이터를 학습했다고 한다. 그러나 웹상에는 오늘도 수많은 새로운 문서가 올라온다. 기존에 학습한 것만 가지고도 일상 적인 대화를 수행하는 데에는 문제가 없겠지만, 갱신된 정보는 학습 하지 않은 이상 알 방법이 없을 것이다. 예를 들어 하이퍼클로바를 명왕성의 행성 지정이 취소되기 전에 학습시켰다면 태양계의 행성이 몇 개인지 물어볼 경우 9개-현재는 8개라고 답할 것이다. 이 정보 를 갱신하기 위해 명왕성의 행성 지정이 취소되었다는 내용이 담긴 문서만 학습시키고 싶어도, 지금으로선 기존 데이터에 해당 문서를 추가해서 수개월간 재학습시킬 수밖에 없는 것이다.
딥마인드는 이런 문제를 극복하기 위한 대안으로 RETRO Trans former(이하 레트로)라는 인공신경망 구조를 제시했다. [그림 4-4]의 왼쪽 그림과 같이 일반적인 초거대 언어 모델은 하나의 인공신경망 이 언어적인 기능과 지식의 저장을 동시에 담당한다. 반면 레트로는 언어적인 기능을 담당하는 메인 인공신경망과 지식을 저장하는 데이 터베이스를 분리했다. 언어적인 기능이라는 것은 문장을 이해하고 생성하는 기본적인 기능을 의미한다. 예를 들어 나는 학교에' 다음에 들어올 동사로 '먹었다'는 어울리지 않고 갔다'는 어울린다는 것을 아는 능력은 언어적인 기능에 속한다. 이런 언어적인 기능은 특정 사실에 기반한 지식과 상관없는 공통적인 기능이므로 한 번 학습하면 특 별한 일이 없는 한 다시 학습하지 않아도 된다. 그러나 지식은 시간 이 지나면 갱신되기 때문에 수시로 업데이트를 해 줘야 한다. 레트로 는 자주 업데이트해 줘야 하는 지식 부분을 분리함으로써 GPT-3등 의 거대 신경망의 재사용성과 효율성을 높인 것이다. 딥마인드가 공 개한 바에 따르면 레트로는 GPT-3의 25분의 1밖에 안 되는 신경망 크기로 거의 동등한 성능을 발휘한다고 한다. 연산 자원의 최적화 측면이나 학습의 용이성 측면에서 매우 큰 강점을 가진 것이다.
그러나 레트로도 여전히 사람의 기억이 작동하는 기제를 완전히 구현했다고 보기는 어렵다. 레트로는 데이터베이스에 약 2조 개에 달하는 단어를 저장해 놓고 있다. 레트로의 메인 인공신경망이 문장 을 생성하다가 특정 사실관계나 지식이 필요할 때 데이터베이스에서 자료를 가져와 참조하는 것이다. 이런 방식은 인간의 뇌라기보다는 검색엔진에 가깝다. 어찌 보면 엔드 투 엔드 방식에서 약간 뒤로 물 러서는 모습으로 보이기도 한다.
아직 인간은 뇌에서 기억이라는 기제가 어떻게 동작하는지 정확 히 이해하지 못하고 있다. 향후 지속적인 연구를 통해 사람의 기억 은 어디에 어떻게 저장되는지, 어떻게 유지되는지 그리고 저장된 기 억을 어떻게 인출하는지 그 작동 원리를 이해해야 한다. 이렇게 할 때 비로소 인공신경망으로 기억을 구현할 수 있는 길이 열릴 것이다. 레트로와 같은 시도는 뇌 과학이 발전하는 데 있어 필요로 하는 시간 동안 인공지능의 성능을 유지해 줄 중간 다리가 될 수도 있다.
- 인텔 CPU가 인공지능에서 전성비에 밀려 GPU에게 밀려났듯, GPU 역시 초저전력 영역에서는 소형 가 속기들에게 밀려날 수 있는 것이다. 어차피 대규모 학습이나 연산력 이 크게 필요한 인공신경망 기반의 추론은 NVIDIA 칩이 할 것이고, 소형가속기들은 스마트폰이나 각종 IoT 기기 등과 결합되어 인공지능 추론 가속이 필요한 경우에 사용되는 형태가 될 것이다.
- 스마트폰과 노트북은 이미 상용화되어 있다. 이 시장의 인공지능 반도체를 장악할 경우 스마트폰 기기뿐만 아니라 앱 시장까지 폭 넓은 영향력을 발휘할 수 있다. 하지만 이를 위해서는 일단 천하 통 일이 크게 이뤄질 필요가 있다. PC와 서버 기반 인공지능 학습에서 CUDA가 잘되는 이유는 CUDA가 천하를 통일했기 때문이다. 스마트 폰 AP 시장의 경우 플레이어들이 다들 생존할 만큼의 규모를 갖추고 있다. 인공지능 반도체 시장을 잘 예측하기 위해서는 이 시장에서의 교통정리가 향후 어떻게 이뤄질지를 주의 깊게 지켜봐야 할 것이다.
- 인공지능 기술은 소프트웨어 기반 위에서 동작한다. 그리고 소프 트웨어를 동작하는 데 있어서 반도체를 떼어 놓을 수 없다. 인공신경 망으로 의미 있는 일을 하기 위해서는 각종 입력이 중요한데, 이러한 입력은 대부분 음성, 사진 등이다. 입력을 받기 위해서는 각종 센서 와 통신수단이 필수적이다. 현재 인공지능을 적용하고 싶은데 적용 하지 못하는 영역들은 다들 이유가 있다. 겪고 있는 문제를 AI로 해 결할 준비가 되지 않은 경우도 있겠지만, 대부분은 단순히 연산력 부 족, 네트워크 대역폭 부족, 전원 부족 등 하드웨어적인 이유다. 예를 들어 스마트 팩토리에서 물건의 결함을 인공지능으로 찾아내려 한다- 공장의 구조상 가로세로 각 20cm 공간 안에 반드시 기기를 배치하고, 메모리는 2GB밖에 쓸 수 없는 환경이다. 그런데 인공신경망의 메모리 사용량이 3GB라면 어떻겠는가? 당연 히 현재의 인공신경망을 사용할 수 없을 것이다. 그런데 2년 뒤에 만 약 메모리 용량이 더 큰 기기가 등장한다면? 그렇다면 인공신경망은 바뀌지 않았지만, 해당 인공신경망이 진출 불가능하던 영역의 비즈 니스가 가능해지는 것이다. 하드웨어에 관심이 없던 회사들은 이기 회를 놓치겠지만, 관심이 있는 회사라면 자신들의 인공신경망이 어느 수준의 기기까지 탑재 가능한지 면밀히 추적하고 있을 것이다. 하드웨어 발전 덕분에 감춰 놓았던 비장의 인공신경망 카드를 꺼낼 수 있는 시기가 다가오는 것이다.
물론 하드웨어를 이해한다는 것은 단순히 메모리 용량이 얼마이 고 이론상 최대 연산 능력이 얼마나 되느냐를 넘어서는 문제이다. 하 드웨어 플랫폼을 교체한다는 것은 단순히 기계 하나 바꾸고 프로그 램을 다시 설치하는 것이 아니다. 플랫폼이 교체되면 기존에 돌아가 던 소프트웨어들은 어마어마한 호환성 문제를 겪는다. 예를 들어 나 의 인공신경망은 NVIDIA CUDA GPU 기반인데, 드문 경우겠으나 갑 자기 AMD GPU를 반드시 써야만 하는 상황이 온다면 많은 것이 달 라진다. 내 신경망을 운용하기 위해 도입한 다른 소프트웨어 중 하나 는 반드시 CUDA가 있어야만 돌아갈 수도 있다. 플랫폼을 교체하면 이런 부분들이 전부 에러를 띄우며 멈추게 된다. 이는 추가적인 자원 소모와 신뢰성 문제를 야기한다.
- 가상의 CCTV 감시 서비스의 예를 하나 보자. CCTV를 통해 24시간 모든 카메라를 능동적으로 감시하고 싶은 고객이 있다면 서비스 기업은 CCTV 수십 개당 1명 정도 감시 인원을 배치할 것이다. 문제 는 한 사람이 여러 화면을 보기 때문에 중요한 사건을 놓칠 가능성이 남는다는 데 있다. 하지만 그렇다고 CCTV 1개당 1명씩 배치하는 것 은 비효율적이다. 임금 지출도 클 뿐만 아니라 각 개인의 근무 태만 을 감시하기가 힘들다. 지루한 감시 업무의 특성상 종사자들의 책임 감을 불러일으키기도 쉽지 않을 것이다. 운이 좋은 감시 직원은 평생 CCTV를 보고 있지 않았음에도 사건이 일어나지 않아 아무 책임도지지 않을 것이다.
인공신경망은 이와 같은 특징을 가진 시장을 인공지능 기술 특성에 맞춰서 공략해야 한다. CCTV용 기반의 감시 솔루션을 만들되 ‘모든 것을 무인으로 운영하겠다!'와 같은 목표를 정해서는 안 된다는 것이다. 이런 일을 해낼 수 있는 인공신경망은 매우 무거우며, 추후 에 문제가 발생할 경우 개선하기 힘들고 시간도 오래 걸리기 때문이 다. 사람을 줄이려고 AI를 도입했는데 정작 한계효용 문제를 만나게 되는 것이다. COVID-19와 같은 전 세계적인 사건이 일어나서 빠르 게 대응해야 하는데, 비즈니스 핵심 영역에 있는 인공신경망 학습이 6개월 걸린다면 매우 난감할 것이다.
이와 같은 해결책 대신 가끔은 인공신경망이 틀리더라도 감시 인원을 줄일 수 있는 인공신경망을 도입하면 어떨까? 인공신경망을 만 들되 가끔은 침입이 없어도 침입이 일어났다고 잘못 보고하는 정도 의 정확도만 추구하는 것이다. 대신 인공신경망은 침입이 일어났다고 판단하면 자리에 있는 사람에게 경고만 보내 주는 것이다. 사람은 화면을 보고 이게 진짜 침입인지 아닌지 확인하면 된다. 이런 신 경망을 사용하면 많은 이점이 있다. 일단 구조가 간단해 문제 개선이 빠르다. 나중에 특정 날씨에서는 잘 인식되지 않더라' 등의 문제가 발생하더라도 빠르게 대응할 수 있다. 그리고 최종 판단하는 사람이 현장에 남아 있으므로 신고와 보고 등을 자동화하는 것에 대한 투자 와 번거로움을 줄일 수 있다. 도입한 고객 입장에서는 경고가 뜰 때 만 경고 앞뒤의 영상을 확인해 보는 소수의 인력만 남기면 되므로 인 건비 감소라는 원가 절감을 확실히 누릴 수 있다. CCTV 감시원은 AI 의 경고를 무시했을 경우 기록이 남으므로 AI의 경고는 반드시 확인 할 것이다.
- 인공신경망은 인공지능을 구현하는 방법 중 하나로, 생물의 신경망 구조의 일부를 본떠서 만든 인공적 구조다. 대부분의 인공신경망은 실체를 가진 물건이라기보다는 컴퓨터 프로그램의 형태로 구현 되어 있다. 컴퓨터를 통한 일종의 신경망 시뮬레이션인 셈이다. 흔히 듣는 합성곱 신경망CNN, 트랜스포머 Transformer 등이 모두 인공신경망이 며, 이들을 조합해 만든 더욱 거대한 신경망들도 인공신경망으로 불 리므로 헷갈릴 수 있다.
기계학습은 경험을 통해 스스로 학습하는 프로그램을 만드는 방법론으로, 인공지능의 하부 분야이다. 기계학습에 반드시 인공신경 망이란 개념이 들어갈 필요는 없다. 예를 들어 지난 1년간의 소비 패 턴을 분석해 이번 달 고객의 소비량을 분석하는 알고리즘을 만들었 다면, 그 뒤에 있는 것이 인공신경망이건 아니건 기계학습이 적용되 었다고 할 수 있다. 그저 요즘은 인공신경망 기반의 알고리즘들이 뛰 어날 뿐이다.
엔드 투 엔드는 투입된 데이터를 인위적으로 재가공하지 않고 원 하는 결과값을 뽑아내도록 만들겠다는 목표이자 사상이다.
즉 인공지능은 기계학습의 상위 범주이며, 기계학습은 스스로 개 선되는 알고리즘을 만드는 인공지능의 한 분야이다.

'IT' 카테고리의 다른 글

챗GPT 질문이 돈이 되는 세상 (0)	2023.06.04
좋아요는 어떻게 지구를 파괴하는가 (7)	2023.06.02
인공지능 파운데이션 (4)	2023.05.13
프로덕트 매니저는 무슨 일을 하고 있을까 (1)	2023.04.08
AI 2041 (0)	2023.03.23