AI 최강의 수업

IT 2021. 11. 9. 19:04

- 중요한 것은 지적인 기계가 어떤 감정을 가질 수 있느냐가 아니라 기계가 감정 없이도 지능을 가질 수 있느냐는 것이다. (마빈 민스키)
- 초기 인공지능 학자로 노벨 경제학상을 받은 사이먼은 1965년에 “20년 후에는 기계가 사람이 할 수 있는 모든 일을 할 수 있게 된다”고 주장했다. 인공지능의 대부 민스키(Marin Mind, 도 유사한 이야기를 했다. 1970년 한 잡지와의 인터뷰에서 민스키는 3 년 내지 8년이면 보통 인간이 갖고 있는 일반 지능을 갖춘 기계가 나타날 것”이라고 주장했다. 돌이켜보면 이들의 주장이 얼마나 황 당한 것이었는지 알 수 있다. 당시 연구원은 이렇게 과도한 낙관론을 갖고 있었다.
인공지능 기술 성장에 대한 낙관론은 계속 이어지고 있다. 2005년에 미래학자 커즈웨일 Rapmond Kurzweil은 "2029년이면 튜링 테스트를 통과하는 컴퓨터가 나올 것”이라 예측했다. 2020년대 중반까지 인간지능 모델이 만들어지고, 이 모델의 능력이 생물학적 신체와 뇌의 한계를 초월하는 특이점이 2045년쯤에는 나타날 것이라고 주장했다.
- 불확실성이 존재하는 세상을 에이전트가 어떻게 생각 하는가에 따라서 문제 해결의 방법이 다르게 된다. 에이전트의 생각은 그 나름의 세상 모델' 이다. 모델이란 현실 세계의 복잡한 현상을 추상화하거나 가정 사항을 도입하여 단순하게 표현한 것이다. 복잡해서 단순화하지 않으면 제한된 자원으로 문제를 해결할 수 없다. 그러나 과도하게 단순화하면 현실과 동떨어져서 효용성이 없다. 에 이전트가 활동하는 세상 모델'을 교과서에서는 통상 일곱 가지 관점으로 체계화한다.
첫째, 결정론적 · 확률적 관점이다. 외부 환경의 이전 상태 및 에이전트의 행동에 따라 발생한 다음 상태가 완벽하게 예측 가능한 경우, 이러한 세상의 성격을 결정론적이라고 한다. 가장 단순하게 세상을 보는 것이다. 상태를 확률적으로 일어날 수 있다고 보면 복잡도는 증가한다.
둘째, 정적 · 동적 관점이다. 에이전트가 정보를 얻은 후 행동을 취할 때까지 세상이 변하지 않고 고정되어 있다고 가정하면 이런 세상을 정적이라고 한다. 그 반대라면 동적이라고 한다. 세상을 동적으로 본다면 문제 풀이가 훨씬 어려워진다. 동적 세상에서는 일반적으로 신속히 반응해야 한다. 반응이 늦으면 버스 지나간 다음에 손드는 격이다.
셋째, 관측 가능성으로 구분하는 것이다. 에이전트가 완벽히 관찰할 수 있는 세상이 있는가 하면, 부분만 관찰할 수 있는 세상도 있다. 물론 관찰 자체가 힘든 세상도 있다. 완벽히 관찰할 수 있는 세상에서는 의사결정이 상대적으로 쉽다. 예로, 바둑 게임은 게 임에 참여하는 두 명의 에이전트가 세상을 모두 볼 수 있다. 바둑 돌이 놓인 바둑판을 모두 볼 수 있기 때문이다. 그러나 포커 게임은 그렇지 않다. 게임의 상황을 일부만 알 수 있다. 상대방의 카드는 볼 수 없기 때문이다.
넷째, 존재하는 에이전트의 수로 세상을 구분할 수 있다. 다수의 에이전트가 존재하는 세상은 훨씬 복잡하다. 에이전트들이 협조하거나, 경쟁하거나, 무관심할 수 있다. 게임 상황에서는 에이전 트들이 팀을 형성하여 경쟁하는 경우가 많다.
다섯째, 세상에 관한 사전 지식의 유무다. 세상을 지배하는 법 칙을 에이전트가 사전에 알고 있다면 '알려진 세상' 이라고 간주한 다. 반대의 경우, 에이전트는 환경을 지배하는 법칙을 모른다. 따라서 에이전트가 자원을 동원하여 세상의 법칙을 발견해가야 한다.
여섯째, 단편적 · 순차적 관점에서 세상을 구분한다. 단편적 관점에서는 세상의 변화를 단편적 사건의 집합으로 본다. 따라서 의사결정하는 데 있어서 현재 상태만 고려하면 된다. 반대로 순차적 관점에서는 변화가 과거 사건의 영향으로 바뀐다고 본다. 따라서 과거의 상태를 모두 기억해야만 현재 최적의 행동을 결정할 수 있다.
일곱째, 이산·연속의 관점이다. 이산Discrete 환경에서는 위치나 시간의 간격이 고정되어 있다. 예를 들면, 초 단위로 시간을 표현 한다고 할 때, 초 이하의 시간은 무시된다. 그러나 연속적 환경에서는 위치나 시간이 연속된 선상의 한 점이다. 따라서 원하는 정밀도 수준으로 측정하여 정량화해야 한다.
에이전트가 세상을 어떤 관점으로 보느냐에 따라서 문제의 난이도는 천차만별이다. 또한 도출된 해결책이 얼마나 현실적인가도 결정된다. 외부 환경 중 부분만 관찰 가능하고, 확률적, 순차적, 동 적, 연속적이면서 다수의 에이전트가 존재하는 상황이 여러 문제 해결 중 가장 어려운 환경이다. 가급적 현실성 있도록 세상을 봐야 겠지만, 문제 해결의 복잡도를 감소하기 위해 단순화를 피할 수 없는 경우가 많다.
- 높은 산을 오르려면 낮은 산은 내려와야
언덕 오르기나 급경사탐색 알고리즘은 탐색 중에 산을 나려는 방향으로는 움직이지 못한다. 낮은 봉우리를 넘어서 높은 산으로 올라가려면 내려가는 길도 거쳐야 한다. 이것을 가능하게 하는 것이 모의 담금질Simulated Annealing 알고리즘이다. 금속의 담금질에서 영감을 받은 이 탐색 알고리즘은 가끔 의도적으로 나쁜 방향을 선택하기도 한다. 나쁜 방향이란 목적함수의 값을 올리는 것이 아니라 낮추는 방향이다. 나쁜 방향을 선택함으로써 낮은 봉우리를 벗어날 가능성이 생긴다. 나쁜 방향 선택의 빈도는 확률로 조정한다. 탐색 초기에는 확률을 높여서 나쁜 행동이 자주 선택돼 넓은 범위 를 탐색할 수 있게 하고, 탐색이 진행되면서 점진적으로 확률을 낮 춰 탐색 범위를 좁힌다. 잘 찾아온 최정상 근처에서 벗어나지 않도록 하게 함이다.
- 기계 학습이란 훈련데이터집합을 잘 표현하는 모델을 만드는 작업이다. 즉, 모델의 틀을 설정하고 훈련데이터집합을 잘 표현하는 파라미터(매개변수)값을 구하는 작업이다. 기계 학습에서 특히 관심 있는 것은 입력과 출력 간 함수 관계의 모델이다. 전통적인 기계 학습 기법에서는 모델의 틀로써 수식을 주로 사용했다. 선형함수 또는 간단한 비선형함수가 많이 쓰였다. 수식 모델은 독립변수, 종속변수, 파라미터 등으로 구성된 방정식이 일반적이다. 확률적인 현상을 모델링할 때는 확률함수를 사용한다.
인공 신경망 기법에서는 노드와 연결선으로 구성된 망구조를 모델의 틀로 사용한다. 주어진 망구조에서 훈련데이터집합을 가장 잘 표현하는 파라미터값을 구하는 것이 모델링이다. 단순한 수식을 사용하는 것보다 훨씬 표현력이 좋다. 그래서 요즘 다양한 문제를 인공 신경망을 이용하여 해결한다. 과거에는 망구조를 개발자 의 경험과 직관에 의하여 미리 설정하는 것이 일반적이었다. 그러 나 요즘은 적합한 망구조를 찾는 과정도 자동화되었다. 다양한 망 구조와 파라미터 최적화를 시도한 후에 가장 바람직한 모델을 선택하는 것이다. 오토엠엘AutoML, Automated Machine Learning 이 이런 목적의 도구다.
- 지도 학습을 위한 훈련데이터 집합의 구축에는 많은 비용과 노력이 소요된다. 비지도 학습은 이런 노력이 필요 없기 때문에 매력적이다. 그러나 비지도 학습에 비해 지도 학습은 패턴 분류 문제 풀이에서 더 우수한 성능을 보인다. 직접적으로 가르침을 주기 때 문이다. 라벨이 주어진 데이터와 주어지지 않은 데이터를 섞어서 훈련에 사용하면 우수한 성능과 비용 절감의 두 가지 효과를 모두 얻을 수 있을 것이라 기대된다. 이런 방법을 준지도 학습Semi-Superised Learming 또는 자기주도 학습Self Supervised Learning 이라고 한다.
소비자의 구매 이력을 이용하여 신상품을 추천하는 데에는 군집화 방법이 사용된다. 소비자 A와 소비자 B가 유사한 구매 패턴을 갖고 있다는 것은 비지도 학습으로 확인했다면 소비자 A가 구매한 물건을 소비자 B도 구매할 것이라는 믿음으로 추천한다. 이렇게 하면 무작위로 추천하는 것보다 소비자들이 추천을 받아들일 확률이 높다. 또 일상적이지 않은 이상 상태의 발생을 탐지하거나 고장 예측에도 군집화 방법이 활용된다.
- 차원 감소 문제
데이터의 차원이란 표현에 사용된 특성의 개수다. 너무 많은 수의 특성으로 데이터를 표현하면 그 데이터가 갖는 깊은 의미를 나타내지 못하는 경우가 많다. 꼭 필요한 특성만으로 데이터를 표 현하면 데이터가 갖는 깊은 의미를 표현할 수 있고, 계산도 간편할 수 있다. 적은 수의 중요한 특성으로 데이터를 표현하기 위해 차원 축소)rmensionality Reduction 라는 작업을 한다. 높은 차수의 데이터를 축약 하여 낮은 차수의 데이터로 만드는 것으로 학습하기 좋은 형태로 데이터를 변형하는 전처리 방법이라고 볼 수 있다. 차원 감소를 위 해서는 주성분 분석, 오토엔코더Autoencode, 등이 자주 사용된다.
- 주성분 분석Principal Component Analysis 은 통계적 방법에서 자주 쓰는 방법이다. 데이터 분산을 크게 만드는 적은 수의 특성을 선택하여 선형으로 변환한다. 높은 차원의 공간이 낮은 공간으로 축소되는 것이라 볼 수 있다. 변환 과정에서 정보를 잃어버리긴 하지만 중요한 특성은 유지되고 데이터 분별이 쉬워질 것을 기대한다.
오토엔코더는 데이터 차수 감소의 목적으로 자주 사용되는 인공 신경망 기법이다. 라벨이 없는 학습데이터에 대해 입력과 동일 한 출력을 내도록 지도 학습으로 훈련시킨다는 아이디어에서 출발 한다. 인코더와 디코더로 구성된다. 인코더는 입력을 은닉 노드로 변환하는 것이고 디코더는 은닉 노드에서 다시 원래 데이터로 재 현하는 것이다. 입력층 노드보다 은닉 노드를 적게 하면 은닉 노드 의 출력을 감소된 차원의 데이터 표현으로 볼 수 있다. 오토엔코더 는 비선형 변환이 가능하다. 오토엔코더의 역할은 강력한 특성을 추출하기 위한 의미적 변환으로 볼 수 있다.
- 기계 학습을 한다는 것은 기계 학습 알고리즘을 사용하여 훈련데이터집합을 잘 표현하는 모델을 구하는 것이다. 학습과정의 핵심은 모델의 틀을 미리 설정한 후에 최적의 파라미터값을 구하는 것이다. 기계 학습의 작업과정은 그림과 같다. 훈련데이터 준비가 처음 해야 할 작업이다. 훈련데이터 수집은 많은 노력이 소요된다. 특히 지도 학습을 위한 데이터는 라벨을 모두 붙여야 하기 때 문에 많은 수작업이 필요하다.
해결하고자 하는 문제의 유형에 따라 적절한 기계 학습 알고리즘을 선택해야 한다. 알고리즘에 따라 학습 결과의 성능과 요구되는 계산량의 차이가 많다. 따라서 알고리즘의 본질과 장단점을 잘 이해하는 것이 중요하다. 간단한 패턴 분류를 위해서는 전통적인 의사결정나무 기법과 선형 경계선 분석 알고리즘 등으로 충분할 수도 있다. 군집화를 위해서는 K-평균 알고리즘이나 계층적 군집화 방법 등을 단순한 거리 개념과 같이 사용할 수 있다. 이 방법들은 대부분 통계적 추론 기법으로 오래전부터 잘 알려진 알고리즘들이다. 인공 신경망 기법은 최근 딥러닝 기법이 알려짐에 따라 다시 각광받고 있는 강력한 방법론이다. 인공 신경망 알고리즘은 지도 학습, 비지도 학습, 강화 학습 등에 모두 사용할 수 있다. 다양한 문제에 적용할 수 있는 매우 일반적인 방법론이다. 다양한 망구조에 따라 기능과 성능이 다르기 때문에 깊은 이해와 개발 경험에 의한 통찰력이 필요하다. 공개 소프트웨어로 만들어진 개발 도구들을 사용할 수 있는 이점도 크다. 이 방법론은 뒤에서 자세히 다를 것이다.
학습 알고리즘을 결정했으면 모델의 틀을 결정해야 한다. 모델의 틀은 학습 알고리즘을 정하고 나면 선택의 여지가 좁혀진다. 전통적인 방법에서는 패턴 분류의 경계선 형태는 어떤 것으로 할 것인가, 회귀분석에서는 선형으로 혹은 2차 다항식으로 할 것인가 등을 결정한다. 인공 신경망 기법을 사용하겠다고 결정했으면 망 구조를 결정해야 한다. 입출력층의 노드 개수는 문제의 성격이 결정해주겠지만 은닉층의 구조는 선택의 여지가 많다. 순환 경로를 둘 것인지, 계층적으로 구성할 것인지 등 망구조가 인공 신경망의 기능과 성능을 결정한다. 데이터의 양에 따라 연결선, 즉 망의 파 라미터 수를 제한하는 것이 바람직할 수도 있다. 그래야 새로운 입 력에 잘 작동한다. 이런 문제를 일반화 문제라고 하는데 다음 장에 서 다룰 것이다.
모델의 틀, 즉 구조가 결정되면 최적의 파라미터를 탐색하는 작업을 수행한다. 이 작업이 바로 최적의 모델을 선정하는 작업이 다. 이 과정은 컴퓨터가 수행한다. 많은 컴퓨팅 자원이 소요된다. 훈련의 속도와 성능을 결정하는 여러 가지 하이퍼 파라미터가 있는데 그 하이퍼파라미터의 성격을 잘 이해하고 결정해야 한다. 이것저것 시도해보고 결정하는 것이 일반적이다.
학습의 결과인 모델의 성능을 평가하는 것이 마지막 작업이다. 평가의 핵심은 새로운 데이터에 얼마나 잘 작동하는가를 보는 것이다. 그래서 훈련데이터와는 별도로 평가용 데이터집합을 준비한다. 평가에서 부족함이 발견되면 모델의 틀을 변경하거나 하이퍼파라미터값을 변경해 가면서 좋은 모델 찾기를 반복한다.
- 고등 동물은 자주 보는 손, 얼굴 등을 인식하기 위해 그 물 체 집합에만 반응하는 상위 수준 특성을 사용한다고 알려졌다. 해 당 특성들은 많은 노출에 의하여 자율적으로 학습된다는 이론이 있다. 또 자주 보는 할머니 모습과 같이 복잡한 상위 개념이나 특 정 물체에만 활성화되는 신경세포가 우리 뇌에 존재한다는 이론이 있다. 이를 할머니 신경세포' 라고 한다. 2012년 구글은 영상에서 신경망이 복잡한 물체를 자율적으로 발견할 수 있는지를 실험했 다. 연결선이 10억 개인 고층 신경망에 2만 개의 물체가 나타나는 1,000만 개의 영상을 라벨 없이 보여주었는데 물체의 존재 여부가 자율적으로 훈련이 되었다. 정확도는 사람 얼굴은 81.7%, 고양이 는 74.8%였다. 또 사람 얼굴과 고양이는 각각 다른 노드를 활성화 시켰다. 이 실험은 할머니 신경세포의 가설을 증명한 것이라고 볼 수 있다.
- 자연어는 애매하다. 상황에 따라 단어의 역할, 의미가 달라진다. 의미만 전달하는 것이 아니라 감정 등 부수적인 정보도 전달한다. 이를 위하여 동일한 객체나 현상이 여러 가지 방법으로 표현된다. 특히 대화에서는 같은 의도나 감정도 여러 가지 스타일로 표현된다. 문맥의 변화 속에서 의미와 감정을 파악하는 것이 가장 어려운 문제다. 명시적으로 제시되지 않은 상식과 세상 모델을 이용하기도 해야 한다. 이 문제를 해결하기 위해 문장에서 함께 나타나는 단어들과 그들의 역할을 평가하는 등 여러 가지 방 법을 시도하고 있다. 하지만 단어의 의미, 궁극적으로 문장의 의미를 이해하는 것은 어려운 문제다. 더구나 자연어의 범위는 매우 넓고, 새로운 어휘가 계속 생기고 의미도 변하는 등 끊임없이 진화하 기 때문에 더욱 어렵다.
그래서 자연어 처리에서는 확률적 판단을 자주 사용한다. 언 어 요소의 발생 빈도를 확률적으로 표현한 확률적 언어모델이 대표적이다. N개의 단어가 연속되었을 때 다음에 나타나는 단어의 빈도를 확률 분포로 표현할 수 있다. 또 특정한 순서로 단어가 앞뒤로 나타났을 때 가운데 단어의 빈도를 표현하는 모델을 심층 신 경망으로 만들기도 한다. 심지어 한 문장이 나온 다음에는 어떤 문 장이 나오는가를 예측하여 이야기를 작성하기도 한다. 최근 각광 받고 있는 GPT-3가 이런 능력이 있다.
- 컴퓨터가 자연어를 잘 처리하게 하려면 첫 단계는 언어를 적절히 표현하여 입력하는 것이다. 언어는 단어의 연결로 볼 수 있기 때문에 단어의 표현이 가장 기본이다. 기호 처리적 기법에서는 단어를 심볼로 표현하고 기호적 연산으로 추론 등을 수행했다.
그러나 신경망 기법에서는 수치적 계산을 하기 때문에 단어를 수치로 표현해야 한다. 단어를 N차원의 벡터, 즉 N차원 공간의 점으로 표현하는 기법이 최근 많이 쓰인다. N차원의 벡터 표현에서 의미가 유사한 단어들이 공간상에서 가까운 장소에 모이도록 배치한다면 여러 이점이 있다. '과일' 이라는 단어는 '사과' 와 유사한 위치 에 나타나기 때문에 문장에서 '과일'과 '사과'는 문법적으로는 물론 의미적으로도 유사한 의미로 사용할 수 있다. 유사한 단어들을 모으기 위해 문장에서 함께 나타나는 단어들 의 빈도를 분석한다. 단어의 의미는 문장에서 그 단어와 함께 나오 는 단어의 영향을 받아 결정된다는 언어학 이론이 있기 때문이다. 과일이나 '사과'는 먹는다'는 단어와 함께 자주 나오기 때문에 의 미가 유사하다고 간주할 수 있다. 비지도 학습 방법으로 큰 말뭉치 를 훈련용 데이터로 사용하여 단어의 벡터 표현을 구하는 것이 일반적이다. 벡터 표현은 자연어 처리의 성능을 결정하기 때문에 좋 은 벡터 표현 방법의 탐색은 중요한 연구과제다.
이런 표현 기법 하에서는 단어의 의미를 공간상에서 연산을 통해 유추할 수 있다. 벡터 표현이 잘 되었다면 유사한 관계를 갖는 단어 쌍들은 공간상에서 유사한 위치 관계를 유지할 것이다. 그림 에서 보듯이, "KING과 MAN의 관계와 동일한 관계를 WOMAN 과 갖는 단어는?" 이라는 질문을 "KING - MAN + WOMAN = ?"라 는 벡터 계산으로 구할 수 있다. 즉, QUEEN과 WOMAN의 관계 는 KING과 MAN의 관계와 유사하다.
- 딥러닝은 여러 인공지능 문제에서 뛰어난 성과를 보이고 있다. 그러나 방대한 학습데이터와 많은 계산이 필요하다는 것이 근본적 약점이다. 누구나 조금만 관심이 있다면, 수백 장의 훈련용 영상데이터와 PC정도의 계산 능력으로도 개와 고양이 사진 분류기'를 만들 수 있을 것이다. 또 간단한 명령어를 이해하는 챗봇도 만들 수 있을 것이다. 그러나 이를 넘어가면 다른 차원의 문제가 된다. 수백만 개의 훈련 데이터를 모아서 가공해야 하고 강력한 GPU 수십 개를 이용하여 며칠 또는 몇 주간 학습을 수행해야 한 다. 현실적으로 이러한 작업은 많은 데이터와 컴퓨팅 자원을 가진 대기업에서만 가능하다. 대기업이 아니면 경쟁력 있는 신경망 모 델을 만들 수 없다는 이야기다. 인공지능 소프트웨어, 특히 기계 학습 도구들이 공개되었지만 많은 데이터와 컴퓨팅 자원이 없다면 그림의 떡일 뿐이다. 전 세계적으로 딥러닝 적용 사례가 늘어나면서 점점 더 많은 컴퓨팅 자원이 데이터 학습에 투입된다. 이 때문에 전력 소비가 급격히 늘어나서 지구온난화를 가속시킨다는 우려 도 있을 정도다.
- 이런 문제를 완화할 수 있는 방법이 이미 개발된 신경망 모 델을 개방하고 공유하는 것이다. 이미 개발된 신경망 모델의 구조 와 훈련된 연결 강도 등을 모두 공개한다면, 이것의 성능을 개선하거나 이를 부품으로 사용하여 더 크고 강력한 모델을 만들 수 있을 것이다. 이를 위한 기술이 전이 학습ransfer Learning 이다. 전이 학습 은 이미 습득한 지식을 새로운 문제 해결에 이용하는 기술로써 신경망 기술의 확산과 발전에 크게 공헌하고 있다. 심층 신경망이 점점 다양한 영역에 적용되면서 전이 학습은 딥러닝 모델을 개발하는 데 매우 인기 있는 기술로 떠올랐다.
- 기계 학습은 기본적으로 통계적 학습 및 추론 방법이다. 그 성능은 데이터의 양과 질이 결정한다. 훈련 데이터가 많으면 많을수록 좋은 성능을 보인다. 기계 학습에서 필요로 하는 데이터의 양은 모델 파라미터의 수가 증가함에 따라 기하급수적으로 증가한다. 파라미터의 수에 비하여 데이터가 적으면 학습에 사용한 데이터에서는 잘 작동하지만, 새로 보는 데이터에는 잘 작동하지 않는다. 우리가 기계 학습을 통해서 인공지능 시스템을 만드는 이유는 새로운 문제에서 해결책을 얻고자 하는 것인데 이것은 치명적인 약점이다. 더구나 심층' 이란 단어에서 유추할 수 있듯이 심층 신경 망은 많은 수의 노드와 연결로 구성된다. 즉 파라미터의 수가 매우 크다. 따라서 심층 신경망을 훈련시키기 위해서는 방대한 데이터 를 확보해야 한다. 이는 딥러닝 기법의 확산에 큰 장애요인이다.
또 훈련데이터는 정확해야 한다. 특히 지도 학습에 사용되는 입력과 출력 쌍의 훈련 데이터는 철저히 점검하여 정확도를 높여 야 한다. 정확하지 않은 데이터로 훈련시킨다면 그 결과를 보장할 수 없다. 쓰레기 같은 데이터가 입력되면 쓰레기 같은 결과가 나오 는 것은 당연한 이치다. 데이터를 모으고, 빠진 정보를 채워 넣고, 잘못된 데이터를 수정하는 등 데이터 준비 작업에는 많은 노력이 필요하다. 더구나 이 과정은 자동화가 쉽지 않다.
딥러닝에서 다루는 심층 신경망은 매우 복잡하고 방대한 데이터로부터 학습한다. 최근 발표된 GPT-3 자연어 모델은 1,750억 개의 연결선으로 구성되어 있다. 5,000억 개 단어, 700기가바이트 의 문장이 훈련 데이터로 사용되었다. 이렇게 큰 신경망을 훈련시 키는 데에는 강력한 컴퓨터 능력이 필요하다. 이 훈련을 V100이 라는 GPU 한 개로 훈련시키면 200년이 걸린다는 계산이 나왔다. 지구 온난화를 딥러닝이 촉진하다는 비판이 빈말이 아니다.
- 딥러닝이 활성화된 2012년 이후부터 2018년까지 컴퓨터의 계산 요구는 30만 배가 증가했다고 한다. 데이터의 양에 따른 계산량은 기하급수적으로 증가했지만 학습 결과의 정확성은 로그함수로 증가한다. 그러나 가장 큰 이유는 점점 더 큰 심층 신경망을 개발하고 더 많은 데이터로부터 학습하기 때문이다. 엄청난 규모의 데이터와 컴퓨터 능력이 필요하기 때문에 딥러닝 연구와 심층 신경망 개발은 일부 글로벌 대기업에서만 가능하다. 상대적으로 부유 한 미국 대학에서도 우수한 연구원들이 더 나은 연구 환경을 찾아 기업으로 이탈하는 현상이 나타났다. 개발도상국 대학에서는 꿈도 못 꿀 지경이다.
자동차, 공장 등 인공지능을 필요로 하는 현장에서 직접 학습 하고 학습결과를 운용해야 할 필요성이 커지고 있다. 또 노트북이 나 스마트폰에서도 기계 학습을 수행하고, 그 결과를 실시간으로 운용할 수 있다면 인공지능이 빠르게 확산될 것이다. 현장의 기기 에서 학습하고 활용하는 것을 엣지 컴퓨팅이라고 한다. 이를 위해 신경망 계산을 가속화하는 반도체 칩의 개발 경쟁이 치열하다. 학습 효율을 높여서 적은 데이터로 효율적으로 훈련하는 방법에 대한 관심도 높아졌고 적은 컴퓨팅 자원으로 딥러닝을 수행하려는 녹색 인공지능의 연구도 시작되었으나 아직 성과는 미미하다. 많은 데이터와 컴퓨팅이 필요한 현재의 딥러닝 기법은 개선되어야 한다. 고양이 모습을 이해하기 위해 수백만 장의 고양이 사진과 며칠에 걸친 계산이 필요하다는 것은 난센스다. 새로운 돌파구가 필요하다.





'IT' 카테고리의 다른 글

2029 기계가 멈추는 날  (0) 2021.11.17
데이터 과학자의 일  (0) 2021.11.17
디지털 트랜스포메이션 필드매뉴얼  (0) 2021.10.29
어텐션 팩토리  (0) 2021.08.21
RPA의 습격  (0) 2021.08.04
Posted by dalai
,