- 머신러닝의 주류로는 지도학습, 비지도 학습, 강화학습이 있다. 장점과 단점이 각각 존재해 어떤 것이 정 답이라고 할 수는 없다. 지도학습을 하려면 정답이 있는 데이터가 충분히 있어야 한다. 는 것이 큰 단점이다. 정답이 있는 데이터가 있어야 하므로 때에 따라서는 사람들이 직접 레이블을 붙여야 하는 경우도 있다. 반면에 원하는 작업을 비교적 정확하게 할 수 있다는 것이 장점이다. 그래서 일이 정해져 있고 데이터가 풍부한 경우에는 지도학습을 이용한다. 그에 비해 비지도학습은 데이터만 있으면 된다. 대신 적은 양의 데이터로는 학습이 잘 안 된다. 이는 곧 데이터가 많아야 한다 는 말이다. 그렇지만 학습을 위해 정답을 부여하지 않아도 되므 로 쓸모 있는 데이터가 많다면 쉽게 적용할 수 있다.
문제는 지도학습과 비지도학습을 무처럼 잘라서, 여기에는 이 것을 쓰고 저기에는 저것을 쓰는 경우가 거의 없다는 사실이다. 상황에 따라 적절하게 섞어 사용하는 것이 가장 바람직하다. 예 를 들면, 비지도학습으로 적당한 클러스터를 찾고 그다음에 이름 을 붙인 뒤 지도학습을 다시 하는 식으로 학습할 수도 있다.
- 현재 확보한 데이터가 거의 없는 경우라면 강화학습이 유일한 방법이다. 강화학습의 경우에는 에이전트가 실패나 성공을 할 때 마다 학습하므로 계속 반복하면서 데이터가 저절로 생성된다.
즉, 데이터가 저절로 생성된다는 의미다. 어린아이가 넘어지면서 걷는 것을 배우는 것과 비슷하다. 강화학습은 반응에 적응하는 방식으로 배우기 때문에 모델만 잘 만들면 다양한 곳에 활용 할 수 있다. 딥마인드 같은 회사가 강화학습을 통해 일반지능 기술을 개발하는 데 활용하겠다고 하는 것도 이런 이유다. 하지만 데이터가 별로 없을 때 반복적으로 어떤 작업을 할 수 있도록 환경과 에이전트를 정의하는 작업, 많은 수의 시행착오를 거칠 수 있도록 하기가 그렇게 쉽지만은 않다. 그래서 실제로 적용할 수 있는 영역이 상당히 적다. 게임과 같은 환경에서는 반복 적인 시도와 실수를 쉽게 할 수 있어서 강화학습을 쉽고 효율적 으로 적용할 수 있다. 일단 환경에 들어가서 이것도 해보고 저것도 해보면서 학습하는 데 큰 부담이 없기 때문이다. 게임이 아니라 실제 자동차 주행 데이터로 강화학습을 하는 상황이라면 이는 더욱 불가능하다. 큰 사고가 여러 차례 생겨야 학습할 수 있는 상황을 누가 허용할 수 있겠는가.
- 인터넷의 발전 역사를 살펴보면, 초기에는 웹브라우저와 웹서 버 소프트웨어가 포문을 열어 시장을 주도했고, 그다음으로 이들 소프트웨어 보급이 확대되자 포탈과 검색 서비스를 제공하는 기 업으로 주도권이 넘어갔다. 그러다가 모바일시대가 열렸다. 모바 일시대에서는 스마트폰을 이용하는데, 스마트폰은 기본적으로 소통하는 기계이기 때문에 메신저 플랫폼이 모든 것의 중심이 되 었다. 한국의 카카오, 일본의 라인, 중국의 위챗이 전체 모바일 비 즈니스의 주도권을 쥐었다고 해도 과언이 아니다. 그렇다면 그다. 음 인공지능 시대의 주인공은 누가 될까??
이는 사람들의 행태를 보면 어느 정도 짐작할 수 있다. 웹과 메 신저, 이메일, 모바일 앱을 비롯해 전반적인 소프트웨어를 제어 하고 활용할 때 여러 가지를 따로따로 배우기보다는 적은 수의 인터페이스로 일관되고 통일적으로 쓰고 싶어 하는 것이 인지상정이다. 인간은 그렇게 복잡하고 많은 것을 쓰고 관리하기를 좋아하지 않는다. 그렇다면 무엇으로 여러 가지 서비스나 제품을 활용하고자 할까? 대부분의 사람은 음성이나 챗봇을 사용할 가능성 크다고 말한다. 여기에 AI 기술이 접목되고, 기술 편의성과 익숙함이 많이 향상되면 과거의 포탈이나 검색, 메신저 등의 포지션을 차지하게 될 것으로 전망된다.
- 이렇게 하기 위해서는 자연어처리와 자연어 생성 기술도 중요 해진다. 그리고 여기에 다양한 비즈니스 로직을 처리할 수 있는 클라우드 서비스까지 연계한다면 과연 어떻게 될까? 이때 챗봇 음성 플랫폼이 모든 것의 문지기 역할을 할 수 있다. 인터넷과 웹 시대에는 검색이 문지기 역할을 하고, 모바일시대에는 메신저 플랫폼이 그 역할을 했다. 지금은 AI가 중심이 되는 시대이다. 개인이 활용해야 하는 데이 터와 디바이스의 종류가 많은 지금 시대에는 챗봇이나 음성 에이전트가 문지기 역할을 할 가능성이 크다. 결국 이들이 정보를 찾고, 고객을 응대하고, 교육하고, 여러 기기를 컨트롤도 하고, 워크플로우를 관리한다면 이 문지기를 장악하는 것이 미래 가장 중요한 비즈니스 주도권을 가질 것이다. 수많은 기업이 이 시장을 놓고 경쟁하는 이유이다.
- 한 가지 중요하게 살펴볼 부분은 'AI 스피커로 무엇을 할 것인가'이다. 그동안에는 타이머를 맞추고, 음악을 플레이하고, 뉴스를 읽고, 알람을 설정하고, 전등과 같은 사물인터넷 기기를 조종하고, 쇼핑에 도움을 주는 등의 일반적인 사용 형태를 보인다. 하지만 최근에는 보이스 앱 형태로 구매할 수 있는 것들이 점점 많이 등장하면서 앱스토어처럼 다양한 생태계가 만들어지고 있다. AI 스피커로 인지기능을 높여주는 전용 앱을 통해 초기 인지장애 에 도움을 주는 시도도 있으며 명상과 같이 건강이나 치료 목적의 시도도 늘어나고 있다.
- 실제 상황에서는 대부분 데이터 세트의 양은 많지만 정답이나 레이블이 제대로 달려 있는 데이터 세트가 적은 경우가 많다. 이 런 경우에는 양질의 답이 있는 소수 데이터 세트를 이용해서 답 이 없는 데이터에 답을 붙이는 작업을 할 수 있는데, 이런 방식의 학습을 준지도학습(Sermi-Supervised Learning)이라 부른다.  또한 답은 있지만 답이 명쾌하지 않은 경우도 있다. 예를 들어 인스타그램 이미지에는 해시태그가 많이 달리는데, 사실 이 해시태그들이 인스타그램 해당 사진을 제대로 설명하지 못하는 경우가 많다. 그러나 전혀 관계가 없다고 할 수는 없는 약한 연관성을 가지고 있는데 이런 정답 또는 레이블을 약한 레이블(Weak Label)'이라 부른다. 이런 레이블들은 이미지나 데이터를 완벽하 게 설명하지 못한다. 그렇지만 이런 경우에도 데이터가 충분히 많으면 학습을 잘 시킬 수 있는 알고리듬을 만들 수 있는데, 이런 알고리듬을 약지도학습(Weakly-Supervised Learning)이라 한다. 최근에는 이들 두 가지 알고리듬의 장점만을 적절하게 섞은 것도 나오고 있는데 대표적인 것이 페이스북이 2019년 발표한 준약지도학습(Semi-Weakly Supervised Training)이다. 준지도학습 방 식인 스승-제자(Teacher-Student) 모델과 대량의 약지도 데이터 세트에서 최고의 답이 달린 일부 샘플을 구성하고 강화하는 방 식을 동시에 활용하면, 양질의 데이터가 상당히 좋은 성능을 낼 수 있다는 것이 이 연구의 결과이다. 즉 언제나 양질의 데이터가 많아야만 학습시킬 수 있다는 가정은 이제는 틀렸다고 말할 수 있다. 여기에 더해 최근 다양한 연구 성과를 내고 있는 대형모델(Big Scale AI)을 가능하게 만든 자가지도학습(Self-Supervised Learning) 기술의 발전도 빼놓을 수 없다. 항상 정답을 제공해야 하지만 빠 른 학습이 가능한 지도학습이나, 데이터만 제공하면 되기 때문에 학습 가능한 데이터를 쉽게 공급할 수 있는 비지도학습의 장점을 적절하게 섞은 기술이다. 기술에 대한 자세한 설명은 이 책의 범위를 넘기 때문에 생략하지만 자가지도학습' 이라는 용어의 중요성 정도는 알고 넘어가는 것이 좋다.
- 흔히 딥러닝을 이야기할 때 가장 중요한 것 중 하나가 데이터라고 한다. 그렇지만 이 부분에 대해서는 좀더 세심히 봐야 할 필요가 있다. 신경망의 크기나 알고리듬에 따라서 데이터 크기의 중요성이 달라지기 때문이다. 일반적으로 전통적인 머신러닝 알고리듬이나 통계학적 학습의 경우 데이터가 적어도 비교적 좋은 결과를 빠르게 내는 것으로 알려져 있으며, 데이터 양이 많아진다고 해서 성능이 반드시 좋아지는 것은 아니다. 이에 비해 신경망의 경우에는 크기가 크면 클수록, 데이터가 많으면 많을수록 대체로 결과가 좋아지며 성능이 향상되는 경향을 보인다. 단순히 데이터의 양이 많아야만 한다고 이야기하는 것은 옳지 않다. 물론 최근 신경망의 경우, 모델의 크기가 커지면서 데이터 크기가 커지면 성능이 좋아진다고 말하는데, 이것이 완전히 틀렸다고는 할 수 없다. 그렇지만 이런 경우에도 상용화를 할 때는 요구되는 컴퓨터의 연산양이 많아지고 그것이 속도에도 영향을 미치기 때문에, 적절한 신경망의 크기와 데이터의 크기는 상황에 따라 달라질 수 있다는 사실을 잊어서는 안 된다. 그림 7-4는 최근 구글이 공개한 머신러닝 코스 워크 중에서 문제의 프레임을 정의하는 부분이다. 머신러닝 기술 자체를 익히는 것도 중요하지만 상용화를 위해서는 그 밖의 다른 부분을 많이 이해해야 한다. 무엇보다 중요한 것이 머신러닝으로 풀어야 하는 문제를 정의하고, 어떤 종류의 정답이 달린 데이터가 있는지를 확인하며, 모델에 적합한 데이터를 디자인하고, 어디서 데이터를 얻을지 결정하며, 쉽게 얻을 수 있는 입력과 정량적 측정이 가능 한 출력 등을 잘 정의하는 일이다. 이런 과정을 거쳐 데이터 세트를 먼저 만든 후 데이터를 적절하 게 변형해서 모델을 학습시킨 다음에 AI 모델을 적용해 예측한다. 이런 프로세스가 AI 기술을 현업에 적용하는 전형적인 방식이다.
- 때때로 기대와 현실은 무척 다르다. 연구자들처럼 최적의 AI 모델을 테스트하고 최신의 이론을 적용할 것 같지만, 실제 현실에서 하는 일은 어떻게 데이터를 모을 것인지부터 시작해서 설정값을 바꾸고, 데이터가 정확한 것인지 확인하고, 사용할 수 있는 컴퓨터가 얼마나 되는지 기다리거나 컴퓨터에서 발생한 문제를 해결하며, 지속적으로 모니터링하면서 이상한 문제는 없 는지 기다리며 시간을 보낸다. 이런 작업을 효과적으로 하기 위 해 다양한 분석 도구, 프로세스 관리 도구, 서비스 인프라 등을 잘 정하고 활용하는 것이 현실 서비스에서는 머신러닝 모델을 잘 만드는 것보다 중요할 수 있다.
이 중에서도 가장 귀찮으면서도 중요한 것이 데이터를 모으고, 데이터에 좋은 레이블을 붙이는 작업이다. 이는 생각보다 쉽지 않 은 일이라서 이 작업만 전담하는 플랫폼 기업들이 등장하기도 한- 데이터를 모으고 적절한 레이블을 붙이는 작업자와 이들의 작 업을 관리하고 검수하는 시스템을 오픈 플랫폼으로 만들어 양질의 데이터를 기업에 공급한다. 물론 이 작업에도 AI 기술이 활용 되기도 하지만 AI 기술을 제대로 활용하기 위해서는 데이터에 대 해 이해도를 높이고, 좋은 데이터를 만들고 확보하기 위한 노력 을 게을리하면 안 된다. SK C&C가 만든 인공지능 에이브릴을 기억하는가? 이것은 IBM의 인공지능 기술인 왓슨을 라이센싱해서 한국어 버전으로 만든 서비스이다.  이 경우에도 왓슨의 서비스를 제대로 돌리기 위해 한국어 학습 을 위한 데이터 수집이 필요했다. 이때도 크라우드웍스와의 협력다. 국내에서는 크라우드웍스가 대표적이다.
- 에이브릴 서비스의 탄생은 단순히 AI 기술만 있다고 탄생할 수 있는 것이 아니다. 데이터가 중요하다면 스마트폰을 활용해서 사진도 찍을 수도 있고 위치 정보와 거래 정보도 활용할 수 있다. 이렇게 고급 데이 터를 잘 활용해서 학습한다면 생각보다 많은 일을 할 수 있다. 중 국의 위챗은 이런 데이터를 잘 활용한 기술을 많이 사용하는 것으로고 알려졌는데, 중국이 AI 슈퍼파워라고 불리는 이유가 데이터를 마음대로 활용하고 학습할 수 있는 기회가 많아서이다(최근에는 중국에서도 강력한 개인정보보호법이 시행되기 시작했다), 이에 비해 한국은 개인정보보호법이 강력해서 실제 작업할 때 어려움이 만만치 않다. 그렇다고 새로운 학습을 하지 못하도록 해서 AI 기술의 발전이 저해된다면 손해가 막심할 것이다.











'IT' 카테고리의 다른 글

가볍게 떠먹는 데이터 분석 프로젝트  (0) 2022.02.16
21세기 권력  (0) 2022.01.08
아세안 슈퍼앱 전쟁  (0) 2021.12.18
NFT사용설명서  (0) 2021.12.05
인공지능으로 성공하기  (0) 2021.11.26
Posted by dalai
,