보이스 퍼스트 패러다임

IT 2019. 11. 15. 07:59

- 알렉사 스킬은 스마트폰의 앱에 해당. 알렉사 스킬 킷 공개를 통해 음악서비스 판도라, 스포티파이와 스마트폼 서비스 필립스 휴, 벨킨 위모가 알렉사, 에코 생태계에 첫 발을 내딛었다. 17년 7월 기준 알렉사 스킬의 수는 15000개를 넘어서고 있으며, 영어와 독일어 서비스를 제공하는 알렉사 스킬을 위한 스토어가 운영되고 있음. 16년 출범한 알렉사 펀드는 보이스 및 사물 인터넷 관련 기술기업에 대한 시드 및 시리즈A 투자를 중심에 두고 있음. 몸짓 제어기술 기업 탈믹 랩스, 로보틱스 기업 임바디드, 홈 자동화 기업 에코비, 유아 모니터링 기업 아울렛 베이비 케어에 시리즈B 투자, 초인종 제작기업 링에 시리즈C 투자를 진행. 이외에도 알렉사 펀드는 스프링쿨러, 인터컴, 스피커, 보안카메라, 부엌기기, 반려동물 먹이통 등 다양한 사물 인터넷 분야에 투자하고 있다. 알렉사 펀드는 알렉사와 수직 및 수평통합할 수 있는 서드파티의 범위 또는 영역을 확장하는 역할을 담당하고 있음.
- 알렉사, 에코의 진화과정은 알렉사가 플랫폼을 지향하고 있음을 쉽게 알 수 있음. 알렉사는 아마존 상거래 서비스의 보이스 인터페이스를 뛰어넘어 음악, 영상, 퀴즈 등 다양한 스킬을 제공하는 등, 스마트폰과 앱 생태계의 결합형태와 유사성을 갖고 있다. 그 기능영역 또한 전통적 의미의 스마트폰을 넘어 스마트홈, 자동차 등으로 확장하고 있음을 확인할 수 있다. 앞서 제시한 알렉사, 에코의 진화과정을 통해 이후 플랫폼으로서 알렉사가 어느 방향으로 발전할 수 있는지 추론 가능.
* 알렉사를 탑재한 다양한 전문기기의 출현. 에코쇼, 에코룩이 대표적이며, 이런 기기확장을 통한 수평통합은 아마존 틀 안에 제한되는 것이 아니라, 다른 기업이 제공하는 보이스 인공지능 서비스가 알렉사를 수용할 수 있음을 의미. 알렉사와 에코의 분리는 수평통합의 출발점으로 평가 가능.
* ASK의 공개와 알렉사 펀드는 알렉사가 보다 다양한 기능영역으로 확장하는 읟를 갖고 있음을 말함. 이와 대조적으로 17년 7월 중국 알리바바가 공개한 보이스 인공지능 서비스 티몰지니는 그 이름 자체에서 이미 보이스 인공지능 서비스를 상거래 영역에 제한하고 있다. 티몰지니라는 이름은, 알리바바가 제공하는 전자상거래 쇼핑몰 티몰의 이름을 딴 것으로 쇼핑기능 이상의 확장성을 고려하지 않은 이름이다. 만약 상거래뿐 아니라 공공요금 결제, 예약, 지불 등 다양한 서비스 영역을 포괄하는 메신저 기반 서비스 위챗의 텐센트가 보이스 인공지능 서비스를 제공한다면 이러한 제한은 치명적 한계로 작동 가능. 스마트폰의 앱생태계처럼 보이스 인공지능은 보다 포괄적이고 일반적인 서비스 영역을 확보할 때 플랫폼 지배력을 확보할 가능성이 높기 때문.
* 아마존의 보이스 인공지능 서비스는 쇼핑, 예약, 주문 등의 기능을 제공하면서 아마존이 갖고 있는 다양한 서비스로 수직통합을 시도. 한국에 등장하는 보이스 인공지능 서비스는 쇼핑, 예약, 주문 등의 기능을 제공하면서 아마존이 갖고 있는 다양한 서비스로 수직통합을 시도함. 한국에 등장하는 보이스 인공지능 서비스가 음악 서비스를 제공하는 모습 또한 수직통합으로 분류 가능. 그러나 알렉사가 에코라는 특정 스피커로부터 독립하면서 보이스 인공지능은 자동차 또는 파이어TV 등 생활 곳곳으로 스며들 수 있음. 이때 비로소 이용자가 머무르는 곳 어디든 보이스 인공지능 서비스가 존재할 수 있음. 또한 보이스 인공지능 서비스가 플랫폼으로 발전할 수 있는 전제조건은 수직통합이 아닌 SDK 공개에 기초한 수평통합이다. 여기서 뜨겁게 가열되고 있는 보이스 인공지능 서비스 경쟁구도의 방향을 가늠할 수 있다.
- 보이스 인터페이스의 궁극적 도달지점은 보이스컴퓨팅이다. 프로그램을 열고, 워드를 치고 파워포인트를 작성하고, 거래를 수행하는 그 이상의 생산적 활동들을 목소리로 처리함으로써 스크린과 키보드, 데스크탑이라는 입력장치를 불필요하게 만드는 지점이다. 이는 우리가 스마트폰과 컴퓨터로 해 왔던 그 모든 프로그램을 목소리를 다룰 수 있게 된다는 것을 의미. 만약 우리가 보이스 컴퓨팅을 하게 된다면, 간단한 말로도 충분한 작업들을 위해 좁은 스크린을 얼마나 많이 터치해왔었는지 실감하게 될 것임.
- 애플의 시리가 정체기를 겪는 동안, 구글은 나우 등 음성검색에 사용하던 자연어 처리와 봇 기술을 발전시켜 구글 홈을 출시. 구글 홈에 탑재된 구글 어시스튼트는 알렉사가 갖지 못한 강력한 검색기능과 맥락 이해, 목소리 구분 등으로 알렉사와 차별화된 서비스를 보였다. 구글 어시스턴트는 자회사 네스트를 통해 모바일 사물인터넷 플랫폼과 차량용 OS인 안드로이드 오토를 겨냥하고 있으며, 각종 콘텐츠를 스트리밍으로 추천받을 수 있는 크롬캐스터를 갖고 있다는 장점이 있다. 구글은 이렇게 이미 짜인 플랫폼을 어시스턴트로 통합하려 한다. 알렉사의 쇼핑기능 역시 놓칠 수 없었던 구글은 월마트, 코스트코, 스페이플스 등과 파트너십을 맺고 당일 배송 서비스인 구글 익스프레스를 운영하여 목소리로 생필품을 주문할 수 있도록 하고 있다.
- 아마존의 다양한 제품을 편리하게 주문할 수 있다는 점에서 알렉사의 쇼핑기능은 압도적임. 게다가 우버, 도미노, 캐피탈원 같은 서드파티 업체들이 참여하면서 실생활에 필요한 서비스를 제공하는 데 뛰어난 음성비서로서의 지위를 자리매김하고 있다. 반면에 알렉사의 몇몇 기능은 아직 제한적임. 번역이나 검색기능이 뒤떨어지며, 개개인의 목소리를 구별하지 못함. TV에서 흘러나온 "알렉사, 인형의 집 주문해줘"라는 음성에 반응해 방송을 시청하던 여러 가정에서 알렉사가 실제 인형의 집을 주문할 뻔했다는 뉴스는, 목소리를 구별하지 못하는 알렉사의 치명적 단점을 보여주었다. 현재 알렉사 팀은 목소리를 구분하는 서비스를 개발중. 하지만 구글은 이미 여섯개의 목소리 ID를 등록하여 개별적으로 이용할 수 있도록 하는 등, 알렉사의 부족한 점을 탁월하게 보완한 서비스를 선보임을써 보이스 인공지능 시장의 일부부능ㄹ 당당하게 차지했다.
- 모든 보이스 인공지능 서비스들은 자신을 낳은 테크기업의 정체성을 닮음. 아마존 알렉사는 쇼핑이 편리하고, 구글홈은 검색이 장점. 마이크로소프트는 코타나를 업무 및 비즈니스 활동에 최적화할 것으로 보임. 한국이라면 검색 및 번역, 지역정보 안내에는 네이버의 인공지능 서비스가, 메신저 이용이나 택시 호출에는 카카오 인공지능이 가장 유리한 인터페이스를 제공할 것이라는 예상은 어렵지 않다. 그리고 삼성 빅스비가 타 인공지능 서비스와 달리 스마트폰이라는 기계를 제어하는 데 있어 몇 가지 연속된 명령을 처리하는 등 하드웨어 제어에 매우 특화되어 있는 점도 흥미로움. 이 역시 오랫동안 하드웨어를 만들어온 삼성의 정체성과 무관하지 않다. 그렇다고 각 기겅븨 AI가 자사 서비스만 이용할 수 있도록 만들어진 것은 아님. 타사 서비스를 호출하여 사용할 수 있음. 그럼에도 불구하고 역시 자사 서비스를 이용할 때 가장 매끄러운 인터페이스를 제공함. 알렉사로 아이클라우드 캘린더를 이용할 수 있지만, 삭제할 권한은 없다. 시리로 텔레그램을 이용하여 메시지를 보낼 수는 있지만, 아이폰 디폴트 메시지를 이용할 때보다는 불편함. 구글 어시스턴트나 알렉사 모두 단어를 번역해 달라고 요청할 수 있지만, 자체 번역 서비스를 가진 구글은 요청에 바로 답하는 반면, 알렉사는 서드파티 앱을 호출한 뒤 물어보아야 한다.
- 현재 보이스 인공지능 서비스들은 호환성, 소프트웨어, 쇼핑, 하드웨어 등에서 각각의 차별화된 강점을 선보이며 조금씩 경쟁하고 있지만, 결국 서로 타사의 경쟁력 있는 서비스들을 점차 닮아가고 있음. 15년 애플은 기억하는 인공지능인 보컬 아이큐를 인수했는데, 이는 맥락이해에 있어 구글을 뛰어넘을 가능성을 시사. 알렉사는 목소리 구분서비스를 준비중이고, 구글 어시스턴트는 구글렌즈라는 이미지 인식 서비스를 연계함으로써 또 다른 도약을 준비중. 한편, 서비스 사이의 합종연횡 가능성도 높음. 17년 8월 아마존 알렉사와 마이크로소프트 코타나가 손을 잡음. 두 기업은 클라우드 산업에서 첨예한 대립구도를 이루는 경쟁사여서, 이번 제휴는 많은 저널리스트들을 놀라게 했음. '알렉사, 오픈 코타나', '코타나, 오픈 알렉사'라는 짧은 명령으로 두 보이스 인공지능의 통합이 가능해짐. 예컨대 알렉사로 아웃룩 캘린더와 이메일 서비스를 이용 가능
- 스마트 스피커라고도 불리는 이 디바이스의 중요한 특징은 '알렉사'나 '오케이, 구글' 과 같은 깨우기 단어 또는 활성화 구문을 인식한다는 것. 이용자의 '알렉사, 부엌 불을 켜줘'라는 음성 요청을 스피커가 이해하여 응답을 모두 처리하는 것은 아님. 이 스피커 디바이스 내에 내장된 작은 프로세서는 그러한 처리를 모두 할 만큼 강력하지는 않다. 우리가 접하는 음성인식 디바이스는 이용자가 부르는 '알렉사'라는 단어를 인식하여 이용자의 음성을 녹음하기 시작하며, 말하기를 마치면 '부엌불을 켜줘'와 같은 녹음된 음성을 인터넷을 통해 서버로 보내는 역할을 함. 그리고 전성한 음석에 대한 결과를 서버로부터 받아 명령을 수행하는 것임
- 시리를 개발했던 팀인 식스파이브 연구팀은 애플을 떠나 비브랩스에서 범용 인공지능을 위한 연구를 계속함. 현재의 인공지능이 '들려 줘', '켜 줘', '찾아 줘', '주문해 줘'와 같은 단순한 명령어로 이루어진 주문만 처리하는 데 반해 그들은 정말로 인공지능이 사람이 세상을 배워가듯 학습하는 것을 원했다. 비브랩스 연구팀은 인공지능이 스스로 문장 속의 영역을 파악하고 무엇을 찾아야 할지 학습하는 알고리즘을 개발
"동생 집으로 가는 길에 라자냐와 어울리는 저렴한 와인을 픽업해야겠어'
여기서 비브는 '동생'은 관계이고, '집'은 주소이며, '라자냐'는 음식이라는 것을 파악. 그래서 연락처에 동생과 집에 대한 정보를 합쳐 주소에 대한 길찾기 루트를 확보함. 그리고 라자냐가 어떤 종류의 음식인지 파악한 후 그것과 잘 어울리는 와인을 인터넷에서 찾는다. '피노누아'라는 와인이 추천되면 그것을 보유하고 있는 와이너리에 대한 정보를 앞서 찾은 길 찾기 정보와 합친다. 이 모든 과정에 이루어지는 데 20분의 1초가 걸림. 이런 방식으로 비브는 단어의 맥락을 파악하여 새로운 플랜을 스스로 세워 임무를 수행함. 비브는 시공간적 맥락을 이햐하며, 사물에 대한 좌표를 이해함. 이것은 인간이 세상을 학습해 나가는 과정과 유사. 비브는 영역, 온톨로지, 택소노미를 배운다. 온톨로지는 하나의 개념이 어떤 개념들과 연결되어있는지 파악하는 것을 의미하고, 택소노미는 생물-동물-조류-꾀꼬리 처럼 사물에 대해 종과 속을 분류하는 것을 말함
- 우리는 데이터를 입력하기 위해 웹페이지를 방문하거나 스마트폰에서 앱을 열어야 했다. 지금까지 앱과 같은 서비스가 사람들로 하여금 데이터를 입력하도록 끌어당겼다면(pull-based), 이제는 모든 서비스가 사람들에게 다가올(push-based) 것이다. 이러한 빅 리버스와 함께 애플리케이션들은 전기나 수도처럼 눈에 보이지 않지만 항상 존재하는 형태가 될 것이다. (가우라브 샤르마)
- MIT 미디어랩에서 플루이드 인터페이스 그룹을 이끌고 있는 패티 메이즈는 현재의 인터페이스 방식은 주어진 상황과 맥락을 이해하지 못하고, 이용자 명령에 반응하는 수동적 방식이며, 이용자가 기기와 상호작용하기 위해서는 잠시라도 하던 일을 멈추어야 하는 한계를 가지고 있다고 주장. 그에 따르면 미래의 인터페이스는 상황과 맥락을 해석하여 이해하고, 이용자 시점에서 정보를 능동적으로 제공하고 이용자 개입은 최소화되어야 하며, 인터페이스가 주의를 분산하지 않고, 이용자에게 끊김없이 통합적인 경험을 제공하는 방향으로 발전해야 한다고 한다. 같은 맥락에서 음성인터페이스는 인터페이스의 역사에 메이즈가 주장하는 의미있는 변화를 유발할 수 있는 잠재력을 갖고 있다. 멀티터치 인터페이스가 그래픽 기반의 상호작용에서 가장 직관적 지점에 도달했다면, 보이스 인터페이스는 텍스트 기반에 있어 근본적 변화를 불러오고 있기 때문이며, 인간이 컴퓨터의 언어를 배우는 것이 아니라 컴퓨터가 인간을 이해하기 위해 노력하는 방향으로 인터페이스는 진화하고 있기 때문
- 보이스 인터페이스는 모니터와 본체, 키보드와 마우스로 이루어진 전통적 형태의 컴퓨터와 인터페이스를 해체하기 시작. 키보드나 터치가 인간의 의도적 노력을 필요로 하는 입력방식이라면, 음성은 보다 자연스레 존재하는 방식이다. 현재 보이스 인터페이스는 시리처럼 아이폰에 장착되어 있거나 에코나 구글홈 같은 스피커 형태를 띠지만, 가까운 미래에는 언제 어디서든 이용자가 원하는 형태로 존재할 수 있다.
- 갤러웨이는 알렉사가 제안해준 배터리 가격이 아마존 웹사이트에서 볼 수 있는 가장 저렴한 배터리 가격보다 비싸다는 점을 지적하며, 알렉사를 통한 음성구매가 소비자에게는 최선이 아닐 수도 있다고 이야기한다. 보이스 기술의 발전으로 가격 선택권이 소비자에서 아마존이라는 유통업체로 넘어갈 수 있음을 상징적으로 보여주는 사례다. 이렇게 모바일에서 보이스로 넘어가는 변화에서 소비자들의 가격에 대한 민감도가 줄어든다는 사실은 주목할 필요가 있다. 특히 음성 인터페이스 외에도 다양한 경로로 소비자 개개인의 데이터를 수집한 유통업체들은 훨씬 더 고도화된 데이터 분석을 이용하여 소비자 개개인의 소비성향을 면밀히 파악할 것이다. 분석한 정보를 이용하여 유통업체는 각각의 소비자 제품에 대한 가격 탄력성을 파악할 수 있게 된다. 이는 개인별, 상품별로 유통업체의 이익에 가장 유리한 가격에 판매하는 전략의 실행을 점점 용이하게 해줄 것이다.
- 에즈라히와 스투케는 16년 그들의 저서 '가상경쟁 : 알고리즘 기반 경제의 미래와 위험'에서 기술을 이용하여 소비자에 대한 정보를 더 자세하게 수집한 전자상거래 업체들이 어떤 식으로 동일한 상품을 소비자에 따라 다른 가격에 팔아왔는지 조사. 물론 개인 데이터의 추적과 수집을 통해 유통업체들이 감성적 호소와 함께 적당히 높은 가격에 제품을 판매할 수 있음은 누구나 예상 가능. 하지만 저자들은 거기서 더 나아가 전자상거래 업체들이 다른 소비자에게 각각 다른 가격을 부과할 수 있다는 사실을 밝혀냄. 개인 데이터가 더 정교하게 축적되면 개별 고객이 기꺼이 지불하고자 하는 액수를 추정 가능
- 개인별로 상이한 가격으로 판매하는 것은 반독점법 위반이라는 이슈를 불러일으킬 수도 있지만, 만약 업체가 '탄력적 가격정책이 소비자에게도 많은 혜택을 준다'는 주장을 내세운다면, 이러한 가격정책은 저항없이 널리 받아들여질 수도 있다. 결국 소비자들은 유통업체가 정하는 가격을 따를 수밖에 없는 프라이스 테이커의 운명이 될 수도 있다.
- 아마존은 핸드폰이나 인터넷이 연결된 TV 셋톱박스를 선보이게 될까? 그렇다. 아마존은 자기 고객들이 경쟁자 하드웨어에 전적으로 의존하지 않고도 고객들이 사용하는 인터넷 연결기기에서 아마존 서비스를 사용하길 원하기 때문이다. (아마존, 세상의 모든 것을 팝니다)
- 아직까지는 신기한 기계 수준으로 인식되는 음성인식 기기들이 본격적으로 돈버는 기기로 탈바꿈하기 위해서는 음성 인식 기술을 소비자들의 구매행위와 연결시키거나(아마존), 음성인식 기술을 통해 전달하려는 정보의 제공자에게 비용을 받아야 함(구글). 음성인식기술을 쇼핑과 직접적으로 연결하는 데는 이미 음성인식기기 시장에서 압도적 1위를 차지하고 있는 아마존을 따라올 경쟁자는 아직 없다. 그 배경에는 생필품, 식료품, 의류 등 미국 내 온라인 쇼핑의 확대가 더뎠던 상품분야에 대한 아마존의 꾸준한 투자가 있었다. 아마존은 이들 상품군들을 직매입(생필품)하거나 자체제작(의류)하고 가격경쟁력을 확보하여 스크린과는 전혀 다른 음성주문 분야에서도 어떤 상품을 노출할지에 대한 고민 자체를 없앴음. 새롭게 선보인 대시 완드는 프라임 회원 기준 가격이 20불에 불과해 경쟁기기들과는 상대가 안될 정도로 저렴할 뿐만 아니라, 첫 주문시 아마존에서 캐시백으로 20불을 되돌려주기 때문에 실질적으로는 공짜. 그러나 좀 더 확장된 쇼핑음식 배달, 콜택시, 여행정보 등에 있어서는 16년 10월 선보인 구글 홈에 보다 많은 기회가 있을 수도 있음. 17년 1분기 기준 구글 매출의 87%는 검색광고 수익. 구글이 그동안 구축한 광범위한 검색 쿼리를 성공적으로 음성 인터페이스로 옮겨갈 수 있다면 구글의 검색광고 불패 신화는 이어질 것이다. 구글 홈에는 아직 직접적 광고가 없지만, 곧 광고를 탑재할 것이라는 추측이 일반적. 단, 구글에는 세가지 위험이 있다.
첫째, 음성기기를 통한 광고 기회는 스크린을 통해 다양한 정보를 한꺼번에 눈으로 확인하는 PC나 모바일에 비해 양적으로 적을 수밖에 없다.
둘째, 이미 광고시장을 장악하고 있는 구글로서는 음성광고가 자사의 PC나 모바일 광고를 잠식할 가능성을 배제할 수 없다.
셋째, 미녀와 야수 광고소동에서 알 수 있듯이 음성 인식기기에서 나오는 광고를 이용자들이 불쾌하거나 거추장스럽게 받아들이는 경우, 아예 해당 기기를 사용하지 않거나 경계하는 결과를 가져올 수 있다.

'IT' 카테고리의 다른 글

당신은 데이터의 주인이 아니다  (0) 2020.02.08
모바일 미래보고서 2020  (0) 2020.01.10
포노사피엔스  (0) 2019.10.10
모든 것이 연결된 세상 IT 레볼루션  (0) 2019.10.10
AI 사람에게 배우다  (0) 2019.09.15
Posted by dalai
,