2025 AI대전환

IT 2025. 7. 2. 12:30

- AI 기술 자체는 놀라울 만큼 빠른 발전 속도를 보여주고 있지 만, 실제 우리 산업과 일상에의 확산 속도는 그와는 사뭇 다르다. 자율주행 시대의 걸림돌이 기술보다는 도로 인프라에 있는 것처럼, 지금은 AI 시대를 활짝 열어줄 여러 관문들과 그에 맞는 열쇠 들을 본격적으로 찾아야 하는 시기다. AI의 미래는 기술이 아닌 AI가 어떤 형태로 우리 삶에 적용되어 더 안전하면서도 연결된 삶을 만드는지에 달려 있다.

- 멀티모달 AI의 핵심은 맥락 이해에 있다. 다양한 유형의 데이터 입력과 그 데이터 간의 연결성을 인식할 수 있기 때문에 출력은 더욱 풍부하고 직관적이며, 인간 지능에 더욱 가까워 보일 것이다. 이러한 통찰력은 거의 모든 산업 분야에서 혁신을 가져올 것이다. 다만, 투명성, 공정성, 책임성과 같은 요소들이 멀티모달 AI에서 우선적으로 다뤄져야 하며, 아직 그 여정은 시작에 불과하다. 

- 할루시네이션(혹은 AI의 거짓말)은 왜 발생할까? 
* 신뢰할 수 있는 데이터지만 AI 모델 특성으로 인해 생성된 답변 자체에 환각이 발생하는 경우 
* 소스 콘텐츠 자체의 오염된 데이터로 인해 데이터 품질에 문제 가 있는 경우
* 입력된 프롬프트 자체가 불분명하거나 일관성이 없거나 모순된 내용을 포함하는 경우 

- 할루시네이션은 이처럼 생성형 AI 모델 자체의 특성 외에도 다양 한 이유로 발생할 수 있다. 그렇다면 모든 할루시네이션이 문제일 까? 할루시네이션은 크게 두 가지 관점에서 살펴볼 수 있다. 
* 긍정적인 할루시네이션: 시각적 또는 언어적으로 나타니는 할루 시네이션은 문화, 예술, 창작 등 창의적인 영역에서는 오히려 장 점이 될수 있다. 존재하지 않는 사물이나 장면을 시각적으로 만 들어내고, 허구적인 정보와 사건을 통해 스토리를 구성하는 데 활용될수 있다. 텍스트, 이미지, 영상 등의 콘텐츠 확장을 통해 새로운 발견, 생성, 기획이 가능하다. 즉, 모든 할루시네이션이 나쁜 것은아니다. 
* 부정적인 할루시네이션: 언어적 이해 측면에서 잘못된 추론을 통해 실제 맥락에서 벗어난 답변이나 부정확한 정보를 생성할 수 있다. 또한, 학습 데이터에 포함된 사회적 편견을 반영하고 증폭시켜 비윤리적인 관점, 차별, 고정관념 등의 편견을 만들어 낼 수 있다는 점에서 문제가 된다. 우리가 해결해야 할 할루시네이션 문제는 바로 이 지점이다. 

-  할루시네이션을 줄일 수 있는 방법들
* 타겟 데이터 소스 활용: 질문에 대한 답을 찾기 위해 검증된 출처 의 데이터를 활용하도록 유도한다. 이렇게 하면 AI 모델은 고관여:고품질의 정보를 기반으로 답을 생성할 수 있어 할루시네이 션의 가능성을 줄일 수 있다. 
* 의미론적 엔트로피 semantic Entropy4) 계산: 2024년 6월, 과학 저널<네이처>에 발표된 연구에 따르면 의미론적 엔트로피를 계산 해 할루시네이션 발생 가능성을 감지할 수 있다. 질문에 대해 AI 모델이 5-10개의 답변을 생성한 후 다른 AI 모델을 통해 이 답변들의 의미적 유사성을 측정한다. 의미적 유사성이 낮을수록, 즉 의미론적 엔트로피 점수가 높을수록 할루시네이션이 발생했 음을 의미한다. 이는 일상에서 대화를 통해 상대방의 거짓말을 밝혀내는 과정과 유사하다. 
* 구체적인 프롬프트 작성: 구체적인 프롬프트는 AI 모델이 어떤 정보를 어디서 가져와야 할지 예측할 수 있도록 돕는다. 최대한 구체적인 정보를 제공하고, 답변의 적절한 길이, 출처, 활용처. 답변의 톤 등을 정의해준다면 더 만족스러운 답변을 얻을 수 있 다. 질문의 수준에 따라 답변의 수준도 달라진다는 점을 기억해야 한다. 
* 범위를 지정하는 프롬프트 활용: AI 모델의 답변 자유도를 최대 한 제한하면서 정의된 범위와 조건에 따라 특정 데이터를 찾도 록유도한다. 예를 들어,'최근이라는 단어 대신 '2024년 1월부터 6월'처럼 기간을 명시하거나 답변에 근거(언론 기사, 연구 등)를 포 함하도록 하는 것이다. 이렇게 범위를 한정하면 할루시네이션을 줄일 수 있다. 
* 역할 지시를 통한 전문성 향상: AI 모델이 전문가의 입장에서 답 변하도록 유도해 정확도를 높이는 방법이다. 답변에 전문성이 요구된다는 점을 강조하고, 해당 전문성을 충분히 보여줄 수 있는 세부 정보가 포함되도록 요청한다면 보다 정확한 답변을 얻 을수있다. 
* 버티컬 특화 모델 활용: 가장 보편적인 방법 중 하나로, 범용 모델 대신 특정 산업 분야(예: 금융, 의학, 교육)나 태스크에 특화된 모델을 사용하는 것이다. 
* 환경변수 설정: AI 모델의 답변에 직접적인 영향을 주는 환경 변수를 조정해 할루시네이션을 줄일 수 있다. 예를 들어, 온도 Temperature 환경변수는 0.1~1.0 범위로 표현되며, 숫자가 높을수 록 창의성이 증가한다. 정확도를 높이려면 숫자를 낮추면 된다. (일반적으로 콘텐츠 생성 시에는 0.4~0.7 사이의 값이다.) 

- 온디바이스 AI라는 단어는 매우 매력적이다. 기술 자체로서 도 그렇지만, 이 단어는 기술의 산업화, 대중화, 그리고 일상화라는 3가지 측면을 모두 포함하고 있다. 생정형 AI가 사업화에는 시간이 걸리면서, 빠른 기술 업데이트로 인한 피로도가 높은 상황에서 온디바이스 사는 생성형 AI모델의 크기를 조정해 학습, 추론, 운영 대비 효과에 대한 경제성과 개인정보 데이터의 보안 성을 동시에 갖추면서도 챗GPT만큼이나 놀라운 접근성을 제공하여 대중성과 사업성 측면에서도 주목받고 있다.

- 생성형 AI 이전에 우리가 접했던 AI 기반의 켓봇, 콜봇, 아바타와 현재의 AI 에이전트 간 가장 큰 차이점은 바로 멀티모달 에이전트에 있다. 이 에이전트는 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티의 데이터를 이해하고 통합적으로 분석하며 이를 다양한 형식으로 출력할 수 있다. 또한 복잡한 모달리티 간 상호작용을 처리할 수 있는 능력을 갖추고 있다. 멀티모달 에이전트의 특징은 다음과 같다. 
* 복잡한 대화 및 감정 분석 능력: 상대방의 음성 톤과 언어를 분석 하여 감정을 이해할 수 있다. 이는 사람과 유사한 공감을 통해 개인화된 답변을 제공할 수 있으며 이를 통해 커뮤니케이션의 만족도를 높일 수 있다. 통합된 지식 기반의 해결력: 다양한 형식의 콘텐츠로 구성된 방대한 양의 정보를 이해하고 분석함으로써 복잡도가 높은 질문에 대응할 수 있으며 상대방의 요청이나 문제를 더 빠르고 정확하게 해결할 수 있다. 
* 주변 환경에 대한 높은 이해력: 다양한 모달리티를 통해 주변 환 경을 인식할 수 있으며 이는 상대방과의 상호작용에 깊이를 더 하고 개인적인 관계를 형성할 수 있게 한다. 

- 챗GPT의 개발사인 오픈AI는 이름과 달리 폐쇄형 LLM의 대표주자다. AI 모델의 개발, 소스코드, 데이터 등은 개발사만 가진 고유한 정보로, 외부에 공개되지 않는다. 하지만 기업들이 폐쇄형 LM을 도 입하는 경우 빠른 도입, 지속적인 업데이트, 데이터 보안 등에서 많 은 도움을 받을 수 있다. 그러나 이러한 장점에도 불구하고 오픈소스 LLM 시장은 더욱 확장되고 있다. 오픈소스 LLM은 단순한 기술적 선 택을 넘어 전략적 선택으로 다가오고 있으며 그 장점과 과제, 그리고 미래 전망을 살펴볼 필요가 있다. 다만, 오픈소스 LLM의 장점이 기업의 상황에 따라 단점으로 작용 할 수 있음을 인식해야 한다. AI 모델의 크기, 아키텍처, 벤치마크 성능, 학습 데이터셋, 모델의 편향성, 라이선스 유형 등을 고려해 장단 점을 신중하게 판단해야 한다. 

- 현재 전 세계 AI 가속 반도체 시장의 90퍼센트 이상을 엔비디아의 GPU가 차지하고 있다. 이는 학습뿐만 아니라 추론에서도 마찬가지다. V100, A100, H100 등 새로운 GPU 제품이 나올 때마다 가격과 전력 소모량이 급격히 증가했다. 특히 H100의 경우 A100에 비해 전 력 소모량이 400W에서 700W로 75퍼센트 증가했지만, HBM 메모 리 대역폭과 연산 속도는 50퍼센트 증가에 그쳐 성능 대비 전력 효율 은 오히려 악화되었다. 더욱이 H100 출시 이후 A100 생산이 단종되 면서 서버군에서 선택의 폭이 줄어들게 되었다. 또한 GPU를 포함한 AI 가속칩은 메모리 속도 문제를 해결하기 위해 고성능 HBM을 사용 하는데, 이 HBM은 층을 쌓는 구조로 만들어지기 때문에 전력 소모 가 크고 열도 많이 발생시킨다. 이로 인해 H100 이상의 GPU 서버를 대량으로 설치, 운영하는 AI데이터센터는 일반적인 냉각 시스템 대 신 액침냉각 시스템을 사용해야 하며, 이에 따라 데이터센터 운영비 도 크게 중가한다. 비용을 줄이기 위한 첫 번째 방법은 규모의 법칙에 따라 학습 데이 터 양에 중점을 두는 것이다. 즉, 동일한 양의 GPU가 주어졌을 때, 모델의 크기를 적당히 유지하면서 학습 데이터 양을 많이 늘리고 학 습 시간도 충분히 사용하는 것이다. 모델의 크기를 키우면 더 강력한 모델이 만들어질 수 있지만, 서비스 적용 시 더 많은 GPU가 필요해 운영 비용이 크게 중가하게 된다. 예를 들어, 130억 개 매개변수 모델 은 가중치별 2바이트(FP16 기준) 부동소수 형태로 저장된 파일을 가 정해도 26GiB 메모리를 차지하므로 80GiB 메모리를 가진 A100이 나 H100 한 장으로 충분히 동작할 수 있지만, 1,750억 개 매개변수를 가진 AI 모델을 서비스하려면 350GiB 메모리가 필요해 최소 다섯 장 이상의 A100이 필요하다. 컨텍스트와 다양한 부가 모듈을 위한 메모리를 고려하면 여덟 장을 써야 한다. 
그래서 최근에는 수십 또는 수백억 개 매개변수의 생성형 AI 사전 훈련에 기존 방법보다 휠씬 더 많은 데이터를 사용한다. GPT3의 경우에는 1,750억개 매개변수를 가졌음에도 3,000억 개 토큰을 사전 훈련에 사용했지만, 2022년 3월 구글 딥마인드는 친칠라 논문에서 학습에 쓸 수 있는 GPU의 개수와 시간이 정해져 있을 때(가령 H100 200개를 한 달 동안 학습에 사용할 때) 최적의 모델 크기와 학습 데이터 토큰 수와 관련한 최적화 결과를 공개했다. 매개변수를 유지하면서 층을 더 쌓는 구조에 학습 토큰 수를 매개변수 수보다 20배 정도의 양으로 학습할 떼 정해진 학습에 활용된 컴퓨팅 자원 기준 최적화된 모델이 만들어진다는 내용이다. 

 - 알고리듬적 노력뿐만 아니라 AI 반도체의 개선도 중요하다. 현재 AI 가속칩 시장에는 AMD, 인텔, 퀄컴, 그래프코어 Graphcore, 세레브라스cerebras 등 여러 기업이 있지만, 사실상 엔비디아가 독점하고 있다. 이 때문에 아마존, 마이크로소프트, 메타, 애플, 테슬라 등은 오랜 기간 자체 AI 반도체를 개발해 왔지만, 주로 내부용으로만 사용 중이 다. 구글도 TPU를 오래전부터 만들어 사용하고 있지만, 구글 클라우 드 상품을 제외하고는 외부에 AI 가속 반도체를 판매하지 않고 내부 용으로만 사용하고 있다. AI 추론 반도체의 개선이 필수적인 상황이며, 특히 엔비디아 GPU가 양자화된 sLM이나 LLM 모델이 대량의 입 력을 처리하는데 다소 비효율적이기 때문에 이를 효율적으로 연산 할 수 있는 AI 추론 반도체의 출현이 필요하다. 최근 첫GPT-4o 미니와 구글 제미나이 플래시 등 상대적으로 작 은 모델들의 API 가격이 대폭 하락하고 있으며, 특히 책GPT-40 미니는 무료로 제공되고 있다. 이에 따라 향후 생성형 AI사용 가격은 점점 부담 없는 수준으로 낮아질 것이며 AI 무용론도 점차 해소될 것으로 기대된다 

- 2023년 여름 금융 특화 대규모 언어 모델인 블룹버그GPT"가 나왔을 때 일단 모델 사이즈 자체는 대단히 놀라웠다. 그러나 자세히 들여다 보면, 글로벌 금융사들도 현재 생성형 AI가 가지고 있는 할루시네이 션 이슈 때문에 대고객 서비스보다는 내부 업무 효율화 측면에 우선 순위를 두고 있다. 금융이 다른 어떤 산업 분야보다도 최신성 및 정 확도 등이 확보되어야 하는 분야이기 때문이다. 앞서 언급된 JP모건 이나 모건스탠리 역시 내부 업무 효율화를 우선적으로 하고 있는데. 모건스탠리의 경우 사내 금융 애널리스트들을 보조하기 위해 내부 문서 10만여 건의 문서를 학습한 첫GPT 기반의 어시스턴트를 2023 년에 도입했다. 서비스 출시 전에 300여 명의 금융 애널리스트들이 파일럿 프로젝트로 참여했으며, 질문과 답변 데이터셋 400여 개 질 문에 대해 테스트를 하면서 할루시네이션을 최소화하기 위해 노력했 다고 한다 글로벌 빅테크들의 적극적인 도입이 두드러져 보이는 것은 오픈AI 가 초기 모델 개발 당시부터 협력하던 기업들도 있었기 때문에 빠른 도전 자체가 강조된 부분도 있고, 국내 금융 산업의 경우 망분리나 데이터 활용 관련 법 규제도 영향을 미쳤을 것이다. 다만 도입 방향에 대한 빠른 결정과 도입 분야의 다양성은 분명 글로벌 기업들이 좀 더 발빠르게 움직이고 있다고 볼 수 있다. 

- 제미나이1.5에서 가장 놀라운 부분은 컨텍스트, 즉 맥락의 '길이다. 첫GPT 같은 텍스트 기반 AI는 사용자가 입력한 명령(프롬프트)과 해당 명령에 대해 AI가 이전에 작성한 글의 내용을 모두 검토한 후 '맥락'을 고려해서 다음 글을 작성해 나간다. 여기서 컨텍스트는 사람의 입력과 AI가 생성한 콘텐츠를 합한 것으로 정의하며, 최대 컨텍스트 길이는 한 세션 내에서 사람의 입력과 인공지능이 쓸 수 있는 토큰의 최대 길이가 된다. 컨텍스트 길이가 충분히 길어지면 긴 코드도 작성 할 수 있고, 수백 페이지짜리 계약서를 통째로 넣고 독소 조항을 물어볼 수도 있다. 참고로 첫GPT나 클로드3는 최대 컨텍스트 길이를 12만 토큰 정도 지원하는데, 제미나이는 무려 8배가 넘는 100만 토큰 을 제공한다. 이는 사진이나 음성, 영상처럼 데이터 처리에 토큰을 많이 써야 하는 멀티모달 응용에서 매우 중요한 발전이다. 최근 업그 레이드된 제미나이 프로 버전은 200만 토큰의 컨텍스트 길이까지제 공한다. 컨텍스트의 길이가 중요한 것은 환각 현상, 즉 할루시네이션을 해결하는 데 핵심이 되기 때문이다. AI의 실질적인 사용성을 높이기 위해서는 AI가 주어진 데이터나 맥락에 근거하지 않은 잘못된 정 보나 허위 콘텐츠를 만드는 것을 막아야 하는데, 이때 가장 효과적이 고도 널리 쓰이는 방법이 RAG Retrieval-Augmented Generation(검색 중강 생성)와 컨텍스트 길이를 늘리는 것이다. 뿐만 아니라 텍스트보다 이미지나 음성, 영상 등은 휠씬 더 많은 토큰을 사용하기 때문에 멀티모달 생성 AI에서 컨텍스트 길이를 충분히 늘리는 것은 매우 중요한 기 술이다. 

- 모델 기술이 결정에 굉장히 중요한 요소인 것은 확실하다. 모델의 중요성은 계단형 합수처럼 동작한다. 예를 들어, 2018년 10월 언어 모델인 버트가 나왔을 때, 자연어처리 Natural Language Processing: NLP 분야는 버트 이전과 이후로 나뉜다고 할 정도로 혁신적 인 변화가 일어났다. 이후로 다양한 모델들이 나왔지만 연구로서의 임팩트는 있을지언정 산업계에서 큰 혁신으로 연결되지는 않았다. 그러나 GPT-3가 나오면서 또 한번 권텀점프가 일어났다. '계단형'이 란 바로 이런 큰 도약을 의미한다. 모델들이 비슷한 수준일 때는 적용 문제의 특성에 맞는 모델을 선택하면 된다. 하지만 2014년 워드투벡 wordzvec, 2017년 트랜스포머, 2018년 버트, 2020년 GPT3까지 퀸텀점프가 이어지면서 어떤' 모델 을 빠르게' 도입하느냐가 성공을 크게 좌우하게 되었다. 현재 챗GPT API를 활용해서 만든 첫봇들과 과거 챗봇들의 수준을 비교해보면 바 로 이해가 될 것이다. GPT-3가 등장하면서 인콘텍스트 러닝in-context learning이 가능해졌는데, 과거에는 AI에게 데이터를 주고 학습시켜야 했지만, 이제는 예시를 보여주는 것만으로 메모리에 저장된 컨텍스 트 내의 내용을 학습해 유사한 결과물을 만들어내는 것이 가능해진 것이다. 이는 과거 모델에서는 불가능했던 기술이다 가장 최근의 퀸텀점프를 가능하게 한 것은 모델의 크기와 방대한 학습 데이터를 활용한 이른바 '규모의 법칙'이다. 모델을 충분히 키우고 그만큼 데이터를 엄청나게 많이 학습시키면 과거에는 불가능했던 AI 기능이 발현된다는 것을 실험적으로 밝혀낸 것이다. 오픈AI에서 가장 최근 공개한 01은 AI 모델이 글을 쓰는 과정에서 더 복잡한 추론을 수행하면서 할루시네이션을 크게 완화하고 박사 수준의 문제해 결력을 보여주는 등 기존 언어 모델의 한계를 극복한 것으로 보인다. 

- 최근 생성형 AI 모델들은 퓨샷학습 few-shot Learning, 즉 아주 적은 양의 데이터로도 해당 데이터의 특징을 빠르게 파악해 상당히 비슷하게 따라할 수 있다. 예시 한두 개만 보여주더라도 그 예시를 따라 하니 많은 개인 데이터가 필요하지 않다. 또한 데이터를 공유할 수 있으면 가장 좋겠지만, 법이나 규제 등으로 어려운 부분이 있다. 민감 정보의 활용이나 전송은 더 그렇다. 이를 해결하기 위한 방법 중 하나는 연합학습 Federated Learning이다. 연합학 습은 데이터 프라이버시와 보안을 중시하는 분산학습 방법으로, 데 이터 자체가 전송되지 않고 학습된 모델 파라미터만 일부 전송/공유 된다. 이렇게 하면 데이터 공유로 인해 발생하는 문제를 근본적으로 해결할 수 있다. 다만 전송된 모델로부터 데이터가 복원 및 추출되면 안 되는 조건이 있고, 생성형 AI에서는 눈에 띄는 성공 사례가 보고 되지 않고 있다 다른 방법으로는 데이터를 암호화하는 것이다. 동형암호와 같은 기 술들인데, 과거에 비해 학습 속도가 상당히 향상되었다고는 하지만 상용화가 되려면 여전히 시간이 필요한 것으로 보인다. 우스갯소리 로 예전에는 "오늘 실행 엔터키 치면 다음 생에 완료된다"고 했을 정 도로 학습에 정말 오랜 시간이 걸렸지만, 이제는 1~2년 정도면 가능 하다. 물론 아직 실효성은 많이 부족하다. 하이브리드 형태도 가능하다. 예를 들어, 기본적인 정보는 내 휴대폰 에 탑재된 sLM 기반의 에이전트를 활용하고, 필요한 경우 개인정보 를 제외한 데이터를 클라우드로 보내서 더 똑똑한 시I로부터 추가 정 보를 제공받는 방식이다. 이렇게 하면 처음에는 간단한 질문을 던지 고, 점차 정교하게 답변을 제공하는 방식도 기능해진다. 이러한 방식 들은 AI 비서가 개인의 데이터를 안전하게 활용하면서도 더욱 똑똑 하게 작동할 수 있도록 돕는다. 

- 할루시네이션이 발생하는 이유에 대해 짚고 넘어가 자. 첫 번째 이유는 딥러닝 모델의 데이터 생성이 확률적이기 때문이 다. 최근 인공지능 기술은 기본적으로 딥러닝이라는 방법을 사용해 구현된다. 많은 사람들이 생성형 시I가 딥러닝과 다른 것이냐 혹은 새 로 나온 것이냐고 자주 물어보는데, 엄밀히 말하면 그 둘은 별개 층 위의 개념이다. 트랜스포머라는 모델은 인공신경망 모델의 한 종류 이며, 트랜스포머의 층이 많이 쌓인 형태이기 때문에 딥러닝이라 부 른다. 생성형 AI는 데이터를 생성해낼 수 있도록 학습된 딥러닝 모델을 의 미한다. 즉, 생성형 AI는 콘텐츠를 생성할 수 있는 AI이고, 이를 구현 하는 방법이 딥러닝인 것이다. 앞서 설명한 것처럼, 딥러닝은 데이터를 확률적으로 생성하기 때문에 항상 불확실성이 존재한다. 다시 말해, 기존의 정보를 그대로 가지고 와서 뿌려주는 데이터베이스가 아니기 때문에 확률적으로 틀릴 가능성이 있고 이에 따라 할루시네이 션이 발생할 수밖에 없다. 
두번째 이유는 웅축된 데이터를 사용하기 때문이다. 인공신경망 트랜스포머 모델은 수조 개의 토큰을 압축하고 웅축된 형태로 모델 파라미터에 저장한다. 이는 마치 여러 재료가 들어간 수프를 끓이는 것과 비숫하다. 다양한 재료가 수프에 녹아들어 하나의 요리가 되는 것 처럼, 트랜스포머 모델은 많은 양의 데이터를 웅축해 저장한다. 그 리고 글을 쓸 때 원본 데이터가 아니라 웅축된 정보로부터 다시 글을 만들어내기 때문에 이 과정에서 데이터 손실이 발생할 수 있다. 세 번째 이유는 인코딩, 디코딩 과정 때문이다. 트랜스포머 모델은 데이터를 데이터베이스에 그대로 저장하지 않고 최적화된 형태로 변 환(인코딩)해서 저장한다. 그리고 이를 다시 사람이 알아볼 수 있는 형태로 변환(디코딩)하는 과정을 거친다. 이 과정에서 정보 손실이 발 생해 할루시네이션이 발생하는 것이다. 마지막 이유는 언어 모델 학습이 사실을 보장할 필요가 없는 방식을 택했기 때문이다. 딥러닝 모델은 다음 토큰을 맞추는 방식으로 학습 한다. 앞에 나온 토큰을 기반으로 다음에 나올 토큰을 예측하는 방식 이기 때문에 사실 보장과는 관계가 없다. 방법론을 크게 바꾸지 않는 이상 할루시네이션이 발생할 수밖에 없다. 결국 정확한 정보를 제공 해야 할 때 없는 말을 지어내는 경우가 발생할 수 있기에 할루시네이션이 생기는 것이다. 

- 할루시네이션 문제는 100퍼센트까지는 아니지만 상당 부분 RAG로 해결 가능하다. 100퍼센트가 되지 못하는 것은 예상치 못 한 질문들이 들어왔을 때 이를 정답과 매칭하는 과정에서 오류가 발생할 수 있기 때문이다. 또 커버하는 범위가 넓어질수록 오류가 발 생할 가능성도 높아지고, 정답 문서를 만들 때와 질문이 들어왔을 때 사용하는 임베딩 모델의 성능이 좋지 않으면 역시 잘못된 답변을 할 수있다. RAG의 기본 원리를 살펴보면 이해에 도움이 될 것이다. 거대 언어 모델은 잘못된 정보를 생성하는 문제(할루시네이션)가 발생하기 때문 에 정확한 답변을 제공하기 위해 사람들이 많이 물어볼 것 같은 질문 에 대한 (정답을 포함한) 문서들을 데이터베이스에 저장해둔다. 이때 문서들은 인코딩 과정을 거처 인공신경망 또는 A1 모델이 정보를 효 율적으로 저장할 수 있는 형태로 변환(임베딩)된다. RAG를 검색해보 면 나오는 백터 데이터베이스를 문서와 관련된 정보들이 저장된 데이터베이스라고 생각하면 이해가 쉽다. 예를 들어, 보험 약관에 따라 보험에 대한 정보를 모두 데이터베이스에 저장하는 식이다. 이후 사람들이 질문하면 그 질문을 토대로 문서들을 임베딩하는 모델을 사용해 또 임베딩하고, 들어온 질문이 임베딩된 것에 가장 가까 운 정답에 해당하는 정보를 데이터베이스에서 검색한다. 이때 질문에 적합한 정답을 그대로 보여주는 것이 아니라 언어 모델의 프롬프트 입력을 활용한다. 이는 기본적으로 정답이 포함된 상태에서 프롬프트를 사용하기 때문에 언어 모델이 자연스럽게 답변을 생성해 사용자에게 제공하게 된다. 상상의 나래 속에서 글을 마구잡이로 쓰는 것이 아니라, 정답이 정해져 있기 때문에 그정답을 가져와서 내용을 보 완하고 확장하여 글을 만들어내는 것이다. 정보를 저장할 때 문서를 잘게 쪼개는 '청킹'이라는 과정을 거치는데,. 청킹의 수준은 RAG를 적용하려는 문제에 따라 달라지며, 정확도에 도 영향을 준다. 결국 "RAG를 사용하면 된다'"라는 말의 뒷면에는 많은 노하우와 엔지니어링 요소들이 포함되어 있기 때문에 더 많은 경험이 필요하다. 그래서 기업마다 RAG를 활용하는 능력과 방식이 다를 수밖에 없다. 

- 참고로 첫GPT와 제미나이를 비교해보면, 첫GPT-4의 경우 12만 8,000토큰을 커버하는데 제미나이1.5는 100만 토큰(구글 딥마인드 내 실험실 수준에서는 1,000만 토큰), 2.0은 200만 토큰을 커버하는 것으로 확인됐다. 실로 엄청난 차이라고 할 수 있다 다만, 컨텍스트 길이를 늘이면 메모리 소모가 엄청나게 중가한다. 처 음부터 끝까지 모든 데이터를 읽어야 하기에 효율적으로 설계되지 않으면 속도가 매우 느려지고 비용도 커지기 때문에 적재적소에 잘 활 용할 필요가 있다. 좀 더 근본적인 해결 방법이 오픈AI 의 새로운 언어 모델 o1에 적용되었는데, 바로 글을 생성하는 '추론'에 휠씬더 많 은 시간을 써서 절차적으로 추론토록 하는 것이다. 이를 테스트 타임 논증test time reasoning이라고 한다. 글을 쓸 때 과거 언어 모델은 한 번에 계속 토큰을 채워가며 쓰는 형태였다면, o1은 글을 쓰기 전에 시간을 많이 써서 논리적인 추론을 몇 단계 거치며 최종 결과물을 제공한다. 이러한 방법으로 올림피아드 수학 문제도 풀어내고 박사 수준의 전문 지식을 보유했다고 평가될 정도의 문제해결능력도 제공하고 있다. 
이것을 가능하게 하기 위해 기존의 언어 모델과 달리 강화학습을 활용해 다량의 매우 긴 CoT 데이터를 학습한 것으로 알려져 있다. 오 픈AI가 박사급 데이터 구축 인원을 대거 모집한 적이 있었는데, 이 학습 데이터를 구축하기 위한 것으로 보인다. 이제 언어 모델의 능력 은 양질의 고급 데이터를 얼마나 많이 확보하느냐의 싸움으로 바뀌어가는 것 같다. 
 
- 전체 모델 파라미터에 대해 학습이 진행되는 SFT나 FP 과정에서 학습이 잘못 수행될 경우 기존 사전학습 때 주입해둔 지식이나 추론 능력, 명령 수행 능력이 사라지는 경우가 발생할 수도 있다. 실제로 라마2 모델에 한국어 의료 데이터나 법조계 판례 데이터를 파인튜닝 할 때 기존의 추론 능력이 약해지거나 멀티턴 대화 능력이 감소하는 등 결과물의 품질 저하 현상이 발생하기도 했다. 그래서 AI 활용 경험이 충분한 기업이 많지 않은 현시점에서는 AI 개발 기업이 도입 의사가 있는 고객 기업을 위해 문제 정의부터 데이터 구축, 모델 평가 시스템, 파인튜닝 파이프라인 구현과 운영, 활용 교육까지 적극적으로 제공할 필요가 있다. 각 기업의 모델을 쉽게 활용할 수 있도록 하 는 문서화나 다양한 예제를 포함한 쿡북cook Book 제작 및 제공은 필 수다. 도입 기업 또한 당연히 이에 대한 적절한 가치를 투자 비용에 포함해야 한다. 정리하면, AI 개발 기업은 도입을 원하는 기업이 풀고자 하는 문제를 명확히 도출할 수 있도록 기술 지문을 제공하고, 각 문제에 적합한 파인튜닝 기법과 데이터 준비 방법을 함께 논의하며 최종적으로 예산 규모에 대한 예측치도 제시할 수 있어야 한다. 이렇게 도입 기 업의 필요를 세심하게 채워주는 것이 AI 개발 기업의 차별화된 역량 이 될수 있다. 이것이 필자가 AI 개발 기업들에게 AI 기술 컨설팅 및 교육 역량 강화를 주문하는 이유다. AI를 활용하는 기업이 70점짜리 사전학습 모델을 기반으로 자체 인력과 데이터, 기술을 통해 스스로 90점짜리 모델을 만들 수도 있겠지만, 이는 자체적으로 높은 IT와 AI 역량을 갖춘 소수의 대기업들로 한정된다. 생성형 AI 산업이 성숙기 에 진입하기 전까지는 AI 개발 기업의 역할이 여전히 중요할 수밖에 없으며 AI 개발 기업의 이러한 노력들이 AI 성숙기 진입을 더 빠르게 할수있다. 

- I 거품론을 극복하기 위해서는 앞서 살펴본 것처럼 90점짜리 AI 를 제공하고, 가치 있는 서비스를 발굴하며, 원가를 낮추고, 소프트 웨어3.0 개발 방법론을 확산시키는 둥 여러 어려운 미션들을 통과해 야 한다. AI 개발 기업이 단독으로 이 모든 것을 실현하는 것은 구글 이나 마이크로소프트 같은 극히 일부의 빅테크를 제외하고는 사실상 불가능하다. 예를 들어, 클라우드 기반 생성형 AI를 API 형태로만 제 공할 경우 원가가 비싸기 때문에 마진을 확보하기가 쉽지 않다. 마진 을 남기기 위해서는 컨설팅과 AI 시스템 개발까지 진행해야 하는데, 이는 다양한 산업 분야에서의 도메인 경험 축적과 AI 도입 기업에 이미 구축된 레거시 시스템이나 데이터베이스와 생성형 AI 시스템의 연결등과업 수행이 필수적이다. 현재 생성형 AI 시스템 개발 과정은 아직 체계화되어 있지 않기 때문에 튜닝부터 RAG 시스템 결합까지 대부분 엔지니어링 경험에 의 존하고 있다. 적용하고자 하는 문제나 기능에 따라 구현 방법도 천차 만별이다. 만약 표준화된 공정이 존재한다면 이를 시스템화해 스케 일아웃을 진행함으로써 비용이 선형으로 증가하지 않을 수 있겠지만 아직 그 단계에 도달하지 못했다. 그렇다고 저 많은 다양한 과업들을 생성형 AI 개발 기업 단독으로 구현하고 진행하는 것은 현실적으로 어렵다. 클라우드 운영 las. Pas saas, 도입 기업의 사내 레거시 시스템과 연결, 프로젝트 전체에 대한 컨설팅과 교육, 생성형 AI 개발, 튜닝, 배포 및 운영 비용 최적화, 학습 데이터 가공 등은 모두 다른 영역에서 출발한 것들이고 각자 전문성을 요하는 업무들인데 어느 하나라도 부족하면 성공적인 프로젝트가 되기 어렵기 때문이다. 구글과 마이크로소프트의 경우 이러한 SI 에 가까운 기존 고객 기업의 레거시 연동과 같은 프로젝트는 수행하지 않는다. 

- 데이터는 매우 다양한 형태로 존재한다. 앞으로는 AI는 마치 기본 IT 인프라처럼 활용하게 될 것이고, 우리가 주목하고 있는 AGI의 시대를 준비한다면 데이터를 어떤 형태로 쌓을지에 대한 고민을 지금부터 시작해야 한다. 과거와 달리 인공지능이 바로 이해할 수 있는 형태로 데이터를 준비하는 것들 말이다 결론적으로 데이터 없이도 시작할 수 있지만, 향후 비즈니스에 대한 준비는 필요하다. 그리고 데이터는 단순히 학습 용도로만 사용되는 것 이아니라 매우 다양한 용도로 활용할 수 있다는 것을 강조하고 싶다. 

 

Posted by dalai
,