웰컴 투 인공지능

IT 2022. 2. 20. 10:06

- 인공지능은 알고리즘 지능 Artificial Intelligence is Algorithmic Inteligence 이다. 알고리즘이란 어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 말한다. 이 알고리즘이 발전하여 기계가 스스로 문제를 해결하기 위한 절차나 방 법을 개발할 수 있는 능력이 생기는 것이 인공지능이다. 인공지능이 잘 하 는 일은 추천이나 분류, 또는 예측이다 보니 인간의 지능과는 차이가 있다. 인공지능만 있으면 뭐든지 척척 해내야 하는데 실상은 그렇지 못하다. 바둑 두는 인공지능은 바둑을 인간보다 잘 두고, 기상관측 인공지능은 지진이나 태풍 예측을 인간보다 먼저 감지할 뿐이다.
- 데이터 마이닝 과정은 일반적으로 SEMMA라는 5단계 프로세서를 거친다. 수많은 데이터에서 샘플 데이터를 추출하는 Sampling(샘플링) 단계가 첫 번째이다. 두 번째는 데이터의 상관 관계를 분석하는 Explore(탐구) 단계이고, 세 번째는 데이터 마이닝을 위한 최적의 데이터로 Modify(변환) 하는 단계이다. 데이터 마이닝 과정에서 가장 중요한 단계는 문제 해결을 위한 방법과 알고리즘을 적용하는 Modeling(모델링) 단계이다. 마지막 단계는 모델의 결과를 평가한다. 시각화 도구를 이용하여 의사 결정에 적용하는 Assessment(평가) 단계이다.
이 중 가장 중요한 단계인 모델링은 연관성 분석, 군집분석, 의사결정 트리와 같은 문제 해결 방법이 있다. 연관성 분석Association Analysis은 맥주와 기저귀와의 연관성을 밝혀 낸 분석 방법으로 유명하다. 대형 마트의 소비자 구매 분석을 통해 사람들이 맥주와 기저귀를 함께 사는 것을 발견하였 다. 이를 토대로 두 개의 상품을 묶어서 팔거나 매장의 같은 위치에 배치 하자 매출이 증가하였다. 군집 분석clusturing Analysis은 군집 내에 속한 개체들 은 집단 내 동질성을 갖고, 서로 다른 군집에 속한 개체들은 집단 간 이질 성을 갖는다. 즉, 군집분석은 군집 내 동질성은 최소화하고, 집단간 이질성은 최대화하는 알고리즘이다.
의사결정 트리는 분류classification와 회귀Regression가 모두 가능한 방법으로 문제를 해결하기 위한 방법 중 가장 강력하여 널리 쓰이는 방법이다. 의사결정 트리는 스무고개 하듯이 질문을 이어가며 선택의 기로에서 두 가지 경로 중 하나를 선택하는 방법이다. 트리 구조를 가지고 있기 때문에 결정 트리라고 부른다. 의사결정 트리를 이용하여 다리가 없고 바다에 사는 동물은 돌고래'라는 것을 알 수 있다. 이런 식으로 기업의 부도 예측이나 신용평가 결정 등 다방면에 사용되고 있다.
과거 SNS에서 하는 대화와 지금의 대화는 분명 다르다. 40대 성인의 대화와 10대 청소년의 대화가 다르다. 빅데이터는 40대와 10대의 서로 다 른 대화의 패턴을 읽어낸다. 이를 통해 지금을 살아가는 사람들의 관심사 나 사회 현상의 방향성을 미리 예측하도록 돕는 기술이다. 이런 의미에서 스스로를 '마인드 마이너 Mind Mine'라고 소개하는 빅데이터 전문가 송길영은 “우리가 빅데이터에 주목해야 하는 이유는 일어날 일은 일어나기 때문입니다. 내가 하는 모든 일이 데이터가 되는 세상에서는 앞으로 어떤 일이 일어날지 미리 알고 대비해야 합니다. 빅데이터가 주는 힌트를 잘 관찰하면 사람들의 진짜 욕망을 발견할 수 있습니다”라고 이야기 한다.
- 데이터 크롤링이 클라우드 상에 있는 데이터를 단순히 수집하는 것이라면 데이터 마이닝은 분류, 추정Estimation, 예측 Prediction, 연관성 규칙Association Rule, 군집화 등의 여러 방법을 통해 데이터를 채굴하는 것이다. 채굴된 데이터는 미래 사회에 귀중한 자원이 된다. 채굴할 데이터를 알아보는 눈이 필요하다. 이런 능력을 타고난다면야 행운 이지만 대부분은 노력을 통해 길러진다. 데이터 분석가가 가져야 할 역량은 데이터를 바라보는 관점이다. 관점의 차이는 창의력에서 나오고 남들과 다른 생각, 다른 관점을 갖기 위한 노력을 가져야만 미래 사회의 경쟁력을 갖게 된다. 결국, 인간이 할 수 있는 능력에 집중해야 하는 이유이다.- 서포트 벡터 머신 Support Vector machine은 주어진 데이터를 2개의 영역으로 분류하는 이진 분류기이다. 마찬가지로 기존 데이터를 바탕으로 새로운 데이터가 어느 영역에 속할지 분류하는 알고리즘이다. 서포터 벡터 머신 을 이용하여 사과와 배를 분류해보자. 우선, 사과와 배를 분류하는 직선을 하나 긋는다. 마진 최소화는 직선과 사과, 직선과 배와의 거리가 최소가 되는 선을 찾는 방법이다. 그림에서 보이는 것처럼 분류는 잘 될 수 있지 만, 새로운 사과 데이터가 입력되었을 때 오차가 발생한다. 반면, 마진 최 대화'는 직선과 사과, 직선과 배와의 거리가 최대가 되는 선을 찾는다. 이 방법으로 새로운 사과 데이터 분류가 잘 되는 것을 볼 수 있다.
2진 트리와 같이 '네/아니오'로는 결정하기 어려운 데이터의 경우에도 제대로 자료를 분류할 수 있다. 또한 선형으로 분류하기 어려운 경우도 거리를 최대화하면서 주어진 자료를 분리하는 평면이 존재하는 알고리즘이다. 지금까지와는 다르게 선이 아닌 평면으로 데이터를 분류한다는 점이다. 이를 '초 평면'이라 한다. SVM은 얼굴 인식, 이미지 분류, 단백질 염기서열, 생물 정보학을 포함하여 2010년 신경망 이론이 나오기 전까지 머신러닝의 성능을 입증했다.
- 최근접 이웃 분류 K-NN
최근접 이웃 분류K-NN, K-Nearnest Neighbor Classification에 대해 알기 전에 분류와 군집화의 차이를 알아야 한다. 분류는 말 그대로 라벨이 있는 데이터를 지도학습기계에게 데이터와 정답을 함께 학습시키는 방법을 통해 분류하는 것을 이야기한다. 군집화는 라벨이 없는 데이터를 클러스터링하는 방법이다. K-NN 알고리즘은 라벨이 있는 데이터의 분류 사이에서 라벨이 없는 데이터를 어느쪽 로 분류할 것인지를 찾는 분류 방법이다. K-NN 알고리즘은 데이터로부터 가까운 거리의 다른 홀수 개의 데이터를 참조하여 분류하는 알고리즘 방법이다. 거리를 측정할 때는 유클리디안 계산법을 사용한다.
K-NN은 간단한 알고리즘이지만 이미지 처리, 영상에서 글자 인식 및 얼굴 인식, 영화나 음악 상품의 추천 서비스를 포함한 개인 선호도 예 측 및 의료, 유전자 데이터의 패턴 인식 분야 등에서 널리 응용되고 있다. K-NN은 단순하고 효율적이면서 수치 기반 데이터 분석에서 성능이 우수 하다는 장점이 있다. 예로 인접한 K개의 데이터 라벨을 보고 새로운 데이 터 A를 판단한다면 A는 사과를 선호하는 것으로 분류된다. K개는 동점을 방지하기 위해 반드시 홀수개로 설정되어야 하며 적절한 수의 K개의 데이터 선택이 중요한 알고리즘이다.
- 예측은 미래에 발생할 데이터를 대상으로 분류, 분석하는 방법이다. 개체 들을 유사한 특징이 있는 여러 개의 그룹이나 클래스로 나눌 때 클래스들 을 클러스터 Custer라 하고, 나누는 작업을 클러스터링 Custering이라고 한다. 이 렇게 개체들을 그룹으로 나누는 과정을 통해 클러스터 내부 멤버들 사이 는 서로 가깝게, 서로 다른 두 그룹 사이의 멤버 간에는 서로 멀리 떨어지 도록 군집화하는 방법이다.
K-means 클러스터링은 간단하면서도 많이 사용되는 방법 중 하나이 며 K-평균 군집화 방법이라 불린다. 원리는 첫째, 군집 내 응집도 최대화 이다. 즉, 같은 군집 내 객체 간의 거리는 최소화하는 것이다. 둘째, 군집 내 분리도 최대화이다. 다른 군집과의 거리를 최대화하는 방법이다. 즉, 같은 군집 내에서는 객체들이 가까이 붙어있고, 다른 군집과는 멀리 떨어져 있도록 하는 방법이다.
기본적으로 K-means 클러스터링은 Expoetallion 알고리즘과 MMaxinlization 을 사용한다. 클러스터의 수를 2로 정하고, 2개의 클러스터의 중심점(b) 을 무작위로 설정한다. 그 후 모든 데이터와 중심점과의 유클리디안 거리 를 구해 가장 가까운 중심점에 할당한다. 이를 Expectation 단계라고 한다. 두 개로 나눠진 클러스터들에서는 각 중심점이 중심에 오도록 업데이트 해준다. 이 단계가 Maximization이다. 중심점은 클러스터된 데이 터들의 평균값으로 계산한다. 계산된 결과로 중심점의 위치를 바꾼다. 이 중심점에 맞게 또 다시 데이터 세트들을 클러스터링한다. E-M-E-M을 반복 학습해 결과가 바뀌지 않을 때까지 한다.
- 군집화는 클러스터링 clustering이라 하며 유사한 것들을 찾아 그룹을 만드는 것을 의미한다. 얼핏 보면 분류와 같은 개념처럼 보인다. 군집화는 아직 분류되지 않은 데이터를 끼리끼리 묶어주는 것이다. 분류는 새로운 데이터가 어떤 그룹에 속하는지를 판단하는 것이다. K-평균 군집화k-means 클 러스터링 방법을 이용하여 군집화하는 방법을 앞서 설명하였다.
연관 규칙 학습Association rule learning은 장바구니 학습Market Basket Analysis이라고도 불린다. 이는 기저귀를 사는 사람들이 맥주도 함께 산다는 규칙에서 나온 이름이다. 온라인 쇼핑 시 라면과 계란, 식빵과 우유, 샐러드와 소스 등 함께 구매할 확률이 높은 상품을 추천해 주는 시스템이다. 훈련 데이터에 서 데이터 특성 간 관계를 그룹으로 묶어주는 모델이라 할 수 있다. 대량 의 데이터에서 인간이 표를 보고 관련성을 찾기란 매우 어렵다. 이런 경우 연관 규칙학습을 이용하면 효율적인 예측이 가능하다. 훈련 데이터를 그 룹화하는 것은 군집화이고, 훈련 데이터의 연관된 특성을 그룹화하는 것 은 연관 규칙 학습이라 할 수 있다.
- 합성곱 신경망은 인간의 시각을 흉내낸 것으로 이미지 인식과 분류에서 탁월한 성능을 발휘한다. 지금까지 이미지 인식은 이미지의 픽셀Pixel 값을 그대로 저장하여 분류하고 인식했다. 픽셀이란 이미지를 구성하는 최소 단위의 점을 말한다. 따라서, 픽셀 정보가 바뀌면 이미지를 제대로 인식하지 못했다. 같은 사물이라도 이미지는 다양한 형 태를 띠고 있으며 필기체 역시 사람마다 서체가 다르다. CNN은 픽셀 정보를 행렬값으로 받아 저장하여 이미지가 손상되는 문제를 방지하였다. 이미지의 픽셀값을 그대로 저장하는 것이 아니라 특징을 추출하는 사전 훈련 과정을 거친 후 신경망을 통해 학습시킨다. CNN은 데이터로부 터 특징을 학습하고 출력층에서는 물체의 종류를 인식하는 대표적인 모델이다.
CNN은 크게 세 가지 종류의 층으로 구성된다. 컨볼루션 충convolution Layer은 이미지로부터 특징을 추출한다. 풀링 층Pooling Layer 은 이미지에서 추출한 샘플로 신경망을 학습시킨다. 완전연결계층은 학습을 통한 최종적인 분류 작업을 담당한다.
입력 이미지에 필터 처리를 해서 이미지의 가장자리edge나 곡선과 같은 저차원적인 특징을 추출한다. 점차 높은 층으로 올라갈수록 질감, 물체 일부분 object parts과 같은 고차원 High Level의 특징을 도출한다. 그 결 과 이동이나 변형에 무관한 이미지의 최종 특성을 얻게 된다. 
- 순환 신경망 RNN Recurrent Neural Network 알고리즘은 현재의 학습이 과거의 학습과 시간적으로 연결되어 학습하는 알고리즘이다. 인간이 사용하는 자 연어 처리에 주로 사용되며, 반복적이고 순차적인 데이터 sequential Data 학습 에 잘 어울린다. 순환이라는 말처럼 앞서 입력된 데이터를 참조하여 순환하는 특징을 가지고 있다. 이는 인간이 언어를 이해하는 방식이다. “I love apples.”라는 문장에서 love'는 동사이지만, “Love is a feeling."에서 'Love'는 명사이다. 이렇듯 단어의 위치에 따라서 품사가 바뀌는데 이를 찾아 적용할 수 있는 알고리즘이 RNN이다.
- RNN 알고리즘은 입력층과 출력층 사이에 CNNConvolutional Neural Network과 마찬가지로 은닉층이 존재한다. 그런데, 중간에 있는 은닉층은 앞에서 처 리한 데이터의 가중치 값을 기억하고 이를 다음 단계의 은닉층에 반영하여 조금씩 수정하면서 전체를 학습한다. 잘 이해가 되지 않는다면 아래 그림을 보자. 각 단계의 색상은 시간이 지남에 따라 유지되는 정보의 양을 나타낸다. RNN은 인간이 사용하는 언어인 자연어를 컴퓨터가 인식할 수 있도록 도와주는 자연어 처리 시에 유용하다.
RNN은 이전에 저장한 정보를 보유하여 정보가 지속되도록 해주는 순환 알고리즘을 가진다. 마치, 인간의 단기 기억과 유사한 모양이다. 이 순차적인 데이터 학습은 반복되면서 조금씩 바뀌는 상태를 보존하여, 이전 입력을 기반으로 출력 텍스트를 결정한다. 따라서, 동일한 입력도 이전 입 력에 따라 다른 출력을 생성할 수 있다. 순환 신경망은 “그는 그녀에게 사 과의 의미로 빨간 사과 한 바구니를 건내주며 미안하다고 말했다”와 같은 문장에서 앞에 나온 사과는 apologize로 뒤에 사과는 apple로 인식할 수 있다. 즉, 단순히 사전적 의미뿐만 아니라 앞뒤 문장의 요소들을 종합적으로 판단하여 의미를 파악한다.
RNN은 검색창에 글자를 입력하면 연관 검색어가 자동으로 뜨는 자동 완성 기능, 스마트폰에서 음성인식을 통한 문장 입력 기능, 각종 언어의 통역과 번역, 인간과 기계가 채팅하는 챗봇, 영상의 자동 자막 입력 기능, 구글의 마젠타 프로젝트처럼 인공지능 작곡, 작가, 아티스트도 모두 RNN 에 해당한다. 꽃 그림은 구글의 스케치-RNN'이다. 모델에서 garden을 선택하고 꽃 그림을 하나 그리면 RNN이 앞으로 그릴 꽃 그림을 예측하여 그려준다. 필자가 그린 꽃은 왼쪽이고, 스케치-RNN이 그린 꽃은 오른쪽 이다.
- 진짜 같은 가짜 이미지를 본 적 있는가? 포토샵을 이용해 정교하게 이미 지를 합성하면 가능한 일이다. 사람의 눈을 속이기 위해서는 정교한 포토 샵 작업이 많이 필요하다. 인간의 눈은 이미지를 평면으로만 보는 것이 아 니라 3차원으로 뇌에서 인식하기 때문에 단순히 오려 붙인 이미지는 금방 알아챌 수 있다. 이 정교한 작업을 대신 해주는 알고리즘이 생성적 적대 신경망 GANGenerative Adversarial Network이다.
GAN은 진짜 데이터를 학습하여 진짜 같은 가짜 데이터를 생성하는 모 델이다. 훈련 데이터와 유사한 이미지를 생성자가 만든다. 수많은 강아지 사진으로 훈련한 후, 실제로 존재하지 않지만 존재할 법한 강아지 사진을 만들어낸다. 또 다른 신경망은 진짜 데이터와 가짜 데이터를 감별하는 감별자Disciminatior 이다. 감별자는 실제 강아지 이미지와 생성된 강아지 이미지를 판단하기 위한 분류 모델로 사용되며, 생성자는 다시 더 정교한 이미지를 생성해 낸다. 생성자와 감별자는 마치 경쟁하듯이 이 과정을 반 복하다가 맞추는 확률이 50%에 이르면 학습을 끝낸다. 마치 포토샵으로 이미지를 점차 정교하게 바꿔 구분이 어려워지면 작업을 멈추는 것처럼 말이다.
많은 양의 강아지 이미지로 훈련된 생성 모델은 진짜 같은 가짜 강아지 이미지를 생성하고 분류 모델은 이를 판별한다. GAN에는 최대한 진짜 같 은 이미지를 생성하려는 생성 모델이 있다. 또, 진짜와 가짜를 판별하려는 분류 모델이 있다. 이 둘은 서로 적대적으로 반복 학습하며 성장한다. 여 기에 이미지를 생성하는 과정에서 새로운 특징을 추가할 수 있다. 특징이 란 이미지의 특성을 의미하는데 사람의 표정, 헤어스타일, 인물의 나이 등이 해당된다. 2017년 워싱턴 대학교 연구팀은 오바마 전 미국 대통령 연 설 영상에서 GAN을 이용해 입 모양을 합성해냈다.  또 다른 방법으로는 화가의 화풍을 따라서 그릴 수도 있다. 입력한 사진을 특정 화가의 해당 화풍으로 변환하는 것이다. 2017년 UC 버클리에서 GAN 모델에 원본 이미지의 형태를 유지할 수 있는 조건을 추가한 모 델을 적용하였다. cycleGAN 모델은 모네의 그림을 사진으로 변환하거 나, 사진을 모네 화풍으로 만들어 낼 수 있다. 
- 인공지능 기술은 발전했지만, 알고리즘 편향성이라는 문제점을 안고 있다. 따라서, 인공지능의 신뢰성을 확보하기 위해 설명 가능한 인공지능' 이 탄생한 것이다. 설명 가능한 인공지능에 대한 연구와 개발은 금융, 보 험, 교육, 광고, 군사 등 다양한 분야에서 신뢰를 얻고 있다. 사회적 수용 을 위한 공감대 형성과 더불어 더 나은 경험을 제공하기 위한 서비스로 향상되고 있다. 설명 가능한 인공지능은 법적 책임과 준수 확인 등의 효과면에서 크게 기대된다. 인공지능 시스템의 잘못된 결과로 분쟁이 발생하면 기존 모델에서는 이유를 알 수 없었다. 하지만 설명 가능한 인공지능'에서 는 결과의 근거를 제시하여 원인 파악이 가능해진다. 무엇보다 중요한 건 인간과 인공지능 간 상호작용을 효율적으로 높일 수 있다는 점이다. 인공 지능 기술이 알고리즘 편향성에 갇히기보다는 인간의 풍요로운 삶과 행복 을 위한 도구로 사용되도록 발전하고 있다.
- 수천 년 동안 본디 백조는 '하얀 새'를 의미했다. 그런데, 하얀 고니를 의미하는 백조라는 의미가 깨진 사건이 발생했다. 1697년 네덜란드 탐험가 윌리엄 드 블라밍Willem de Varmingh 이 서부 오스트레일리아에서 '흑 고니'를 발견한 것이다. 그 후 전혀 예상할 수 없었던 일이 실제로 나타나는 경우 를 '블랙 스완black swan'이라고 부르게 되었다. 위키백과 또, '방안의 코끼리 elephant in the room'는 누구에게나 확연하게 보이는 커다란 문제임에도 불구하고 모 두가 모른 척하는 상황을 말한다. 예를 들면 지구 온난화를 일으키는 환경 오염 문제와 같은 상황이다.
몇 년 전 〈뉴욕타임즈>의 칼럼니스트 토머스 프리드먼 Thomes L Firecaman은 블랙 스완과 방안의 코끼리를 합한 '검은 코끼리 black elephani'를 제시했다. 검은 코끼리란 전혀 예상할 수 없었던 일로 인해 엄청난 변혁이 일어날 것을 알면서도 아무도 해결하려 하지 않는 문제를 가리킨다. 그러면서 지금 인 류는 가속의 시대를 살고 있으며, 지구상에 검은 코끼리들이 떼 지어 나타 나고 있다고 이야기했다. 바로 눈앞에 있는데 손으로 눈을 가리고 외면하 고 있다고 말이다. 그중 하나가 기술의 발전으로 인한 인공지능 사회의 도 래이다. 무어의 법칙에 따라 기술은 기하급수적으로 변화하고 인간은 도저히 그 속도를 따라잡을 수 없다. 이 변화의 속도를 따라잡지 못하는 인간은 도태되어 힘든 삶을 살게 될 것이라 예견하고 있다.












'IT' 카테고리의 다른 글

나는 메타버스에 살기로 했다  (0) 2022.04.20
데이터는 어떻게 자산이 되는가  (0) 2022.02.22
가볍게 떠먹는 데이터 분석 프로젝트  (0) 2022.02.16
21세기 권력  (0) 2022.01.08
인공지능 비즈니스의 모든 것  (0) 2021.12.26
Posted by dalai
,