젠슨 황과 일리야 서츠케버의 대담, ChatGPT의 성공이 의미하는 바는?
최근에 일리야 서츠케버(Ilya Sutskever, OpenAI의 수석과학자)와 젠슨 황(Jenson Hwang, Nvidia CEO)의 대담이 유투브에 올라왔다. 개인적으로는 OpenAI의 ChatGPT가 함의하는 바를 그 분야를 가장 앞에서 다루는 사람이 설명하고 있다고 생각해 그에 대한 글을 써보려고 한다.
https://www.youtube.com/watch?v=LQviQS24uQY
일리야 서츠케버는 힌튼 교수의 제자이며 딥러닝의 문을 열었다고 평가되는 이미지 인식 모델인 AlexNet을 같이 연구한 전산학도이고, 이후 OpenAI의 초기 창업자로 합류한 인물이다. 이 대담에서는 그런 그의 첫번째 깨달음이 나온다.
신경망이 충분히 깊고 크다면 어려운 문제를 풀 수 있을거라는 것이라는 믿음으로 AlexNet을 연구한 결과이다. 여러가지 딥러닝 기술로 신경망 학습의 제약이 많이 줄어든 상태에서, GPU를 사용해 연산 속도를 극적으로 높이고, 당시에 아무도 시도하지 않았던, 큰 크기의 신경망을 통해 이미지 인식 분야에서 오차를 크게 줄인 일이다. 그 일로 서츠케버는 큰 규모의 신경망에 대한 일종의 믿음이 생겼다고 한다. 모두 작은 크기의 신경망만 다루던 그 시절에서 크기를 키웠을 때의 성능 개선이 가능하다는 사실을 큰 성공을 통해 깨달은 것이다.
그 다음으로는 강화학습의 중요성이다. 딥마인드의 알파스타같이 지속 여러가지 피드백을 실시간으로 받아가며 학습하는 방법에 대한 연구이다. (개인적으로는 강화학습은 그때그때 필요한 데이터를 손쉽게 만들어내는 방법이라고 생각한다.) 그러한 경험에 기반해 드디어 ChatGPT로 넘어간다.
그 과정에서 핵심이 되는 질문은 "과연 거대한 Text Corpus에서의 빈 단어 예측이 신경망에 무엇을 학습시키는 것인가?"이다. 그는 인터넷의 문장들은 일종의 세상에 대한 투영이고, 문장의 가려진 빈칸을 맞추는 학습 방법은 그 세상을 이해해가는 작업이라고 주장한다. 충분히 더 큰 신경망에서는, 이렇게 학습된 모델(ChatGPT)이 단지 디지털 앵무새가 아니라 더 큰 추론의 힘을 지니는 무엇인가라는 말이다. 추리 소설을 예로 드는데 탐정이 여러가지 정보를 수집한 후 범인은 누구누구다 라고 맞추는 것을 예로 든다. 정확히 신경망 학습이 내부적으로 어떠한 의미 체계를 만들어 작동하는지 알 수 없지만, 무언가 추론 체계를 만들어 낸다는 말이다.
그리고 이는 일부분 사실로 증명되고 있다. 1000억 파라메터가 넘어갔을때 ChatGPT는 단순히 흉내내기 그 이상으로 반응한다는 것이다. 아직은 완전하지 않더라도, 일반적인 고확률의 단어 시퀀스를 출력한다기보다는 무언가 다른 일을 해낸다. 그리고 그 이유는 이 신경망이 매우 크고, 엄청난 문장 데이터로 학습을 했기 때문이라고 이야기하고 있다. (물론 이러한 학습방법이 어디까지의 추론 능력을 부여할 수 있는지는 아직 여러가지 논쟁이 있다. 문장만으로 과연 기계가 어디까지 알아낼 수 있느냐는 의문이다)
오히려 인간 대비 유리한 점은, 보통의 인간이 평생 배우지 못할 수많은 문장들을 모두 학습한다는 점이 있다. 그렇게 대규모의 신경망이 어찌보면 인간과 유사한 몇몇 기능을 수행할 수 있다는 사실을, 컴퓨팅의 진보와 실제 시행착오를 통해 증명했다는 점이 ChatGPT가 해낸 일이라고 할 수 있다는 주장이다.
그러면 그 다음은 무엇인가? 신경망 학습이 가능해지는 범위내에서 더 큰 다른 유형의 데이터와 컴퓨팅으로 늘려가는 방법이 있겠다. 그러면 신경망은 훨씬 더 큰 맥락하에서 다양한 단어의 의미를 이해하고 더 넓은 추론이 가능한 신경망을 갖추게 될 수 있는 것은 아닐까? 그래서 영상에서는 멀티모달 관련된 내용이 나온다.
대규모 Text Corpus에 맥락을 찾아내는 이 비지도 학습 외에 사진이나 영상, 음성에서 유사한 비지도 학습이 가능하게 된다면 어떨까? 문장이 가진 세계와 지식과 추론을 기계에게 가르칠 수 있다면, 이제 시각을 보여주고 영상, 음성을 보여줌으로써 더 많은 세상을 기계에게 이해 시킬 수 있다. 대담에서는 서츠케버가 ChatGPT에 시험 문제를 풀게 할때 다이어그램을 볼 수 있게 해주면 정답률이 올라간다고 이야기하고 있다. 더 많은 세상에 대한 정보를 줄 수록, 신경망의 크기만 키우고 컴퓨팅만 감당된다면, 그것이 어떻게든 가능해질 수 있다는 기대를 하게 되는 셈이다.
물론 이런 세계에 대한 표상을 신경망이 갖더라도, 그것으로 무언가 우리가 원하는 일을 하게 하기 위해서는 강화학습이 별도로 필요하다고 이야기하고 있다(왜냐하면 text corpus가 표상하는 대로 생성하면 여러가지 좋지 않은 것들을 거르지 않고 출력하기 때문이다. 편견, 성인물 등) 그런데 어찌보면 AlexNet, 알파고, ChatGPT 등이 거쳐온 흐름은 명확해보인다. 더 큰 신경망과 연산 속도 더 큰 데이터를 가지면, 점점더 인간이 가진 지식과 능력을 신경망 안에 집어 넣을 수 있다는 믿음이 확산되는 것이다.
ChatGPT는 당분간은 이러한 세계에 대한 표상을 사람에게 서비스하기 위해, 그 신뢰도를 높이는 작업들을 진행할 것으로 보인다. 그런데 앞서 지적했듯이 사진이나, 영상, 음성 등 기계에게 세상을 더 자세히 표현할 수 있는 것들을 더 학습시키면, 기존의 인간보다 더 많은 지식을 이해하고 그것의 총체를 더 다룰 수 있는 상태로 나아갈 수 있지 않을까 싶은 생각이 이 영상을 보고 떠올랐다. 인류가 기존에 보유한 최대한의 데이터로 세상을 표상한 후에, 여러가지 강화학습을 통해 맥락을 추가로 학습하고, 그것이 더 큰 신경망 더 많은 데이터, 더 손쉬운 비지도 학습법 등을 개발해나가면 점점 더 인간과 비슷한 기능을 갖추게 되는게 아닌가?
서츠케버는 지난 20년간의 이 분야 개척을 통해 그 사실을 깨달은 것이 아닌가 싶은 것이다.
결론적으로 이 대담을 통해 개인적으로 느낀 insight는 다음과 같다.
1) 대규모 언어 모델은 단지 인류가 모은 문장들을 가지고, 문장을 생성하는 디지털 앵무새라고 생각했었다. 인간이 하는 것과 같은 대화나 추론과는 거리가 있고 그것을 학습하는 방식은 아닌 것이라고 말이다. 그러나 다른 관점으로 생각해볼 수 있다.
2) 이제 충분히 큰 신경망을 어느정도로 안정화해서 학습할 수 있다. 더 많은 데이터(가급적 비지도 학습이 가능한)와 더 많은 컴퓨팅 그리고 이후에 강화학습을 통해 원하는 기능을 만들면 되는 상태가 아닐까 기대할 수 있게 되었다.
3) 지금 축적된 대규모 문장들은 인간이 가진 지식의 총합이다. 따라서 1)에도 불구하고 2)에 기반해서 신경망이 충분히 커지면, 단지 비어있는 단어를 학습하는 것만으로도 어느 정도의 추론 능력을 갖출 수도 있다. 기계는 인간의 아이와는 달리 이 세상에 대한 학습이 매우 어려웠는데, 비교도 할 수 없을 다양한 문장 들(인간이 평생 접하는 내용보다 훨씬 더 많은)로 좀더 비효율적이지만, 어쨌듯 목적을 일부 달성하는 방법을 찾은 셈이다. 아직까지 이러한 간접적인 학습이 가능한 것인지는 논란의 여지가 있지만, 일부분 되고 있는 증거가 없는 것은 아니다(물론 못한다는 증거도 같이 공존하지만)
4) 실제 세상에서 인간형태로 학습하는 무언가가 나오기 전이라도 이렇게 학습가능한 데이터를 더 큰 신경망에 학습시키는 전략도, 현재 기술로 가능한 AGI를 추구하는 방법이 될 수도 있다.
그 분야에서 많은 시행착오를 거친 지식이 아닐 수 없다. 과거 산업혁명을 이끈 증기 엔진 개발은 신비하게도 이론적으로 완벽하게 그것을 다룬 이들이 아니라, 여러가지 시행착오 속에서 이론에 부족함 많았던, 엔진을 개선시킨 엔지니어들을 통해 진행되었다는 역사를 인류는 한번 목격한 바 있다. 지금 이 분야도 그렇게 성장할 수도 있지 않을까. 신경망의 창발성이나 이론적 배경은 아직 모호하지만 그렇다고 앞으로 나갈 수 없는 것은 아닌 것이 아닐까. 대규모 문장과 컴퓨팅 그리고 신경망으로, 마치 직접적으로 의도하지는 않은, 인간에 필적하는 몇가지를 배울 수 있다니, 놀랍지 않은가. 좀더 신경망 상위 수준의 추상적인 학습 증진법이 개발되고 인간처럼 직접 대화하면서 기계가 배워나갈 수 있다면 무언가 AGI(일반인공지능)를 위해 더 시도해볼 수도 있게 되지 않을까 꿈을 꾸어 본다.