인류는 ChatGPT의 학습 데이터를 만들기 위해 여기까지 달려온 것인가?
ChatGPT의 학습 데이터는 5천억 토큰으로 알려져있다. 토큰은 단어보다는 약간 더 작은, ChatGPT가 알고리즘으로 찾아낸 최소한의 문장 구성 요소들이다. 영어같은 경우는 영어 단어 정도 단위이고, 한글의 경우에는 거의 자소단위로 분할되었다고 한다(더 정확히는 UniCode를 몇개로 분할한 단위라고 한다. 자소단위 급이다)
그리고 이 데이터들은 특히 인터넷에서 crawling(툴을 통해 인터넷 데이터를 자동 수집)하는 형태로 수집되었을 것이다. 위키피디아 같이 그나마 몇몇의 검증을 거친 문장들이 ChatGPT가 인류의 지식을 신경망에 넣을 수 있는 중요한 원천이 되겠다. 여하튼 디지털 형태로 된 문장들 5천억 토큰 어치를 ChatGPT에 집어 넣은 것이다.
그리고 이제 이 ChatGPT는 재미있게도 다른 LLM들을 학습하는 데도 사용된다. 사람처럼 꽤 많이 어떤 데이터를 생성해주기 때문에 그런 길을 걸을 수 있다. 그리고 이 모든 것이 디지털화된 수많은 문장들, 특히 인터넷이 있기에 가능했겠다.
돌이켜보면 인류가 인터넷에 정보를 올려놓고 본격적으로 활용하기 시작한 것은 1990년대 정도로 볼 수 있다. 물론 인터넷은 더 일찍 시작되었고(1969년), 1980년대에도 사설로 몇가지 시험되었지만, WWW이 태동되고, 브라우저(1990년대 초/중반)가 나오면서 인류는 방대한 정보의 네트워크를 구축하게 되었다.
그리고 이제 이 인터넷에는 인류의 모든 정보가 글자와 이미지 영상으로 담기게 된 셈이다. 2010년대의 구글의 이미지 인식 등도 인터넷을 통한 대량의 이미지 축적이 없었다면 쉽지 않았을테다. 아직 영상정보나 음성 등이 활용된 사례가 적지만, ChatGPT를 통해 기존의 label되지 않은 데이터들도 더욱더 학습에 사용될 수 있을지 모른다.
그러고보면 문명이 발생한 이래 이러한 AI가 학습을 하기 위해서 인류가 지금까지 발전되어 왔다고 표현될 수도 있지 않을까란 생각이 들었다. 그 기반위에 ChatGPT가 탄생했기 때문이다. 그리고 인류가 모아놓은 인터넷의 지식을 이제 마음껏 자동화하여 처리할 수 있게 되었으니 이 다음 단계는 또 무엇이 기다리고 있을까. 한번 학습되면 복사해서 수도없이 같은 기능을 전개할 수 있는 기반이 갖추어져있다. 이미 이런 전체적인 지식에 있어서는 한 개인을 충분히 초월하는 셈이 된 것은 어찌보면 이미 벌어진 일이었을지도 모르겠다. 앞으로 이런 인터넷의 자료들이 더 학습에 활용되는 방법이 찾아진다면 또 어떤 도약이 가능할지 궁금한 시기가 아니라 할 수 없다. 그렇게 인류는 이런 AGI들이 먹어치울 디지털로 된 자연의 정보를 구축해왔던게 아닌가라는 주객이 뒤바뀐 생각도 들게 될 수 있는것 아닌가.