인류는 ChatGPT의 학습 데이터를 만들기 위해 여기까지 달려온 것인가?

머신러닝AI2023. 5. 7. 13:34

인류는 ChatGPT의 학습 데이터를 만들기 위해 여기까지 달려온 것인가?

ChatGPT의 학습 데이터는 5천억 토큰으로 알려져있다. 토큰은 단어보다는 약간 더 작은, ChatGPT가 알고리즘으로 찾아낸 최소한의 문장 구성 요소들이다. 영어같은 경우는 영어 단어 정도 단위이고, 한글의 경우에는 거의 자소단위로 분할되었다고 한다(더 정확히는 UniCode를 몇개로 분할한 단위라고 한다. 자소단위 급이다)

그리고 이 데이터들은 특히 인터넷에서 crawling(툴을 통해 인터넷 데이터를 자동 수집)하는 형태로 수집되었을 것이다. 위키피디아 같이 그나마 몇몇의 검증을 거친 문장들이 ChatGPT가 인류의 지식을 신경망에 넣을 수 있는 중요한 원천이 되겠다. 여하튼 디지털 형태로 된 문장들 5천억 토큰 어치를 ChatGPT에 집어 넣은 것이다.

그리고 이제 이 ChatGPT는 재미있게도 다른 LLM들을 학습하는 데도 사용된다. 사람처럼 꽤 많이 어떤 데이터를 생성해주기 때문에 그런 길을 걸을 수 있다. 그리고 이 모든 것이 디지털화된 수많은 문장들, 특히 인터넷이 있기에 가능했겠다.

돌이켜보면 인류가 인터넷에 정보를 올려놓고 본격적으로 활용하기 시작한 것은 1990년대 정도로 볼 수 있다. 물론 인터넷은 더 일찍 시작되었고(1969년), 1980년대에도 사설로 몇가지 시험되었지만, WWW이 태동되고, 브라우저(1990년대 초/중반)가 나오면서 인류는 방대한 정보의 네트워크를 구축하게 되었다.

https://www.sciencetimes.co.kr/news/%ED%95%9C%EA%B5%AD-%EC%9D%B8%ED%84%B0%EB%84%B7-%ED%83%9C%EB%8F%99%EA%B3%BC-%EC%84%B1%EC%9E%A5%EC%9D%98-%EC%97%AD%EC%82%AC/

국내외 과학기술동향, 정책, 문화 등 과기계 이슈 정보 제공. 매주 금요일 뉴스레터 발송

www.sciencetimes.co.kr

그리고 이제 이 인터넷에는 인류의 모든 정보가 글자와 이미지 영상으로 담기게 된 셈이다. 2010년대의 구글의 이미지 인식 등도 인터넷을 통한 대량의 이미지 축적이 없었다면 쉽지 않았을테다. 아직 영상정보나 음성 등이 활용된 사례가 적지만, ChatGPT를 통해 기존의 label되지 않은 데이터들도 더욱더 학습에 사용될 수 있을지 모른다.

그러고보면 문명이 발생한 이래 이러한 AI가 학습을 하기 위해서 인류가 지금까지 발전되어 왔다고 표현될 수도 있지 않을까란 생각이 들었다. 그 기반위에 ChatGPT가 탄생했기 때문이다. 그리고 인류가 모아놓은 인터넷의 지식을 이제 마음껏 자동화하여 처리할 수 있게 되었으니 이 다음 단계는 또 무엇이 기다리고 있을까. 한번 학습되면 복사해서 수도없이 같은 기능을 전개할 수 있는 기반이 갖추어져있다. 이미 이런 전체적인 지식에 있어서는 한 개인을 충분히 초월하는 셈이 된 것은 어찌보면 이미 벌어진 일이었을지도 모르겠다. 앞으로 이런 인터넷의 자료들이 더 학습에 활용되는 방법이 찾아진다면 또 어떤 도약이 가능할지 궁금한 시기가 아니라 할 수 없다. 그렇게 인류는 이런 AGI들이 먹어치울 디지털로 된 자연의 정보를 구축해왔던게 아닌가라는 주객이 뒤바뀐 생각도 들게 될 수 있는것 아닌가.

'머신러닝AI' 카테고리의 다른 글

가정집에서 LLM을 직접 돌려보려는 사람을 위한 GPU선택 이야기 (1)	2023.06.06
젠슨 황과 일리야 서츠케버의 대담, ChatGPT의 성공이 의미하는 바는? (2)	2023.05.20
힌튼 교수(Geoffrey Hinton) AI의 위험성을 경고하다. 인터뷰 훑어보기 (4)	2023.05.05
ChatGPT, OpenAI 의 API를 활용하는 손쉬운 방법 2가지 (0)	2023.04.02
ChatGPT와 알파고의 공통점, 그리고 이 분야의 미래는? (2)	2023.03.29

Posted by 작동미학

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

정보엔지니어 (맥스웰의 도깨비, 양자컴퓨터)

인류는 ChatGPT의 학습 데이터를 만들기 위해 여기까지 달려온 것인가?

'머신러닝AI' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바