머신러닝AI2023. 5. 20. 15:44

최근에 일리야 서츠케버(Ilya Sutskever, OpenAI의 수석과학자)와 젠슨 황(Jenson Hwang, Nvidia CEO)의 대담이 유투브에 올라왔다. 개인적으로는 OpenAI의 ChatGPT가 함의하는 바를 그 분야를 가장 앞에서 다루는 사람이 설명하고 있다고 생각해 그에 대한 글을 써보려고 한다.

 

https://www.youtube.com/watch?v=LQviQS24uQY 

 

일리야 서츠케버는 힌튼 교수의 제자이며 딥러닝의 문을 열었다고 평가되는 이미지 인식 모델인 AlexNet을 같이 연구한 전산학도이고, 이후 OpenAI의 초기 창업자로 합류한 인물이다. 이 대담에서는 그런 그의 첫번째 깨달음이 나온다.

 

 신경망이 충분히 깊고 크다면 어려운 문제를 풀 수 있을거라는 것이라는 믿음으로 AlexNet을 연구한 결과이다. 여러가지 딥러닝 기술로 신경망 학습의 제약이 많이 줄어든 상태에서, GPU를 사용해 연산 속도를 극적으로 높이고, 당시에 아무도 시도하지 않았던, 큰 크기의 신경망을 통해 이미지 인식 분야에서 오차를 크게 줄인 일이다. 그 일로 서츠케버는 큰 규모의 신경망에 대한 일종의 믿음이 생겼다고 한다. 모두 작은 크기의 신경망만 다루던 그 시절에서 크기를 키웠을 때의 성능 개선이 가능하다는 사실을 큰 성공을 통해 깨달은 것이다.

 

 그 다음으로는 강화학습의 중요성이다. 딥마인드의 알파스타같이 지속 여러가지 피드백을 실시간으로 받아가며 학습하는 방법에 대한 연구이다. (개인적으로는 강화학습은 그때그때 필요한 데이터를 손쉽게 만들어내는 방법이라고 생각한다.) 그러한 경험에 기반해 드디어 ChatGPT로 넘어간다.

 

 그 과정에서 핵심이 되는 질문은 "과연 거대한 Text Corpus에서의 빈 단어 예측이 신경망에 무엇을 학습시키는 것인가?"이다. 그는 인터넷의 문장들은 일종의 세상에 대한 투영이고, 문장의 가려진 빈칸을 맞추는 학습 방법은 그 세상을 이해해가는 작업이라고 주장한다. 충분히 더 큰 신경망에서는, 이렇게 학습된 모델(ChatGPT)이 단지 디지털 앵무새가 아니라 더 큰 추론의 힘을 지니는 무엇인가라는 말이다. 추리 소설을 예로 드는데 탐정이 여러가지 정보를 수집한 후 범인은 누구누구다 라고 맞추는 것을 예로 든다. 정확히 신경망 학습이 내부적으로 어떠한 의미 체계를 만들어 작동하는지 알 수 없지만, 무언가 추론 체계를 만들어 낸다는 말이다.

 

 그리고 이는 일부분 사실로 증명되고 있다. 1000억 파라메터가 넘어갔을때 ChatGPT는 단순히 흉내내기 그 이상으로 반응한다는 것이다. 아직은 완전하지 않더라도, 일반적인 고확률의 단어 시퀀스를 출력한다기보다는 무언가 다른 일을 해낸다. 그리고 그 이유는 이 신경망이 매우 크고, 엄청난 문장 데이터로 학습을 했기 때문이라고 이야기하고 있다. (물론 이러한 학습방법이 어디까지의 추론 능력을 부여할 수 있는지는 아직 여러가지 논쟁이 있다. 문장만으로 과연 기계가 어디까지 알아낼 수 있느냐는 의문이다)

 

 오히려 인간 대비 유리한 점은, 보통의 인간이 평생 배우지 못할 수많은 문장들을 모두 학습한다는 점이 있다. 그렇게 대규모의 신경망이 어찌보면 인간과 유사한 몇몇 기능을 수행할 수 있다는 사실을, 컴퓨팅의 진보와 실제 시행착오를 통해 증명했다는 점이 ChatGPT가 해낸 일이라고 할 수 있다는 주장이다.

 

 그러면 그 다음은 무엇인가? 신경망 학습이 가능해지는 범위내에서 더  큰 다른 유형의 데이터와 컴퓨팅으로 늘려가는 방법이 있겠다. 그러면 신경망은 훨씬 더 큰 맥락하에서 다양한 단어의 의미를 이해하고 더 넓은 추론이 가능한 신경망을 갖추게 될 수 있는 것은 아닐까? 그래서 영상에서는 멀티모달 관련된 내용이 나온다.

 

 대규모 Text Corpus에 맥락을 찾아내는 이 비지도 학습 외에 사진이나 영상, 음성에서 유사한 비지도 학습이 가능하게 된다면 어떨까? 문장이 가진 세계와 지식과 추론을 기계에게 가르칠 수 있다면, 이제 시각을 보여주고 영상, 음성을 보여줌으로써 더 많은 세상을 기계에게 이해 시킬 수 있다. 대담에서는 서츠케버가 ChatGPT에 시험 문제를 풀게 할때 다이어그램을 볼 수 있게 해주면 정답률이 올라간다고 이야기하고 있다. 더 많은 세상에 대한 정보를 줄 수록, 신경망의 크기만 키우고 컴퓨팅만 감당된다면, 그것이 어떻게든 가능해질 수 있다는 기대를 하게 되는 셈이다.

 

 물론 이런 세계에 대한 표상을 신경망이 갖더라도, 그것으로 무언가 우리가 원하는 일을 하게 하기 위해서는 강화학습이 별도로 필요하다고 이야기하고 있다(왜냐하면 text corpus가 표상하는 대로 생성하면 여러가지 좋지 않은 것들을 거르지 않고 출력하기 때문이다. 편견, 성인물 등) 그런데 어찌보면 AlexNet, 알파고, ChatGPT 등이 거쳐온 흐름은 명확해보인다. 더 큰 신경망과 연산 속도 더 큰 데이터를 가지면, 점점더 인간이 가진 지식과 능력을 신경망 안에 집어 넣을 수 있다는 믿음이 확산되는 것이다.

 

 ChatGPT는 당분간은 이러한 세계에 대한 표상을 사람에게 서비스하기 위해, 그 신뢰도를 높이는 작업들을 진행할 것으로 보인다. 그런데 앞서 지적했듯이 사진이나, 영상, 음성 등 기계에게 세상을 더 자세히 표현할 수 있는 것들을 더 학습시키면, 기존의 인간보다 더 많은 지식을 이해하고 그것의 총체를 더 다룰 수 있는 상태로 나아갈 수 있지 않을까 싶은 생각이 이 영상을 보고 떠올랐다. 인류가 기존에 보유한 최대한의 데이터로 세상을 표상한 후에, 여러가지 강화학습을 통해 맥락을 추가로 학습하고, 그것이 더 큰 신경망 더 많은 데이터, 더 손쉬운 비지도 학습법 등을 개발해나가면 점점 더 인간과 비슷한 기능을 갖추게 되는게 아닌가?

 

서츠케버는 지난 20년간의 이 분야 개척을 통해 그 사실을 깨달은 것이 아닌가 싶은 것이다.

 

결론적으로 이 대담을 통해 개인적으로 느낀 insight는 다음과 같다.

 

1) 대규모 언어 모델은 단지 인류가 모은 문장들을 가지고, 문장을 생성하는 디지털 앵무새라고 생각했었다. 인간이 하는 것과 같은 대화나 추론과는 거리가 있고 그것을 학습하는 방식은 아닌 것이라고 말이다. 그러나 다른 관점으로 생각해볼 수 있다.

 

2) 이제 충분히 큰 신경망을 어느정도로 안정화해서 학습할 수 있다. 더 많은 데이터(가급적 비지도 학습이 가능한)와 더 많은 컴퓨팅 그리고 이후에 강화학습을 통해 원하는 기능을 만들면 되는 상태가 아닐까 기대할 수 있게 되었다.

 

3) 지금 축적된 대규모 문장들은 인간이 가진 지식의 총합이다. 따라서 1)에도 불구하고 2)에 기반해서 신경망이 충분히 커지면, 단지 비어있는 단어를 학습하는 것만으로도 어느 정도의 추론 능력을 갖출 수도 있다. 기계는 인간의 아이와는 달리 이 세상에 대한 학습이 매우 어려웠는데, 비교도 할 수 없을 다양한 문장 들(인간이 평생 접하는 내용보다 훨씬 더 많은)로 좀더 비효율적이지만, 어쨌듯 목적을 일부 달성하는 방법을 찾은 셈이다. 아직까지 이러한 간접적인 학습이 가능한 것인지는 논란의 여지가 있지만, 일부분 되고 있는 증거가 없는 것은 아니다(물론 못한다는 증거도 같이 공존하지만)

 

4) 실제 세상에서 인간형태로 학습하는 무언가가 나오기 전이라도 이렇게 학습가능한 데이터를 더 큰 신경망에 학습시키는 전략도, 현재 기술로 가능한 AGI를 추구하는 방법이 될 수도 있다.

 

그 분야에서 많은 시행착오를 거친 지식이 아닐 수 없다. 과거 산업혁명을 이끈 증기 엔진 개발은 신비하게도 이론적으로 완벽하게 그것을 다룬 이들이 아니라, 여러가지 시행착오 속에서 이론에 부족함 많았던, 엔진을 개선시킨 엔지니어들을 통해 진행되었다는 역사를 인류는 한번 목격한 바 있다. 지금 이 분야도 그렇게 성장할 수도 있지 않을까. 신경망의 창발성이나 이론적 배경은 아직 모호하지만 그렇다고 앞으로 나갈 수 없는 것은 아닌 것이 아닐까. 대규모 문장과 컴퓨팅 그리고 신경망으로, 마치 직접적으로 의도하지는 않은, 인간에 필적하는 몇가지를 배울 수 있다니, 놀랍지 않은가. 좀더 신경망 상위 수준의 추상적인 학습 증진법이 개발되고 인간처럼 직접 대화하면서 기계가 배워나갈 수 있다면 무언가 AGI(일반인공지능)를 위해 더 시도해볼 수도 있게 되지 않을까 꿈을 꾸어 본다.

 

 

반응형
Posted by 작동미학
머신러닝AI2023. 5. 7. 13:34

 ChatGPT의 학습 데이터는 5천억 토큰으로 알려져있다. 토큰은 단어보다는 약간 더 작은, ChatGPT가 알고리즘으로 찾아낸 최소한의 문장 구성 요소들이다. 영어같은 경우는 영어 단어 정도 단위이고, 한글의 경우에는 거의 자소단위로 분할되었다고 한다(더 정확히는 UniCode를 몇개로 분할한 단위라고 한다. 자소단위 급이다)

 

 그리고 이 데이터들은 특히 인터넷에서 crawling(툴을 통해 인터넷 데이터를 자동 수집)하는 형태로 수집되었을 것이다. 위키피디아 같이 그나마 몇몇의 검증을 거친 문장들이 ChatGPT가 인류의 지식을 신경망에 넣을 수 있는 중요한 원천이 되겠다. 여하튼 디지털 형태로 된 문장들 5천억 토큰 어치를 ChatGPT에 집어 넣은 것이다.

 

 그리고 이제 이 ChatGPT는 재미있게도 다른 LLM들을 학습하는 데도 사용된다. 사람처럼 꽤 많이 어떤 데이터를 생성해주기 때문에 그런 길을 걸을 수 있다. 그리고 이 모든 것이 디지털화된 수많은 문장들, 특히 인터넷이 있기에 가능했겠다.

 

 돌이켜보면 인류가 인터넷에 정보를 올려놓고 본격적으로 활용하기 시작한 것은 1990년대 정도로 볼 수 있다. 물론 인터넷은 더 일찍 시작되었고(1969년), 1980년대에도 사설로 몇가지 시험되었지만, WWW이 태동되고, 브라우저(1990년대 초/중반)가 나오면서 인류는 방대한 정보의 네트워크를 구축하게 되었다.

 

https://www.sciencetimes.co.kr/news/%ED%95%9C%EA%B5%AD-%EC%9D%B8%ED%84%B0%EB%84%B7-%ED%83%9C%EB%8F%99%EA%B3%BC-%EC%84%B1%EC%9E%A5%EC%9D%98-%EC%97%AD%EC%82%AC/

 

국내외 과학기술동향, 정책, 문화 등 과기계 이슈 정보 제공. 매주 금요일 뉴스레터 발송

국내외 과학기술동향, 정책, 문화 등 과기계 이슈 정보 제공. 매주 금요일 뉴스레터 발송

www.sciencetimes.co.kr

 

그리고 이제 이 인터넷에는 인류의 모든 정보가 글자와 이미지 영상으로 담기게 된 셈이다. 2010년대의 구글의 이미지 인식 등도 인터넷을 통한 대량의 이미지 축적이 없었다면 쉽지 않았을테다. 아직 영상정보나 음성 등이 활용된 사례가 적지만, ChatGPT를 통해 기존의 label되지 않은 데이터들도 더욱더 학습에 사용될 수 있을지 모른다.

 

그러고보면 문명이 발생한 이래 이러한 AI가 학습을 하기 위해서 인류가 지금까지 발전되어 왔다고 표현될 수도 있지 않을까란 생각이 들었다. 그 기반위에 ChatGPT가 탄생했기 때문이다. 그리고 인류가 모아놓은 인터넷의 지식을 이제 마음껏 자동화하여 처리할 수 있게 되었으니 이 다음 단계는 또 무엇이 기다리고 있을까. 한번 학습되면 복사해서 수도없이 같은 기능을 전개할 수 있는 기반이 갖추어져있다. 이미 이런 전체적인 지식에 있어서는 한 개인을 충분히 초월하는 셈이 된 것은 어찌보면 이미 벌어진 일이었을지도 모르겠다. 앞으로 이런 인터넷의 자료들이 더 학습에 활용되는 방법이 찾아진다면 또 어떤 도약이 가능할지 궁금한 시기가 아니라 할 수 없다. 그렇게 인류는 이런 AGI들이 먹어치울 디지털로 된 자연의 정보를 구축해왔던게 아닌가라는 주객이 뒤바뀐 생각도 들게 될 수 있는것 아닌가.

 

 

반응형
Posted by 작동미학
머신러닝AI2023. 5. 5. 15:03

 이미 딥러닝 역사의 아버지 역할을 하게 된 힌튼교수(캐나다 토론토 대학교 교수)가 최근 겸직하던 구글을 그만두었다. 회사에 몸담고 있는 입장에서는 최근 AI를 자유롭게 논할 수가 없어 그만두었고 현재의 ChatGPT를 비롯한 LLM이 펼쳐질 미래에 대한 우려를 밝히고 있다. 이 오랜 연결주의자인 그의 인터뷰는 그의 제자들이 이 분야의 거대 테크기업들(얀 르쿤, 앤드류 응, 요슈아 벤지오, 일리야 서츠커버)과 학계를 주도하는 상황에서 상당한 정보에 기반하고 있다고 볼 수 있으므로 리뷰해볼 가치가 있다고 생각한다.

 

https://www.technologyreview.com/2023/05/02/1072528/geoffrey-hinton-google-why-scared-ai/

 

 

“My father was a biologist, so I was thinking in biological terms,” says Hinton. “And symbolic reasoning is clearly not at the core of biological intelligence.“Crows can solve puzzles, and they don’t have language. They’re not doing it by storing strings of symbols and manipulating them. They’re doing it..

  신경망의 주요 학습 알고리즘인 Back Propagation('1980년대)을 만드는데 크게 공헌한 그는 생물학자였던 아버지의 영향으로 신경망으로 지능의 문제를 해결할 수 있다고 믿어왔다고 한다. 연결주의가 침체되고 기호주의가 팽배하던 시절을 겪었음에도 그 믿음을 계속 밀고 나갔던 것이다.

 

“Our brains have 100 trillion connections,” says Hinton. “Large language models have up to half a trillion, a trillion at most. Yet GPT-4 knows hundreds of times more than any one person does. So maybe it’s actually got a much better learning algorithm than us.”

 

 ChatGPT에 대해 놀라운 것은 인간 신경망 연결의 많아야 1% 밖에 되지 않는 데도 한명의 인간보다 훨씬 더 많은 것을 알고 있다는 점이다. 오히려 인공 신경망 알고리즘이 인간의 것보다 더 효율적일 수 있단다.

 

Hinton has an answer for that too: bullshitting is a feature, not a bug. “People always confabulate,” he says. Half-truths and misremembered details are hallmarks of human conversation: “Confabulation is a signature of human memory. These models are doing something just like people.”

 

 Hallucination(엉터리 사실을 말하는것)에 대해서는 흥미롭게도 그것은 LLM만의 문제가 아니라 인간도 같다고 주장한다. 사람들도 언제나 지어내며 LLM보다 정확하거나 덜 정확할 뿐이지, 인간이나 기계나 현상은 비슷하다는 말이다. 즉 개선하면 될 일이지 구조적인 한계로 볼 수가 없다고 할 수 있다.

 

Learning is just the first string of Hinton’s argument. The second is communicating. “If you or I learn something and want to transfer that knowledge to someone else, we can’t just send them a copy,” he says. “But I can have 10,000 neural networks, each having their own experiences, and any of them can share what they learn instantly. That’s a huge difference. It’s as if there were 10,000 of us, and as soon as one person learns something, all of us know it.”

 힌튼 교수가 이제 AI에 대해 걱정되는 점들을 언급한다. 처음에는 인간에 비해 빠른 학습 및 전파에 대한 것이다. 기계는 일단 학습을 하면 복제가 매우 쉽다. 이를 테면 만 개의 agent가 있다면 1 개의 agent가 배운 내용을 그 즉시 전체로 전파할 수 있다. 인간과는 상대도 안되는 속도다. 생물학적인 뇌와는 차원이 다른 더 나은 지능이라고 평가하고 있다.

 

“Look, here’s one way it could all go wrong,” he says. “We know that a lot of the people who want to use these tools are bad actors like Putin or DeSantis. They want to use them for winning wars or manipulating electorates.”

 

 사람마다 이 문제를 바라보는 정도가 다르지만, 이 기술에 준비가 안된 사람들이 피해를 볼 수 있고, 가장 직접적으로는 나쁜 사람들에 의해 악용되어 선거나 전쟁의 양상을 바꾸는 데도 응용될 수 있다고 경고한다. 확실히 댓글부대라던가 여론조작, 다양한 조작이나 포장이 더 저렴해지고 효과적이게 할 수 있게 된 것은 사실이다.

 

Don’t think for a moment that Putin wouldn’t make hyper-intelligent robots with the goal of killing Ukrainians,” he says. “He wouldn’t hesitate. And if you want them to be good at it, you don’t want to micromanage them—you want them to figure out how to do it.”

 

이어서는 이 AI에게 자율적으로 특정 나쁜 목적을 부여하여 다양하게 고민하고 실행토록 하는 것을 예로든다. ChatGPT류가 인간의 일반적인 질문에도 답해주지만 나쁜 목적의 질문에도 지속 효과적인 답변을 해주고, agent로도 쓰일 수 있으므로 그것에 실제 실행할 수 있는 능력을 부여했을때, 상상 이상으로 잘 실행해버리면 인류가 재앙의 상황에 닥칠 수 있다는 이야기다. AI가 인간보다 더 나은 솔루션을 저렴하게 제시하고 그것을 자율 실행하게 되면, 나쁜 짓도 훨씬더 효과적으로 실행할 수 있다는 추측이다. 이미 Auto-GPT같은 AI모델들을 결합하여 특정 목적을 수행하게 자동화하는 프로젝트도 존재하고 있긴 하다. 하지만 개인적으로는 이것이 현실화되려면 꽤 충분히 더 지금의 인공AI들이 더 좋아져야 할 것이다. 단순히 LLM만으로 해낼 수 있는 문제인지도 명확치 않다. 아마 이런 부분에 있어서 여전히 전문가들의 의견이 엇갈리고 있을테다.

 

“There is no question that machines will become smarter than humans—in all domains in which humans are smart—in the future,” says LeCun. “It’s a question of when and how, not a question of if.”

 

하지만 AI가 인간보다 더 잘할 있는가에 대해서는 르쿤(얀 르쿤)의 말을 인용한다. 여하튼 언젠가는 좋아지므로 그저 타이밍의 문제라는 말이다. 다만 르쿤은 이렇게 AI가 인간보다 더 똑똑해진다고 무조건 인간을 지배한다는 점에서는 동의하지 않는다고 한다. 이미 인간 세상에서도 가장 똑똑한 사람이 다스리는 것은 아니기 때문이다. 그곳에는 무언가 다른 메카니즘이 있다.

 

He thinks the international ban on chemical weapons might be one model of how to go about curbing the development and use of dangerous AI. “It wasn’t foolproof, but on the whole people don’t use chemical weapons,” he says.

 

힌튼은 그럼에도 이 악용되고 위험해질 수 있는 AI 기술에 대해 화학무기처럼 다룰 수 있다고 이야기한다. 그러나 그 제자들 등 모두는 이런 법적이거나 행정적인 조치들보다도 AI의 기술 발전속도가 너무 빠른 것에 대해 우려하고 있다. 테크기업들의 경쟁이 심화되고 있기 때문이다.

 

아직 그 위험한 총기 문제에도 합의가 없는 미국의 예로 들면서 시간이 지나면서도 통제하기 어려울 수도 있는 상황에 대해 우려하면서 인터뷰는 끝난다. 여전히 개인적으로는 다수의 디지털 앵무새가 무기화되는 장면이 선뜻 떠오르지는 않는다. 그리고 ChatGPT는 진짜 자기가 무슨 말을 하는지 아는 독립된 생명체 같지는 않지 않은가? 하지만 확실히 기존에 사람밖에 할 수 없다고 알려진 일들을 매우 빠르고 값싸게 수행하면서 더 빨리 배울 수 있는 점은, 어떤 상상력과 결합했을때 그 파급효과가 클 수도 있다는 우려에 대해서는 이제 일부 동감이 된다. ChatGPT오픈 후 이렇게 급속히 변하고 발전하는 이 분야의 올해나 내년은 또 어떻게 진행될까?

 

'

 

 

 

 

 

반응형
Posted by 작동미학