정보엔지니어 (맥스웰의 도깨비, 양자컴퓨터)

양자컴퓨터2025. 5. 31. 01:12

양자컴퓨터로 피터쇼어 알고리즘 실행하기

고등학생 친구에게 설명한다고 생각하고, 실제 클라우드 양자 컴퓨터에서 쇼어 알고리즘을 돌려 소인수 분해하는 과정을 차근차근 이야기해 보자. 수학적인 깊이보다는 전체적인 흐름과 각 단계의 의미를 이해하는 데 초점을 맞추어 보겠다.

우리의 목표: 큰 수 N을 소인수 분해하기 (예: N = 15)

우리가 소인수 분해하고 싶은 숫자 N이 있다고 해보자. 간단한 예로 N = 15이라고 하자. 물론 15 = 3 x 5라는 건 바로 알지만, 이 숫자가 아주아주 커지면 컴퓨터로도 계산하기 어렵다. 쇼어 알고리즘은 바로 이런 큰 수의 소인수 분해를 양자 컴퓨터로 빠르게 해결하는 방법이다.

1단계: 소인수 분해를 위한 '도우미 숫자' a 고르기 (고전 컴퓨터 작업)

먼저, N과 서로소인(최대공약수가 1인) 숫자 'a'를 하나 고른다. N=15에 대해서는 2, 4, 7, 8, 11, 13, 14 등이 가능하다. 그냥 간단하게 a = 7로 정해보자. 이 a는 나중에 양자 컴퓨터가 주기(사이클)를 찾는 데 중요한 역할을 한다.

2단계: 양자 컴퓨터의 마법 - '주기(period)' 찾기

쇼어 알고리즘의 핵심은 를 N으로 나눈 나머지, 즉 이라는 함수의 주기 r을 찾는 것이다. 주기라는 건, 이 되게 하는 가장 작은 양의 정수 r을 말한다. 즉, 값이 반복되는 패턴의 길이다.

예를 들어 N=15, a=7 이면,
- (다시 7이 나왔다!)
- 이 함수의 값은 7, 4, 13, 1, 7, 4, 13, 1, ... 이렇게 반복된다. 주기는 얼마일까? 바로 r = 4 이다.

이 주기 r을 찾으면, 이라는 성질을 만족한다. ( 이고 이다.) 이 주기 r을 알면 소인수를 찾는 데 결정적인 단서를 얻게 된다. 이 주기 찾기를 양자 컴퓨터가 아주 잘한다.

3단계: 양자 회로 구성 (클라우드 양자 컴퓨터에 명령 내리기)

이제 클라우드에 있는 양자 컴퓨터에 접속해서 양자 회로를 만들어 실행할 차례이다. 이 회로는 주기 r을 찾기 위해 특별히 설계된다.

큐비트 준비: 양자 컴퓨터의 기본 계산 단위인 큐비트를 준비한다. 두 그룹의 큐비트가 필요하다.
- 첫 번째 그룹 (입력 레지스터): 여러 가능한 x 값(0, 1, 2, 3, ...)을 동시에 나타내기 위해 사용된다. 큐비트 수에 따라 표현할 수 있는 x의 범위가 정해진다.
- 두 번째 그룹 (함수 레지스터): 계산 결과를 저장하기 위해 사용된다.
중첩 만들기 (아다마르 게이트): 첫 번째 그룹의 큐비트들에 **아다마르 게이트(Hadamard gate)**라는 양자 연산을 적용한다. 이렇게 하면 큐비트들이 0과 1 상태를 동시에 갖는 '중첩' 상태가 되어, 수많은 x 값들을 한 번에 다루는 효과를 낸다. 마치 여러 갈래 길을 동시에 탐색하는 것과 같다.
계산 (모듈러 지수화 연산): 이제 첫 번째 그룹의 x 값들에 맞춰 두 번째 그룹의 큐비트에 연산을 수행한다. 이 연산은 첫 번째 그룹의 큐비트 상태에 따라 제어되어 실행된다. 이 과정에서 첫 번째 그룹과 두 번째 그룹의 큐비트들은 양자 얽힘 상태가 된다. 즉, 서로 밀접하게 연결되어 한쪽의 상태가 다른 쪽에 영향을 주게 된다.
주기 정보 추출 (역 양자 푸리에 변환 - IQFT): 두 번째 그룹 큐비트는 이제 의 결과들을 중첩된 상태로 가지고 있고, 첫 번째 그룹과 얽혀있다. 여기서 마법 같은 일이 일어난다. 첫 번째 그룹의 큐비트들에 **역 양자 푸리에 변환(Inverse Quantum Fourier Transform, IQFT)**이라는 특별한 양자 연산을 적용한다. 이 IQFT는 함수의 주기 r에 대한 정보를 첫 번째 그룹 큐비트들의 측정 확률 분포로 바꿔주는 역할을 한다. 마치 숨겨진 음악의 특정 주파수(여기서는 주기)를 찾아내 증폭시키는 것과 비슷하다.

4단계: 측정과 확률 분포 얻기 (반복 실행)

IQFT까지 적용된 첫 번째 그룹의 큐비트들을 측정한다. 측정하는 순간, 큐비트의 중첩 상태는 깨지고 0 또는 1의 고전적인 비트 값으로 확정된다. 이 측정값을 기록한다.

반복 실행 (Shots): 양자 컴퓨터는 확률적으로 작동하기 때문에, 한 번의 측정만으로는 정확한 정보를 얻기 어렵다. 그래서 위에서 설명한 양자 회로를 수백, 수천 번 (클라우드 서비스에서는 'shots'라는 파라미터로 지정) 반복 실행하고, 매번 첫 번째 레지스터의 측정값을 기록한다.
확률 분포: 이렇게 많은 측정값들을 모으면, 어떤 값들이 더 자주 나왔는지 알 수 있다. 이것이 바로 확률 분포다. 이상적으로, 이 확률 분포는 우리가 찾고자 하는 주기 r과 관련된 특정 값들에서 높은 봉우리를 보이게 된다.
- 예를 들어 N=15, a=7, 주기 r=4인 경우, 측정 결과는 (이상적으로는) 0, , , (여기서 M은 첫 번째 레지스터가 표현할 수 있는 최대 정수값) 근처의 값들에서 높은 확률로 나타난다.

5단계: 주기 찾기 (고전 컴퓨터 작업 - 연분수 알고리즘)

양자 컴퓨터가 알려준 확률 분포(측정 결과들)를 이제 고전 컴퓨터로 가져와 분석한다.

확률 분포에서 봉우리를 이루는 측정값들을 찾는다. 이 값들은 형태에 가까운 값들이다 (k는 정수).
이 측정값들로부터 실제 주기 r을 찾아내기 위해 **연분수 알고리즘(continued fractions algorithm)**과 같은 수학적 방법을 사용한다. 이 알고리즘은 측정된 값(분수 형태)에 가장 가까우면서 분모가 작은 간단한 분수를 찾아주는데, 이 분모가 바로 우리가 찾는 주기 r의 후보가 된다.
여러 측정값으로부터 여러 주기 후보를 얻을 수 있고, 이들을 검증하여 실제 주기 r을 확정한다. (우리의 예에서는 r=4가 나와야한다.)

6단계: 소인수 계산 (고전 컴퓨터 작업)

드디어 주기 r을 찾았! (우리 예에서는 r=4) 이제 이 r을 이용해서 N의 소인수를 계산한다.

주기 r이 짝수인지 확인한다. (r=4는 짝수, 통과!)
이 (즉, -1 mod N)이 아닌지 확인한다.
- .
- .
- .
- 이므로 통과!
만약 위 두 조건 중 하나라도 만족하지 않으면, 처음으로 돌아가 다른 a를 선택해서 다시 시도해야 한다. 운이 좋으면 한 번에 되지만, 아닐 수도 있다.
이제 두 개의 소인수 후보 p와 q를 다음 공식을 사용해 계산한다.
- (gcd는 최대공약수를 의미한다.)
우리 예에서는:

드디어 N=15의 소인수 3과 5를 찾았다!

실제 클라우드 환경에서의 현실

큐비트 한계와 오류: 현재 클라우드에서 제공하는 양자 컴퓨터는 큐비트 수가 아직은 수십~수백 개 수준이고, 큐비트들이 매우 민감해서 연산 중에 오류(노이즈)가 발생하기 쉽다. 그래서 N=15 정도의 작은 수를 소인수 분해하는 것도 여러 번 시도해야 의미 있는 결과를 얻을 수 있고, 훨씬 큰 수를 분해하려면 더 많은 큐비트와 오류율이 낮은 양자 컴퓨터가 필요하다.
결과 분석: 실제로는 확률 분포가 이상적으로 깨끗하게 나오지 않고 노이즈 때문에 다른 값들도 꽤 측정된다. 그래서 통계적인 분석을 통해 의미 있는 신호를 찾아내는 과정이 중요하다.

(w/ Gemini 2.5 pro)

'양자컴퓨터' 카테고리의 다른 글

양자 컴퓨터를 일반인도 이해하기 위한 간단한 설명과 한국어 동영상 소개 (0)	2024.01.20
양자컴퓨터? 양자로 대체 어떻게 빠른 계산을 하는 것인가요? (2)	2020.12.10
구글의 양자컴퓨터 SW Framework, Cirq와 Tensorflow Quantum (0)	2020.03.09
양자컴퓨터에서 코딩이란 무엇인가? (MS Azure Quantum 사례) (0)	2020.02.01
양자컴퓨터에서 코딩이란 무엇인가? (IBM사례) (0)	2020.01.05

Posted by 작동미학

머신러닝AI2025. 3. 22. 23:25

지적 능력의 대량 생산 시대, 이 시대의 생성형AI가 바꿀 세상, AI비서

인류는 그동안 많은 것들의 가격을 시대 전체적으로 낮추는 기술 진보를 보여준 적이 있었다. 식량의 가격을, 수렵 채집에서 농사를 통해 혁신하여 낮추었고, 산업화를 통해 물리적인 노동력의 가격을 낮추고 성능을 높였다. 석유를 통해 에너지의 가격을 낮추었으며, 정보처리 혁명을 통해 정보 처리 단가를 낮추고 네트워크로 연결했다. 그리고 이제 드디어, 인간의 전유물이었던 지적 능력 즉 "지능"이 갑자기 가격이 낮아지는 변화를 앞두고 있다. 그리고 이를 지적 능력의 대량 생산 시대라 표현할 수 있다고 생각한다. 딥러닝에 이은 대규모 인공 생명망에 기반한 생성형 AI 등이 열어준 세상이다.

대부분의 사람은 독자적으로 어떤 정보를 파악하고 대응한다. 그러나 이 일을 다른 사람에게 맡기던 사람들이 이미 존재해왔다. 우리가 TV속에서 흔히 보는 국가의 왕이나, 대기업의 회장이 그렇다. 그들은 최신 정보를 보고 받고, 전문적으로 담당하는 신하나 부하 직원의 의견을 듣고 결정한다. 혼자 하기에는 감당이 안되는 일이기 때문이고, 또한 그렇게 할 수 있도록 사람을 거느리고 있기 때문이다.

하지만 이러한 값비싼 비서진을 두는 비용을 지불하지 못하는 개인은, 스스로 혼자 할 수 밖에 없었다. 조금더 효율을 높이는 방법은 직접 알아보고 그 분야의 교육을 받아 지식을 습득하며 발빠르게 대응하는 것 뿐이다. 인생에서 당면하는 수많은 문제들, 이를테면 관혼상제, 여러가지 관계상의 문제 해결, 경제적인 판단이나 투자및 매수 매도 처리, 자녀 교육 등 상당한 정보와 전문 역량이 필요한 일을 처리해야 한다. 따라서 개인에게 다양한 전문적인 조언이 필요하지만, 전문가를 옆에 직속으로 둔다는 것은 현실적인 비용으로 감내하기 어려웠던 것이다.

조금더 현실을 들여다보자면, 사실 대기업 회장님 정도 되어도, 늘 그런 서비스를 받고 있지도 못하다. 간헐적으로 회의시간에 부하직원들을 만나야 그런 서비스를 받는다. 그 부유한 회장 마저도 혼자서 하는 것들이 생각보다 상당하다. 24시간 옆에 그것도 계속 업데이트되며 서비스를 제공하고 있는 지적 능력 서비스 같은 것은 없었기 때문이다. 사람이라는 비용은 어마어마했고 그 유지도 힘들고 24시간 만나기도 어렵다. 어떠한 재력으로도 충분하게 이런 지능이라는 서비스를 충분히 제공받기가 어려운게 현실이었다.

그런데 이미 작년말부터 어느 수준 이상 이런 것들이 가능하게 되었다고 생각한다. 대략 ChatGPT가 추론형의 진보한 모델인 o1-pro를 제공하는 시점부터, DeepResearch같은 보고서를 제공하면서부터 서서히 윤곽이 보이기 시작했다. 놀라운 일이다. 지적 능력이 대량생산 된다니 믿을 수 있는가! 일단 인간을 어느정도 능가하기 시작하면, 그 빠른 속도와 24시간 대기 및 컴퓨팅과 전력만 있으면 그 규모를 대규모로 늘릴 수 있다는 점이 기존 인간과 완전히 다르다는 것을 알게된다.

ChatGPT 등 회사는 이제 검색을 통해 실시간 성을 보완하고 상당한 정도로 추론하며 자체 검증하여, 인터넷에 있는 결론들을 요약하는 수준에서는 전혀 손색이 없다. 그에 더해 추론 기능이 강화되고 있어서, 직접 관찰하지 않은 콘텐츠들(즉 창의성도)도 일정 수준 이상 제시할 수 있게 되었다. 그리고 이미 ChatGPT는 이러한 것들을 분야별 Agent를 통해(GPTs) 서비스하려고 했고, 아마 더 강화될 것이다.

이런 관점에서 미래에서 바라보았을때 현재 ChatGPT의 불편한 점은 무엇일까? 매번 내 과거를 다시 설명해야 하고, 그리고 현재 상황을 또 알려줘야 하는 것이 대표적이다. 그러나 이미 개인에 대한 정보는 많이 디지털화되고 있다. 내 신상이나 금융 거래, 교육, SNS 등 수없이 나에 대한 과거를 알 수 있는 정보들은 가득하다. 그러면 이 정보들이 이제 통합 수집되어 생성형AI에 전달되고, 그리고 이제 벌어질 것들은 VR안경 같은 형태로 모두 생성형AI에 실시간 전달되어, 멀티 모달 형태로 서비스를 받는다면 어떻게 될까?

직장 조언, 투자 의사결정, 간단한 증상에 대한 의료 조언, 자녀 교육에 필요한 여러가지 혼란스러운 상황에 대한 정보 수집이나 판단, 주변 정보를 종합해서 무언가를 결정하고, 다양한 것들을 행하는 데 늘 혼자 처리할 수 밖에 없는 취약했던 개인에게 AI 비서가 제공하게 된다면 어떻게 될까? 여하튼 컴퓨팅이 필요하고 AI 훈련이 필요하고 정보를 업데이트 해야할테니, 전문 분야별로 한달 5천원씩이 추가되며, VR안경이나 음성으로, 카메라로 실시간 상황을 보완하는데 2만원을 추가한다고 하면 어떨까?

여러가지 정보를 취합해서 내가 직장에서 적극적으로 성공하기 위한 실시간 코칭까지 같이 매일 해주고, 그때그때 의사결정을 지원해주고 내가 못하는 분석을 해주고 결과를 알려주면 어떨까? 사람들은 그러한 저가의 대량생산 지능을 구매하고 싶지 않게될까?

미래의 관점에서 현재를 다시 보면, 이런 저가의 서비스가 없기 때문에, 인류는 자기 배우고 싶지 않아도 "교육"이라는 별도의 수단을 통해 시간을 들여서 이것저것 배우게 되고 늘 노력하지만 전문가처럼 하기도 어렵지 않은가. 그 지식을 그때그때 업데이트 하기도 어렵다. 그래서 미래의 이런 AI 비서를 쓰는 사람이 보기에는 지금의 우리가 원시적으로 보일 지도 모르겠다. "그걸 직접 배우려고 하고 시간을 썼다니! 상상하는게 고작 지식을 머리에 다운로드 받아서 직접하는 것 뿐이었는가? 세상의 그 복잡한 문제를 왜 번거롭게 사람이라는 불완전한 전문가를 찾아 해결하려고 했던가 생성형AI를 진보시켜 그때그때 물어봐서 처리하도록 하면 되었던 것을!" 이 되지 않을까.

그러면 이제 이런 AI 가입형 서비스가 확산되면 어떤 일이 벌어질까? 은행이 전산화되면서 점포의 방문자가 줄고 앱을 쓰는 것과는 또다른 차원의 일이 서비스업에 확산된다. AI 비서가 제공해주는 서비스는, 그 분야 어지간한 사람 전문가보다 더 전문화되고 24시간 고객을 바라보며 깨어있으면서 조언을 해줄 수 있다면, 구태여 고객은 따로 기존의 서비스업장을 찾아갈 필요를 느끼지 못하게 된다.

물론 사라지지 않겠지만 가벼운 진료나 법률상담, 금융상담 같은 것들부터 시작해서 오프라인 매장을 찾는 일이 줄어들기 시작하겠다. 지식으로 문제를 해결해주던 수많은 서비스업이 축소되기 시작한다. 그런 서비스업에 종사했던 사람들은 오히려 AI 비서가 잘 되도록 검증하고 훈련하고 보조하는 쪽으로 상당 수 개편되게 되고, 실제 고객에게 이러한 상담은, AI비서를 통해서 더 많은 비중으로 제공하게 될 것이다. 지적 능력의 대량생산화는 곧바로 이런 정보 파악 및 조언에 대한 내용을 온라인으로 최적화해주고 오프라인을 대체하 게된다.

B2B시장도, 회사 내에서도 비슷하게 전개될 것이다. 각 부서의 협업을 필요로 하는 회사원들은 같은 상황에 처하게 된다. 여러 사람을 만나 부탁하고 결과를 받아 협업하는데, 많은 일들이 더 즉각적으로 빠른 속도로 AI 비서에 의해서 처리될 수 있겠다. 무엇하러 시간 걸리게 어떤 부서에 부탁하겠는가. 즉각 답을 받을 수 있는 AI 업무 비서가 있을텐데. 많은 일들이 AI 비서를 업그레이드하게 되거나, 그 회사 특성에 맞게 AI 비서를 튜닝하는 역할이 더 커지게 되겠다.

이미 어느정도의 기술이 갖춰져있고, 단지 이것을 제공하는 인터페이스나 규제, 그리고 제공하는 서비스를 만들어낼 조직이 이러한 진화 방향을 모두 이해하지 못하는 것 외에는 이 미래를 늦출 수 있는 것은 없어 보인다. 우리가 만날 세상이고, 이미 시작되어 진행되고 있는 미래다. 강력한 필요에 의해서 많은 인간 전문가가 24시간 온라인 AI화 되고 고객에게 직접적으로 필요할때 곧바로 제공되는 형태로 변화될 것이다.

'머신러닝AI' 카테고리의 다른 글

딥러닝이 무엇인가요? (0)	2024.09.14
Flux.1 을 윈도우+NVidia GPU에서 실행해보자. (6)	2024.09.06
AI를 만들고 싶었던 이야기 (1)	2024.09.05
인공지능 신경망의 관측을 통한 뇌 이해가 가능할까? (0)	2024.05.25
윈도우(windows)에서 실행하는 easy_diffusion & kohya_ss (2)	2024.05.01

Posted by 작동미학

머신러닝AI2024. 9. 14. 11:26

딥러닝이 무엇인가요?

딥러닝이라는 개념이 각광받는 가운데, 단지 마케팅 용어로 딥러닝을 접하고, 피상적으로만 알고 있는 사람들이 꽤 많다. 정작 이 분야를 잘 알아야 하는 사람들도 그렇다. 예를 들어 흔히 듣는 이야기는 단순한 통계모델로 하면 될 문제를 '딥러닝'으로 풀겠다고 이야기한다는 점이다. 딥러닝이 성능이 좋다는 말이 널리 퍼지면서, 앞뒤의 맥락없이 그렇게 접근되기 때문이다. 아쉬움 가득한 상황이다. 그래서 오늘은 이 이야기를 간단히 해보자.

딥러닝은 어찌보면 연결주의자들의 꿈이었다. 사람들은 오랫동안 기호주의에 의거해 AI 문제를 해결하려고 했다. 즉 if-then의 끊임없는 나열이나, 어떤 단순한 통계 모델을 조합해서 완전하게 설명가능한 AI를 만드는 것이다. 직접 코딩을 통해 프로그래밍을 한다고 생각해보면 쉽게 이해할 수 있다. 우리가 하는 대부분의 환원주의적인 과학 접근 방식을 닮은 접근이다. 모든 것을 잘게 분할해서 부품을 잘 만든 후 합쳐서 완성품을 만드는 형식이다. 로보트를 그렇게 만들지 않는가. 팔을 연구하고, 다리를 연구하고, 각각을 연구해서 모두 붙인다. 그것이 기호주의가 따르는 방식이다.

그런데 연결주의는 좀 다르다. 최초의 인공 신경망은 이미 1943년(Warren McCulloch, Walter Pitts) 부터 다루어져왔는데, 그저 입력값들에 배정된 가중치를 곱해서, 어느 정도 이상의 합 결과가 나오면 발화된다는 단순한 구조의 반복이다. 신경해부학자들은 말도 안된다며 펄쩍 뛴다고 하지만, 우리네 신경세포를 조금은 닮았다. 인공 뉴런을 계속 병렬로 나열하면 여러가지 입력을 다룰 수 있고, 여러 층을 만들면, 2차원의 신경망이 펼쳐지게 된다. 매우 똑같은 역할을 하는 인공신경 여러개를 연결해서 망을 이루고, 이것을 늘려나가면 복잡한 문제를 풀 수 있을 것이라는 것이 이 인공 신경망의 기대였다. 이미 1950년대에 그런 믿음이 주장될 정도로 이 인공신경망에 대한 기대는 컸다.

얼마나 매력적인가. 복잡한 것을 설계할 필요가 없다. 뉴런을 그냥 늘리고, 신경망 가중치만 적절히 조절해주면 그 복잡한 구조 속에서 복잡한 일을 해내게 될것이다. 물론 아쉽게도(?) 어려운 점이 없는 것은 아니다. 바로 그 모든 노드들의 가중치를 정하는 문제이다. 우리는 이것을 '학습'이라고 이야기한다. 데이터를 통해 이 가중치를 적절한 방식으로 조절해주어야만 신경망은 제 역할을 할 수가 있다.

그런데 이 신경망의 어려움은, 신경망을 얼마나 복잡하게 만들어야 할지, 또한 복잡할수록 이 가중치값이 많아져서, 어떻게 조절을 해야 제대로된 출력을 낼지 알기 어렵다는 사실이다. 그래서 한참 이 신경망은 여러가지 개선 이론에도 불구하고 인기가 떨어졌다. 1969년 마빈 민스키 등이 간단한 신경망에서, 기존의 일반적인 방법으로 풀지 못하는 상황이 있다는 것이 초기 유명한 증명 사례다(XOR문제). 그리고 MLP(다층퍼셉트론-다층신경망)에 대한 학습 해법인 back propagation이 1974년 최초로 박사학위 논문에 등장하고(Paul Werbos), 그 유명한 힌튼 교수도 유사한 방식을 주장하면서(1986년, David Rumelhart/Geoffrey Hinton/Ronald Williams ) 1980년대에 다시 한번 기대를 받게 된다.

하지만 역시나 신경망이 커지면 이 방법마저도 그다지 효과적이지 않고, 최적값에 수렴하지 못하는 경우가 많다는 것은 역시 단점이었다. 그래서 더 확실히 최적화 가능한, 수학적으로 더 우아한 SVM(2000년 전후까지 강세였던) 같은 방법에 밀려버렸고 2006년경까지 신경망은 그저 연결주의자들의 예측하기 어려운 변덕적인 방법으로 취급받아왔다. 학습할때마다 결과가 다르고, 잘 학습도 안되는 모델일 뿐이었다. 그래서 논문을 제출해도 잘 받아주지도 않았다. 그 시기가 바로 인공신경망의 가장 혹독한 겨울이었다. 연결주의의 암울한 시기이다.

그러다가 이 연결주의(신경망)를 포기하지 않았던 Hinton교수 랩을 중심으로 다양한 방법론이 등장하게 되었다. 초기 신경망의 가중치를 전략적으로 잘 설정하면 된다던가, Auto Encoder라는 방법으로 한층한층 학습을 시킨다던가, 가중치를 합해서 발화를 판별했던 그 활성화 함수를 바꾼다던가(ReLU), 노드들을 일부분 생략하고 학습을 해서 좀더 넓게 학습 결과가 퍼져나가게 하는등(Dropout) 다양한 전략이 소개되었다. 그러면서 전보다 훨씬 더 효율적이 더 큰 신경망을 학습시킬 수 있음을 알게되었다. 이때 바로 소위 논문 accept가 잘 되기 위해서 이 신경망에 deep belief net, deep networks 라는 이름을 붙이기 시작했고, 이것이 딥러닝의 기원이 되었다. 그래서 흔히 사람들이 지칭할때, 좀더 계층도 많고 입력도 많은 신경망을 이제 '딥러닝'이라고 부른다고 표현한다.

" A fast learning algorithm for deep belief nets, 2006년 제프리 힌튼"

" Greedy layer-wise training of deep networks, 2007년 요수아 벤지오"

여하튼 그래서 deep learning이란 큰 신경망이나 깊은 신경망(2차원이니까 입력을 늘릴 수도 있고 층을 늘릴 수도 있으니, 이 경우는 층을 늘리는 의미가 좀더 있겠다. 깊은 층을 만드는 일이다)을 의미한다고 보면 된다. 그러면 얼마나 커야 할까?

이제 2010년이 넘었고, CNN(Convolutional Neural Networks)이 각광받던 시기가 되었다. 사실 저렇게 큰 신경망에 대해서 연구를 했다고 하지만 아직 컴퓨팅 한계 때문에 큰 신경망을 실험하기가 어려웠다. CNN자체는 1998년도에도 논의되었으나(LeNet, Yann LeCun) 세간에 제대로 히트를 친 것은 2012년이다. Hinton제자중에 Alex와 Sutskever가 게임에나 쓰던 병렬 소수점 연산 프로세서인 GPU를 사용해(Alex의 작품이다) 이미지 인식 대회에서 큰 성능 향상을 이뤄낸다. 바로 AlexNet(2012년)의 탄생이다. CNN과 큰 신경망을 제대로 구현해서 제 시간 안에(?) 학습을 시킨 셈이다. 6천만개 파라메터를 사용했다고 한다. 그정도만 되어도 연산량이 어마어마하다. 그래서 딥러닝이란 이제 큰 신경망 + GPU + 많은 수의 데이터라는 공식이 성립되게 된 셈이다. 물론 숫자 인식 정도는 그리 크지 않은 신경망으로 가능하게 되었지만, 상용으로 쓸 정도의 문제는 대개 예외 처리가 어려운 문제(이를테면 이미지/음성 인식같은)에 대규모의 데이터를 넣어서 큰 신경망으로 해결하는 것이 딥러닝이라고 볼 수가 있겠다.

이후 이런 딥러닝 기술들은 CNN이 주목한 이미지 인식 외에도, 시계열의 데이터를 처리하는, 즉 말의 흐름을 다루는 RNN이나 LSTM같은 시계열 처리로 이루어지고, GAN, Google BERT를 거쳐 Transformer로 진화하게 되었다(2010년대에 모두 이루어진 일이다. LSTM(1997), GAN(2014), Transformer(2017), BERT(2018) 등).하지만 그 주요 기반이 신경망인 것은 그다지 변하지 않았다. 그리고 하나 짚고 넘어갈 일은 '생성형'이 유행하게 된 사실이다. 적대적생성신경망(GAN)에서 유래한 이 개념은, 과거에는 단순히 판정에 집중했던 것에 반해서, "이해를 했다면 생성도 가능하다"는 지능의 한 분야를 발전시킨 개념이다. 생각보다 쓸모가 다양하고, 생성형 언어모델로 이끌기 까지 했지 않는가.

좀 여러가지 생략을 했는데, 따라서 딥러닝은 단순한 통계 모형으로 풀기 어려운 복잡한 문제를 지향하고, 큰 신경망과 대량의 데이터, 컴퓨팅을 요구하는것이 기본이다. 물론 LoRA같은 소규모의 부분 튜닝 학습도 존재하기는 하지만 기본적으로는 그렇다. 그리고 단순 수치에 대한 해석과 예측은 별개로 잘 발전한 decision tree류의 모델(gradient boosting모델, LGBM, XGBoost, ..)들도 훨씬 효과적일 때가 많다. 특히 데이터가 부족하고 컴퓨팅이 부족한 실제 산업 현장에서는 요긴하게 사용된다. 또한 딥러닝을 한다고 하면서 파라메터 크기가 몇만개 정도 수준이면 좀 애매하게 볼 수도 있겠다. 복잡한 문제를 풀기에는 너무 작은 크기 아닌가?

그리고 AlexNet 논문의 공저자이자 OpenAI의 수석과학자였던 Sutskever가 논의했던 신경망의 크기도 짚고 넘어가보자. OpenAI를 시작했을때도 이 신경망의 크기를 키우면 잘 될것이라는 아이디어는 결과적으로 상상력이 부족했다. 엄두가 안나는 크기인 수십억, 수백억 파라메터 크기까지 늘리면 잘된다는 사실을 본인도 처음부터 시도한 것은 아니라고 고백하는 인터뷰를 본 적이 있다. 여하튼 그렇게 딥러닝은 이제 수백억 수천억 파라메터를 지닌 크기의 신경망을 다루게 되었다. 하나 더 팁을 주자면 이 크기의 신경망을 학습하기 위해서는 그저 인터넷상에 널려있는 수없는 텍스트 문장이 있으면 되게 되었다. 하나하나 분류 결과가 필요했던 이미지와는 차원이 다른 데이터 금맥이 발견된 셈이다. 그래서 이 엄청난 텍스트 문장 데이터와 거대 신경망 모델이 오늘날의 딥러닝을 대표하지 않나 생각이 든다.

그래서 이러한 배경을 놓고 딥러닝을 이야기하면 조금더 현실적으로 논의할 수 있겠다. 그래서 문제 구분없이, 작은 신경망으로 문제를 해결하면서 딥러닝을 한다고 하는 주장을 하면 아무래도 좀 아쉬운게 많은 것은 연결주의자들의 생각이 아닌가.

'머신러닝AI' 카테고리의 다른 글

지적 능력의 대량 생산 시대, 이 시대의 생성형AI가 바꿀 세상, AI비서 (0)	2025.03.22
Flux.1 을 윈도우+NVidia GPU에서 실행해보자. (6)	2024.09.06
AI를 만들고 싶었던 이야기 (1)	2024.09.05
인공지능 신경망의 관측을 통한 뇌 이해가 가능할까? (0)	2024.05.25
윈도우(windows)에서 실행하는 easy_diffusion & kohya_ss (2)	2024.05.01

Posted by 작동미학

«이전 1 2 3 4 ··· 38 다음»

정보엔지니어 (맥스웰의 도깨비, 양자컴퓨터)

양자컴퓨터로 피터쇼어 알고리즘 실행하기

'양자컴퓨터' 카테고리의 다른 글

지적 능력의 대량 생산 시대, 이 시대의 생성형AI가 바꿀 세상, AI비서

'머신러닝AI' 카테고리의 다른 글

딥러닝이 무엇인가요?

'머신러닝AI' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바

« » 2025.8
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31