정보이론2023. 6. 25. 18:25

 최근 메모리나 저장장치의 가격하락을 다시 실감했다. 2TB 내장 고속 스토리지(M.2 NVMe SSD)가 20만원 이하에서 거래되고 있으며, 32G 고속 메모리(DDR4 Ram)도 10만원 이하로 거래된다. 아마 이 가격이 잘 실감이 안되시는 분들도 많을테다. 대개 PC나 노트북을 다 합쳐진 채로 구매하신 분들이 대부분일테다. 또한 여기다가 애플은 이러한 메모리와 CPU연산, GPU연산이 모두 가능한 애플 실리콘이라는 칩을 계속 업그레이드하고 있기도 하다. 동급 인텔칩대비 더 나은 성능과 더 적은 전력 소모를 자랑한다.

 

2TB SSD는 20만원이하, 32G 고속 램도 10만원 이하면 구매할 수 있다

 ChatGPT로 대표되는 거대 언어모델의 저장 정보를 살펴보면, 메타에서 오픈한 LLAMA 7B(파라메터 크기, 70억)가 그 모델 저장 파일을 다운로드 받으면 약 13GB 정도가 된다. ChatGPT(22.11월 최초 버전인 3.5)가 175B모델이라고 알려져있는데, 수평해서 곱하면 약 325GB정도 된다. 즉, 온 인터넷의 문서와 책을 집대성하여, 그럴듯하게 인간처럼 답변해주는 ChatGPT가 그것을 위해 메모리에 로드할 파일은 325GB 정도가 제일 큰 사이즈라고 볼 수 있다. 그것도 최근 소수점을 더 축약하는 quantization 처리를 하면 용량은 더 줄어든다. LLAMA도 65B모델이 ChatGPT의 175B모델대비 성능이 유사하다고 발표했고, 계속 그 용량은 줄어들고 있다. 그래서 대략 본인은 100GB정도면 아마도 지금의 ChatGPT가 내는 성능 정도는 할 수 있는 전자뇌가 유지될 수 있다고 주장해볼 수 있다고 믿는다.

 

 이 100GB를 저장하고 싶으면 고속 스토리지로도 20만원짜리 2TB를 사도 만원정도의 비용으로 저장을 할 수 있고, 메모리에 올려서 연산을 해도 30만원 정도면 가능하게 된 세상이라고 볼 수 있겠다. 컴퓨팅 비용은 일반 가정용 PC에서도 좀 느리지만 아예 불가능하지는 않다. 즉 그 단가가 가정용의 범주에 충분히 들어올 수 있다고 생각한다. 이렇게 세상은 인간 수준의 능력을 발휘하는 무엇인가를 이제 대량생산한 정보처리 기기에서 다룰 수 있는 수준으로 급격히 들어오고 있다.

 

 내가 어린 시절만 해도 인공지능 컴퓨터는 슈퍼 컴퓨터 같은 것에서 작동하는 그 무언가라는 이미지였는데, 딥러닝을 통해 인간의 그것과 많이 닮은 것들을 해낸다는 것도 시연되었고 심지어는 그것이 가정용의 장비로도 작동한다는 사실이 지속 현실화되고 있는 모양새이다.

 

 한달 정도 어느 물리력을 사용하는 직업이든 성실히 실행하면 이제 사람을 닮은 무언가를 작동시킬 수 있는 인프라를 구매할 수 있는 시기가 된 것이다. 놀라운 시기로 접어드는 초기라고 생각이 들지 않을 수 없다.

 

 과학사에서 앞서나간 예측이 몇가지가 있는데, 가장 위대한 예측 중의 하나가 바로 슈뢰딩거의 생명이란 무엇인가에서 지적한 것이다. 생명의 정보를 담은 것은 분자 수준의 비결정 구조에 의한 것임을 예상했고 이것이 바로 DNA의 발견으로 이어진 것이 유명하다. 그정도의 안정성을 지니고 그렇게 많은 정보를 전달하기 위해서는 그정도 작은 scale의 구조에서만 가능하다고 예측한 것이다. 오히려 더 큰 구조에서는 그런 대량의 정보를 저장할 수가 없다. 큰 스케일의 자연에서는 무엇이든 녹슬고 썩기 때문이다. 그러한 안정성은 분자 수준에서나 가능하다는 것을 슈뢰딩거는 미리 알고 있었다. 

 

 그리고 그 유사한 전개로 역시 분자와 전자 수준에서 트랜지스터나 메모리 소자들이 발견되었다. 이녀석들은 엄청난 정보를 굉장히 안정적으로 다룰 수 있다. 뇌가 세포 단위에서 처리하는 정보를 더 작은 단위에서 빠르고 안정적으로 다루게 된 것이다. 그리고 이는 슈뢰딩거의 예측이 있었던 그 시기를 지나 1950년 전후하여 지금에 이르기까지 정말 놀랍게 발전하면서, 생물이 지닌 정보처리 메카니즘을 컴퓨터라는 이름으로 눈에 보이지 않는 수준에서 다루게 된 셈이다.

 

 이후로는 내 생애를 거쳐, 그것이 발전에 발전을 거듭해 하드웨어와 소프트웨어가 동시에 발전해서 이제 바야흐로, 싼 값에 특정 분야에서는 인간과 구별이 되지 않거나 오히려 더 많이 알고 있는 지능의 모습을 흉내내는 단계에 이르게 된 것이다.

 

 어찌보면 1950년대 신경망을 만들어서 그것이 지능을 갖게 할 수 있다고 믿었던 연결주의자들의 꿈은 각종 인류의 기술 발전으로 거의 실현되어 가고 있다. 그것도 우주여행 같은 비싼 형태가 아니라(우주 여행은 사실 이미 우리 앞에 있지만 가격이 너무 비싸서 소수만이 향유할 수 있다) 가정용 장비에서도 돌아갈만큼 값싸게 다가왔다.

 

 기술은 더 발전할 것이고 요구되는 자원은 더 작게, 그리고 자원의 가격은 더 떨어지는 상황이 지속될 것이 뻔하다. 결국에는 연결주의자들의 예측은 더 가속될 수 밖에 없다. 그렇게 논란이 되었던 범용 인공지능이 가능하느냐 그렇지 않느냐는 이제 선을 넘었다고 생각한다. 물론 모든 부분이 인간처럼 되는 것에는 시간이 걸리겠지만, 그게 몇십년이 걸리든 무엇이 중요하겠는가. 이미 가 방향으로 가속되고 있고, 그 증거들이 도처에 보이지 않는가.

반응형
Posted by 작동미학
정보이론2021. 3. 28. 09:25

 정보이론 서적에서 언급되는 분야중에 흥미로운 것은 DNA 분야이다. DNA는 정보로 가득차있기 때문이다. 인간의 경우만 놓고 보아도 30억쌍의 ATGC... 배열로 된 유전자 정보를 1개의 세포가 온전히 매우 안정되게 포함하는 셈이고, 1개의 수정란에서 인간의 모든 것이 시작되어 생명을 형성한다.

 

 흥미롭게도 이 관점에서 왜 불로장생이 어려운지에 대해서 다양한 학설이 나왔는데, 아래가 간단히 정리해놓은 글이다.

 

scienceon.hani.co.kr/548962

 

세포 수준에서 일어나는 노화 현상, 그 원인들

[3] 세포 노화의 여러 원인들 인간을 대상으로 ...

scienceon.hani.co.kr

 

 핵심 논리는 이 DNA의 복제와 오류에 있다. 한 개의 수정란에서 시작된 인간의 세포체계는 지속 세포를 복제하여 신체를 만들어가는데 그 오류율이 상당히 낮고 잘못 복제된 DNA를 보정하는 기능까지 보유하고 있다. 그러나 오류율이 낮아도 없는 것은 아니다. 세포가 지속적으로 복제되고 교체되면서 작은 오류라도 점점 더 커지게 마련이다. 모든 세포에 대해 단일의 절대적인 기준을 두고 대사하면서 모든게 처리되지 않는다. 계속 복제되어 가면서 기존의 것과 최대한 같게 하려고 하지만 한번 오류가 발생하면 다시 복제될때는 그 오류가 전파된다. 따라서 생명체 입장에서 이 일관성 유지 문제는 난감한 일이다. 모든 세포가 하나의 원본을 수시로 참조할 수 없다. 그렇다고 DNA서열 전체를 hashing해서 비교해보고 버리지도 못한다.

 

 복제 과정에서 무엇이 정상적인 원본인지 알 수 없으며, 정보가 너무 크기 때문에(30억쌍) 비교하기도 어려운 것이다. 맨 처음 수정란에서 시작된 DNA정보는 오류의 축적을 피할 수가 없는 것이고, 이 부분에서 생명체는 공학적인 완성을 이루지는 못했다.

 

 이 전체적인 DNA의 정보전달 방식이나 변형 가능성은 노화와 암, 진화 모두에 영향을 끼치게 된다. DNA가 더 복잡할수록 더 많은 단계를 거칠수록 오류율이 높아진다. 오류율이 높아지면 오작동이 커지는데, 그 결과 새로 복제된 세포들은 필연적으로 불완전해진다. 더군다나 원본에서 더 멀어질수록(나이가 먹을수록) 더 불완전해진다.

 

 가끔씩은 생명을 진화시키는 돌연변이도, 이 불완전의 메카니즘을 바꾸지는 못했다. 아마도 유전자 시퀀싱 기술을 통해서 노화가 일어나는 단계별로 몸 전체 세포의 DNA 정보 불일치를 추적해나갈 수 있다면 더 자세히 이 과정의 진화를 알 수 있게 될 수 있겠다.

 

 그리고 태아 상태에서의 DNA 정보 변형은 치명적일 수 있다. 그 영향이 이후 복제된 수많은 세포들에 처음부터 영향을 끼치기 때문이다. 여하튼 또한 이러한 변형은 어떤 면에서는 돌연변이가 변화에 적응하여 진화하는 그 과정에도 기여하게 된다. 

 

 정보이론 관점에서 이러한 DNA문제를 파헤치면 여러가지 뜻깊은 사실들을 더 알 수 있지 않을까? 노화나 오류의 진전, 진화 이런 것들이 모두 영향을 받을 수 있다. 사실 그런 의미에서 간단히 이 이론들을 소개해 본 것이다.

 

 좀더 덧붙여보면 향후에 이 DNA 일관성을 외부 공학적인 방법을 사용해 유지할 수 있는가도 흥미로운 미래 이슈가 아닐 수 없다. 최근에 DNA변형된 세포를 찾아내 파괴하도록 하는 암 치료법이 소개되었는데, 이 방법은 변형된 DNA를 하나하나 검출해서 코딩해줘야만 파괴할 수 있다. 불행히도 아직 기술은 어떤 기준 원본 DNA를 만들어서 그것과 변형된 것을 찾아내어 파괴하지는 못한다.

 

www.monews.co.kr/news/articleView.html?idxno=301452

 

'세번째 CAR-T 등장' 4세대 면역세포 치료제 시대 도래 - 메디칼업저버

[메디칼업저버 양영구 기자] 세 번째 키메라항원수용체(CAR) T세포 치료제가 등장하면서 4세대 면역세포 치료제 시대가 앞당겨질 것이란 기대가 나온다.CAR-T 세포 치료제가 CD19 항원을 타깃해 다

www.monews.co.kr

이런 상황인데 만약에 DNA 변형이 전혀 불가능해지도록 하는(변형되면 무조건 파괴하는) 생명공학이 발견되면 어떨까?

그야말로 이론적으로는 불로불사의 시대가 열리게 되겠다(물론 다른 것도 해결되어야 할 수 있겠지만, 여하튼 기초가 되겠다. 오작동이 없어진다). 어느 정도의 기술발전이 되면 미래의 꿈의 기술 후보가 될 수 있지 않을까.

반응형
Posted by 작동미학
정보이론2020. 7. 28. 01:10

여기서는 먼저 이 영상을 게시해보자. 최근에 맥스웰의 도깨비 연관하여 가장 잘 짧게 설명된 영상이라 생각한다.

https://www.youtube.com/watch?v=T6CxT4AESCQ

 

개인적으로는 정보 이론이 물리학의 법칙에 끼어든 가장 인상적인 사례 중의 하나이다. 그렇다. 맥스웰의 도깨비, 엔트로피, 정보에 대한 이야기는 매우 유명한 이야기가 되어버리긴 했다.

 

 이 이야기는 열역학 제 2법칙 즉 엔트로피 증가의 법칙이 맥스웰의 도깨비(Maxwell's Demon, 사실은 맥스웰의 악마다)에 의해 깨진다는 맥스웰의 지적(1867년 사고실험)에서 시작된다. 천재 맥스웰은 이런 것도 건드렸다.

 

 엔트로피 증가는 간단히 말해서 찬물과 뜨거운물 합쳤을때 그 둘이 자연스럽게 랜덤하게 섞이며 그 둘의 합쳐진 평균 온도로 변하는 현상이라고 말할 수 있다. 그런데 놀랍게도 이 둘을 다시 찬물과 뜨거운물로 분리하는 것이 가능하다. 어떻게 하는가?

 

 섞인 물의 한가운데 아주 작은 문을 놓고 아주 작은 존재가 보다가 찬 물 분자는 막고 뜨거운 물 분자만 통과시키면 어느 순간 한쪽은 뜨거운 물이 한쪽은 차가운 물만 생긴다. 이 문은 너무도 가벼워서 움직이는데 거의 힘도 들이지 않는 존재라고 해보면, 이렇게 셋팅하는 순간 열역학 제2법칙이 무너지는 모양새이다.

 

 그런데 맥스웰이 지적한 후 근 백년 동안 여기에 반박을 할 수 있는 사람이 없었다. 즉 이 구성이 열역학 제2법칙에 위배되지 않으려면 이 도깨비가 엔트로피를 늘린다는 것이 증빙되어야 한다는 점이다. 도깨비가 물 분자를 보고 문을 열고 닫는 행위는 일종의 정보처리이기 때문에, 이 이야기는 결국은 정보이론과 연결되게 된다.

 

 여러분은 어떻게 생각하는가?

 

 유투브 동영상을 계속 살펴보면 이 맥스웰의 도깨비를 튜링머신으로 설명하기도 한다. 그리고 이 튜링머신이 과연 엔트로피를 증가시키느냐 아니냐를 판단하게 된다. 과연 찬물과 뜨거운물은 과연 특별한 에너지도 없이 저절로 엔트로피가 감속했다는 말인가?

 

 여기에 나타난 구세주는 바로 IBM연구소의 Rolf Landauer다. (Landauer, R. (1961), "Irreversibility and heat generation in the computing process", IBM Journal of Research and Development 5 (3): 183-191)

 

 IBM의 연구원이었던 Rolf Landauer는 이론적으로 가장 적은 에너지로 구동되는 컴퓨터를 상상하고 연결하다가 결국 도저히 에너지를 절약할 수 없는 기능을 발견한것이다. 바로 데이터 삭제(erase)다.

 불행히도 세부적으로 정리하지는 못하지만, 결국에는 튜링머신을 최소한의 에너지로 구동하도록 아무리 설계해도 유한한 메모리를 가졌다면 메모리를 지우는데 에너지가 소모된다(란다우어 한계보다 큰 에너지)는 증명을 해놓은 것이다(무려 증명이다). 결국 맥스웰의 도깨비는 자연의 한계에 따라 유한한 메모리를 가질 것이고, 결국에는 그 한계에 다다르고, 에너지를 소모하게 된다(결국 엔트로피를 발생시킨다) 그래서 결국에는 열역학 제2법칙이 깨지지 않는다는 말이다.

 

 놀랍지 않은가. 이론적으로도 정보처리가 물리적인 엔트로피의 원리와 연결된다. 마치 질량이 에너지라는 것을 처음 수식으로 유도했던 아인슈타인의 그것처럼, 이런 식이라면 정보가 질량이다는 말이 나올 수 있는 것은 아닌가. 정보가 에너지로 변환되거나 이럴 수도 있겠다.

 

 그도 그럴 것이 블랙홀에 빨려들어간 물체의 정보가 사라지거나, 여러가지 후속 논의들이 진행되면서 정보이론은 현재 물리학에서 활발하게 활동하는 것 같다. 정보 보존의 법칙이 나올 기세다. 여하튼 앞서 추천했던 양자정보이론(한스 크리스천 폰 베이어)에서 양자역학이 정보이론에 의해 또다른 진보를 이룰 것으로 기대하고 있다.

 

 오늘은 여기서 간단하게 열역학 제2법칙과 란다우어의 정보이론이 맥스웰의 도깨비를 통해 어떻게 이어지는지 간단히 살펴보았다.

 

반응형
Posted by 작동미학
정보이론2020. 6. 17. 23:44

코로나 바이러스 시대를 맞이하여(?) 정보엔지니어에서 바이러스와 생명의 일반화(?)에 도전해보려고 한다. 일반화라니?

 

 먼저 책 하나로 시작할텐데, 양자역학에서 다루었던 슈뢰딩거는 노년에 느닷없이 "생명이란 무엇인가?"로 강연을 하고 이 강연을 묶어 출판한 작은 책이 바로 동명의 작은 책이다(1944년 출간).

http://blog.naver.com/PostView.nhn?blogId=exbris&logNo=221332986820

 

생명이란 무엇인가 – 생명체는 물리 법칙을 따르는가?

생명이란 무엇인가.정신과 물질 작가 에르빈 슈뢰딩거 출판 궁리 발매 2007.07.05. 평점 리뷰보기 환갑의 ...

blog.naver.com

 그리고 이 책은 그가 한, DNA가 밝혀지지 않았던 그 시기에 유전정보와 생명에 대해서 지금에서야 당연하지만 그때 당시에는 선구자적인 그러한 예측들이 등장한다.

 

 맨 먼저 생명체는 상당히 크기가 커야한다고 주장한다. 원자 수준의 입자들은 양자역학적인 특성으로 늘 무질서한 운동을 하기 때문에 늘 엔트로피를 거슬러 살아가야하는, 질서를 전제로 하는 생명과는 맞지 않다는 설명이다. 즉, 충분히 커야만 일관성을 가지고 음의 엔트로피를 지니며 존재할 수 있다는 점이다. 정교하고 예측된 상호작용만이 에너지를 대사하며 무질서에 저항하고 자신을 보존하고 자손을 퍼트릴 수 있기 때문이다. 

 

 그리고 다음 주장이 더 중요한데, 유전 정보에 대한 것이다. 유전정보의 크기를 대략 1000개 정도의 원자 크기 정도로 보았다. 양자역학의 불연속성과 분자 수준의 구조만이 어떠한 정보를 보관하면서 일관되고 변형되지 않게 안정될 수 있다고 보았다. 유전자의 분자구조에 대해 아무것도 모를 당시로서는 명쾌하고 놀라운 예측이 아닐 수 없다. (프란시스 크릭 등이 모두 이 책에서 영감을 얻어 유전자 연구를 시작했다고 알려져있다)

 

 조금더 구체적으로 접근해보면 인간의 유전자 30억쌍을 변형없이 저장하고 계속 복제하는 방법을 엔지니어 관점에서 고민해보면, 그것이 쉽지 않다는 것을 단박에 알 수 있다. 거시적인 세계에서의 기록과 복제는 늘 당연하게도 변화하기 때문이다. 바위에 새긴 글씨도 곧 닳아 없어지고, 금속은 녹슨다. 톱니는 늘 오류를 일으키며, 아날로그로 대표되는 복사는 늘 오류를 양산한다. 생명체도 돌연변이가 있지 않느냐 반문할 수 있겠으나 기본적으로 그 돌연변이라는 것은 매우 드물며, 그것이 30억쌍이라는 정보를 대상으로 한다는 사실을 감안하면, 생명체는 어마어마하게 정확한 저장소이자 복제 수단을 갖지 않으면 안된다는 사실을 알아차릴 수 있다. 그것은 아날로그같은 것이 아니라 디지털의 무엇이어야만 한다. 뚝뚝 끊겨야 하고 엄청난 힘이 아니고서는 변하지 않는 것이어야 한다.

 

 자연이 그러한 요구사항을 만족시키면서 유전 정보를 다루는 자연스러운 방법은 슈뢰딩거의 주장대로 분자 구조에 저장하는 법 뿐이라고 생각된다. 그래서 필연적으로 그것은 거시적인 생명체가 관찰하기 어려운 아주 작은 것(분자수준)이며, 웬만해서는 부서지거나 변형되지 않는 안정적인 존재이며 필요하면 어떤 프레임웍하에서(DNA복제) 금방 복제될 수 있는 존재여야 한다.

 

 그러면 이러한 상황에서 바이러스는 무엇인가? 바이러스는 밝혀진대로 이러한 특성을 지니는 유전정보의 일종의 부스러기다. 이 유전 정보는 다른 생명체에 침입하여 유전 정보 복제기에 자신을 도달시킬만한 최소한의 수단만 갖추고 있는 작은 덩어리다. 일단 DNA를 다루는 표준 체계의 공장에 도달하기만 하면 곧 복제되고, 계속 다른 세포로 옮겨갈 수 있으며, 다시 또다른 생명체의 다른 세포에 도달하기만 하면 같은 과정을 반복한다. 생명체들이 사회와 생태계를 이루며 서로 닿지 않고는 살아갈 수 없다는 사실을 알면 이또한 필연히 일어나는 과정이겠다.

 

 

 이러한 존재는 적당한 구조와 조건만 생기면 끈질기게 살아남을 수 있다. 어떻게 완전히 박멸한다고 해도 돌연변이에 의해 또한번 생겨날 수 있다. DNA 부스러기들은 지금도 DNA 복제 과정에서 세상에 계속 창조될 수 있기 때문이다. 우연히 그 부스러기가 저런 특성을 갖기만 하면 된다. 그리고 그 부스러기는 다시 돌처럼 닳지도 금속처럼 녹슬지도 않게 보존되다가 우연히 생명체를 만나면 또 복제되어 같은 전파 과정을 거친다.

 

 컴퓨터 바이러스도 같은 맥락으로 볼 수 있다. 기본적으로 저장장치들은 변형되지 않도록 정보를 저장해야 하고, 바이러스는 그 안정성 속에서 자기 자신을 복제하는 코드를 뒤집어 쓰고 무언가 복제될때 같이 복제되거나 강제로 복제하여 전파시키는 트릭을 부린다(네트워크를 통해 나가거나 다른 저장매체에 복제되거나). 역시 변형없이 저장되어 있다가 그 코드를 실행하는 공통된 환경을 만나면 또다시 자신을 복제해 전파되어 나간다. 생명체와 바이러스의 관계처럼, PC에서는 바이러스가 자생으로 생길 확률은 거의 없다 치더라도(컴퓨터는 돌연변이를 훨씬 덜 발생시킨다) 외부에서의 이식(인간의 개입)이 이 바이러스 탄생을 대신 유발시킬 수 있으며, 물리적으로 보이지 않는 크기로 유지되고 저장되고 복제 된다는 점도 같다.

 

 이러한 일반화를 다시 설명해보자면, 우주 어딘가 외계에 지구의 DNA 기반 생명체와는 전혀 다른 체계의 생명체와 유전자 정보가 있다고 해도, 위의 지적들 때문에 생명체는 우리 눈에 보일 정도로 클테고, 그 유전자 정보는 우리 눈에 안보인다는 이야기이다. 그리고 아주 높은 확률로 그 생명체에도 바이러스라는 존재가 있을 테다. 그 녀석은 생명체의 복제 체계를 활용해 계속 증식하며 또 다른 생명체로 옮겨다닐 것이고, 박멸되었다가도 다시 돌연변이로 나타나서 또 그 생명체 안에서 맴돌지 않겠는가.

 

 서글픈 현실이지만 옛 물리학 거장의 예측을 가지고 일반화시켜 보면 위와 같다. 정보와 생명이라는 특성 그리고 물리적인 조건들이 이러한 상황을 만들어낼 수 있겠다.

 

반응형
Posted by 작동미학
정보이론2020. 1. 1. 23:43

여기서는 2015년에 출간된 책 정보의 진화(세자르 히달고, 2018년에 박병철 역/국내 출간)에서 나오는 이야기를 한번 잠깐 논의해보려고 한다.

 

http://www.yes24.com/Product/goods/67348539

 

정보의 진화

세자르 히달고의 『정보의 진화』가 문학동네에서 번역 출간되었다. MIT 미디어예술및과학학부에서 강의하며 MIT 미디어랩의 매크로 커넥션 그룹을 이끌고 있는 저자는, 현대 사회의 복잡성에 관해 학문적 경계를 넘나들며 연구해온 세계적인 석학이다. 히달고는 이 책에서 자연과 사회에서 정보의 성장을 돕는 메커니즘을 추적해 물리적 질서와 경제성장의 근원을 탐구하며 ...

www.yes24.com

 이 책 전체의 내용을 추천하고 싶지는 않으나 경제 활동을 분업에 의한 효율화로 설명하는 기존 설명 대신에 바로 '정보'의 관점에서 설명하는 부분은 흥미롭지 않을 수 없다.

 

 본인은 자연이라는게 참 매섭고 신기하다고 느껴질때가 있는데, 이를 테면 손에 만져지는 책을 바라보면 많은 생각이 든다. 디지털로 되어 있는 정보와 달리 이 책이라는 것은 사실 자연 법칙을 그대로 따라 제작된 최종의 산물이기 때문이다.

 

 이 제작된 책의 원자와 분자들을 임의로 배열하여 합치기는 매우 어렵다. 우리 누구도 그렇게 책을 만들 수는 없다. 예를들면 좀 무거운 원자들은 무려 초신성 폭발 정도를 일으켜야 생성된다(그래서 연금술이 허위인 것이 금 원자를 인공으로 만들어내려면 어마어마한 에너지가 필요하다.) 따라서 손쉽게 원자를 조합할 수는 없는 노릇이고, 이 책을 만들기 위해 인간이 할 수 있는 일은 어떤 것일까?

 

 먼저 지식을 일단 만들어 내고, 나무를 가져와 종이로 만들어야 한다. 색을 입히고, 사진이라도 넣으려면 또 복잡한 과정을 거친다. 인쇄를 하기 위해서 또 한단계 거치고, 그렇게 만든 것을 포장해서 배달하고 하는 여러가지 과정을 거쳐야만 비로소 이 책이라는 녀석이 내게 들어온다. 그러면 이 책은 자연 법칙에 따라서 그대로 우리에게 그간 누적된 '정보'를 전달하게 된다.(여기서의 정보란 바뀐 이렇게 분자들의 배치 상태 전체를 아우르는 좀 포괄적인 의미이다)

 

 이렇게 비로소 책을 접수하면, 책을 펼쳐본다. 그러면 빛이 닿아(광자) 일관되게 흡수 반사하여 종이에 있는 정보가 인간의 눈을 통해 우리에게 전달된다. 한치 오차도 없이 자연 법칙에 따라 이 일들이 벌어진다. 적절한 불빛아래에서의 책이라는 것은, 무기력하게 그 자연의 법칙에 복종하며 그 담고있는 전체 정보를 펼친 사람에게 전달할 수 밖에 없다.

 

 

 이렇게 책을 만드는 활동들은 현대 사회에서 매우 분업화되어있다. 콘텐츠를 만드는 작가와 종이 제작자와 인쇄업자와 유통업자와 심지어 주문은 인터넷으로 하게 되는데 수많은 과정과 사람들이 관여된다.

 

 그리고 이 정보의 진화라는 책의 작가는, 책의 제작과정을 각 단계에서의 정보의 누적이라는 관점으로 바라본다. 앞서 전개했던 정보 이론과는 또 다르지만, 어떤 정보가 어떻게 생겨나서 결합되느냐에 따라 인간 사회에 책의 등장이 해석된다.

 

 이러한 "정보"들은 시간을 두고 다양한 사람의 손을 거치면서 변화하고 축적되어 나타난다. 17세기 사람이 발명한 책 바인딩 기법이 그 과정에서 전달되기도 하고, 중국의 종이만드는 방법이 또 전달되어 녹아들게 된다. 우리가 생산하는 모든 것들은 이렇게 정보(노하우)들이 변화 축적되면서 만들어지므로 , 이러한 것을 생산하는 과정이 반영되는 경제를 기존의 관점에서 바라보지 말고 이런 정보 관점에서 바라보아야 한다는 것이 이 책의 주장이다.

 

 좀 신선한 관점이다 싶었다. 이렇게 정보로 경제와 생산을 바라보면 더 추상적으로 미래를 예감해볼 수 있다. 엔트로피로 바라볼 수도 있고 수만년의 경제 발전 과정을 수학적으로 추적해 볼 수 있을지도 모른다.

 

 참고로 책에서는 복잡계나 엔트로피 관련으로 유명한 프리고진(Ilya Prigogine, 벨기에 화학자, 1917~2003) 의 증명들이 소개되는데 그 중 유명한 것이 "정상상태에 놓인 비평형계에서는 엔트로피 생산량이 최소화된다"라는 것이다. 이게 무슨 말이냐면 비평형계는 질서를 자발적으로 생성하여 정보훼손이 가장 적은 정상 상태로 자기 조직화 된다는 뜻이라고 한다.

 

말은 어려운데, 이를테면 태양에너지를 공급받아 일정 수준의 안정한 체계를 이루고 있는 지구에서는 이렇게 정보들이 생산되면서 진행할 수 있다는 뜻이다.

 

프리고진의 이론까지 끌어다 쓰면 책의 등장은 필연일 수도 있겠고 우리 경제 발전도 그럴 수 있겠다. 엔트로피, 정보이론, 열역학, 복잡계, .. 이야기들이 위 논리 하에 서로 왔다갔다 하도록 할 수 있다.

 

여하튼 정보 이론을 더듬어 가면서 좀 재미있는 내용이라 짧게 소개해본다.

반응형
Posted by 작동미학
정보이론2020. 1. 1. 22:31

클로드 섀넌(Claude Elwood Shannon, 1916년~2001년)은 1948년에 미국의 통신회사 벨 연구소 근무 시절에 통신의 수학적 이론(A Mathematical Theory of Communication)이라는 논문을 "벨시스템 기술 저널"이라는 사내 저널에 출판하게 되는데 이 이론이 일약 정보를 수학적으로 다루는 시초가 되는 논문으로 인정받게 된다.

 

그는 이때 앨런 튜링이나 폰 노이만 등과도 논의하면서 이 정보량을 엔트로피라는 이름을 붙이게 되었다(폰 노이만 제안)고 설명되어 있는데, 이를 둘러싼 자세한 이야기는 제임스 글릭의 책 인포메이션에 조금더 자세히 설명되어 있다.

http://www.yes24.com/Product/Goods/35243316

 

인포메이션 INFORMATION

정보, 통신, 수학, 암호, 언어, 심리, 철학, 유전, 진화, 컴퓨터, 양자역학, 구글, 스마트폰까지클로드 섀넌, 앨런 튜링, 비트겐슈타인, 리처드 도킨스 등 다채로운 인물들,“정보의 역사와 이론 그리고 정보 혁명의 함의까지 소개하는 야심 찬 책”인터넷과 SNS, 메신저 등의 발달로 자신의 생각, 의견, 감정 등을 다른 사람들에...

www.yes24.com

이후 사람들이 이 이론에 대해 했던 열광에 비교해서는(결론의 함의하는 바가 매우 컸기 때문에), 사실 수학자였던 섀넌이 했던 고민은 단순했다. 그것은 통신회사가 어떤 정보를 전달할때 얼마의 과금을 해야하느냐에 대한 순수한 수학적인 정의다.

 

 예를 들면 아래 두가지 정보 전송에 대한 과금은 어떻게 해야할까?

 

 A: 00000.............................................0 (1억개의 0)

 B: 100100111010111...01011011 (random으로 나열된 1과 0의 조합 100개)

 

단순히 길이로 따지면 앞에 A가 더 길지만 가만히 보면 압축을 할 수가 있다. A는 0을 1억개 보내기보다는 0의 개수가 1억개라는 사실을 전달하면 불필요하게 많이 보낼 필요가 없다. 다만 B같은 경우는 완전한 random이라고 치면 압축을 할 수가 없이 그대로 보내야 한다. 결과적으로 압축을 잘하면 B가 정보량이 훨씬 많다. 돈을 더내야 한다. 그러면 얼마나 내야하는가?

 

섀넌의 공식은 이에 대해 명확한 답을 준다. 바로 어떤 정보를 보낼때 필요한 비트수가 얼마냐?로 귀결시킨다.

(보내야할 정보의 카테고리와 각 카테고리의 출현 확률이 주어지는 경우를 가정한다)

 

정보량을 의미하는 섀넌의 엔트로피는 아래와 같이 나타난다. 어떤 많은 정보들이 각기 출현 확률이 P(x)일때 각 값들을 전송하는데 필요한 비트는 아래의 공식으로 나타내게 된다.

 

H(P)=H(x)=P(x)logP(x)  (log는 밑이 2)

 

사실 이 공식을 이해하기 위해서는 log와 확률 이야기를 해야하는데, 수학적인 전개가 익숙하지 않은 엔지니어 분들은 따라가기가 조금 까다롭다(Google 검색엔진 등 에 섀넌의 정보이론을 검색하면 몇가지 수학적 전개에 대한 문건들이 있긴 하다)

 

하지만 결론적으로는, 전달하고자하는 데이터의 패턴을 보고 가장 효율적으로 압축했을때의 bit수라고 말할 수 있다(정보량, log가 밑이 2일때)

 

이를테면 내가 전송하고자하는 값이 2가지 카테고리(예를 들어 A와 B의 두가지 경우라면 2가지 카테고리 ) 밖에 없다고 하고 그 둘이 동일하게 나타난다고 해보자. 그러면 1bit의 크기이면 그 데이터를 전송할 수 있다. 즉 사전에 양측이 약속해놓고, 보낼때는 0과 1 둘 중의 하나로 전송하면 된다. A,B가 실제로 얼마나 길고 어떤 형태이든, 상기 정보는 그렇게 압축될 수 있다. 0과 1로 압축되는 것이다.

 

 

그런데 우리 현실의 실제 정보가 나타나는 상황은 위의 상황보다는 더 복잡하다.

 

A,B,C,D,E,F,G,H라는 8가지 분류의 값 데이터를 전달하는데 각기 그 문건상에 등장 확률이 30%,20%,10%,10%,10%,10%,5%,5% 이라고 해보자. 무손실 압축 방법 중에 허프만 코딩이라는 방식 혹시 기억나는가? 해당 방식과 같다.

 

그렇다. 가장 많이 등장하는 A에 가장 짧은 길이를 할당하고 빈도수가 작을수록 더 긴 길이를 할당하는 압축 방식으로 운영할 수 있다. 이렇게 일종의 허프만 코딩 방식으로 압축했을때 필요한 bit수가 나오는게 바로 이 섀넌의 공식이다. 실제 위에 명기한 공식에 따라 구해보면

 

H(P) = H(x) = -P(x)logP(x)

= -(0.3log0.3 + 0.2log0.2 + 0.1log0.1 + 0.1log0.1 + 0.1log0.1 + 0.1log0.1 + 0.05log0.05 + 0.05log0.05)

= -(0.3 * -1.7369.. + 0.2 * -2.3219.. + 0.1 * -3.3219.. + 0.1 * -3.3219 + 0.1 * -3.3219 + 0.1 * -3.3219+0.05*-4.3219...+0.05*-4.3219)

= -( -0.52107.. + -0.46438.. + -0.3322.. + -0.3322.. + -0.3322.. + -0.3322.. + -0.2161.. + -0.2161..) 

= -(-2.74645) = 2.74645...

 

가 되서 2.7bit 즉 3bit 조금 안되게 있으면 위 패턴의 정보들은 압축해서 보낼 수 있다는 이야기이다. 정리해서 이야기하자면 "어떤 데이터를 출현 빈도수 패턴에 맞게 가장 효율적으로 압축했을때 필요한 전송량"이라고 생각하면 된다.

 

앞서 언급된 대로 A,B가 각각 50%로 등장한다고 똑같이 계산해보면 금방 H(P)는 1값을 가진다는 것을 알 수 있다.

 

H(P) = H(x) = -P(x)logP(x)

= -(0.5log0.5 + 0.5log0.5 + 0log0 + ....)

= -(0.5 * -1 + 0.5 * -1)

= 1

 

만약에 출현빈도가 모두 동등한 n개 분류의 데이터는 어떨까(n개가 각각 1/n의 확률로 등장하는) 전혀 압축이 불가능하므로 아래와 같이 log n이 된다.

 

H(P) = H(x) = -P(x)logP(x)

= - n * (1/n * log 1/n)

= - log1/n = 1 (log1 - logn)

= log n

 

4개 보내려면 2bit 필요하다. (00,01,10,11 4개 딱 맞다)

 

위 섀넌 공식의 유도 과정은 수학자의 그것이지만 결론은 딱 확률을 고려한 압축 가능 정도의 개념이다.

 

 그러면 이제, 아 저런걸 뭐 수식으로 저렇게 잘 정리했구나. 단순하네? 할 수 있겠지만 가만히 생각해보면 전화기가 처음 도입되고 데이터에 대한 개념도 없던 시절이라, 이런 '정보'라는 개념을 수식으로 접근할 수가 없었던 시절에는 아주 큰 정량적 기준을 제시하게 된 셈이다. 정보라는 것이 처음으로 "그 보내고 싶은 값과 각 값의 출현 확률"을 가지고 정의할 수 있게 되었다. 이게 알면 단순하지만 처음 만드는 사람은 큰 창의력을 필요로 하는 행위다.

 

 그러면 이 이론은 어디에 응용이 될 수 있을까? 수도 없이 인용되었지만, 여기서는 바로 양자역학의 본질이 정보라고 주장한 존 아치볼드 휠러 교수의 "it from bit"에서 시작할 수 있다. 양자 정보 이론이라는 이름으로 불리는 이 분야들은 최근에 더욱더 다양한 분야에서 고려되고 있다. 블랙홀에서 입자를 빨아들이면 과연 정보는 소멸하는가? 에너지와 질량이 등가인 것처럼 이 정보와 에너지가 등가일 수는 있는 것인가? 맥스웰의 도깨비에서 열역학 제2법칙에 위배되는 도깨비가 다루고 있는 정보는 과연 무엇인가? 정보가 세상 물질들을 설명할 수 있다면 그것은 대체 무엇인가?

 

라고 질문될때 정의하기 어려운 이 수학적인 '정보'를 섀논이 명쾌하고 수학적으로 한번 정의해준것이다.

 

결국 허프만 코딩도 섀넌의 정보이론에서 그대로 파생된다. 맨 아래 비트의 0을 가장 높은 확률의 패턴에 그리고 그 다음 10, 00을 통해  그것도 안되면 100, 000에 계속 사다리식으로 필요한 비트 수를 늘려가면서 배정하는 것이 그대로 닮았다. 

 

이 좀 설명도 어렵다 싶은 분께는 아래 짧은 영상을 추천한다.

https://www.youtube.com/watch?v=2s3aJfRr9gE

마지막으로 섀넌의 정보량을 엔트로피라고 부르는데, 앞서 밝혔듯이 폰 노이만의 제안으로 이렇게 불렀다는 말이 있다.

 

 엔트로피라고 하면 빼놓을 수 없는, 물리학사의 비운의 인물 중 하나인 루드비히 에두아르트 볼츠만(Ludwig Eduard Boltzmann/독일어)이 갑자기 이 이야기에 등장하게 되는데, 그의 묘비에는 엔트 S = k log W라는 엔트로피 공식이 적혀져 있다고 한다. 엇 이거 많이 보던것 아닌가?

 

 맞다 위 P(x)logP(x) 와 비슷해보인다? 엔트로피도 log와 확률이 어울러져 있는데, 둘은 유사 특성이 있다. 이 얽힌 이야기들은 일단 책 인포메이션에 먼저 맡기고, 나중에 다시 이어가보자.

 

 

반응형
Posted by 작동미학