관리 메뉴

애독자's 공부방

역자와 함께 하는 『밑바닥부터 시작하는 딥러닝1』 완독 챌린지 최종 후기 본문

머신러닝+딥러닝

역자와 함께 하는 『밑바닥부터 시작하는 딥러닝1』 완독 챌린지 최종 후기

애독자 2026. 2. 25. 01:11
728x90

혼공단 - 혼공바, 혼자 공부하는 바이브 코딩 with 클로드 코드


 

인프런+한빛, 혼공단, 역자와 함께하는 완독 챌린지

 

 

역자와 함께 하는 완독 챌린지 성공(?) 후기

솔직히 말해서, 제 진짜 관심사는 요즘 가장 핫한 LLM, 그러니까 출시 예정인 '밑바닥부터 시작하는 딥러닝 6편'이었습니다. 하지만 화려해보이는 대규모 언어 모델을 제대로 이해하려면, 결국 그 문장들이 어떻게 숫자로 바뀌고 계산되는지 '밑바닥'의 원리를 아는 게 먼저라고 생각했습니다. 그렇게 시작한 3주간의 챌린지는 넘지못하는 커다란 산과 같았던 AI를 점점 수학과 논리로 풀어나가는 시간이었습니다.

 

1. 왜 1권부터 시작해야 했을까?

아직 책이 나오지 않은 문제도 있지만 LLM도 결국엔 아주 큰 신경망으로, 이번에 배운 오차역전파법을 모르면 트랜스포머가 학습되는 원리를 이해하기 어렵습니다. 또, 가중치의 초깃값과 활성화 함수 사이의 관계를 이해하지 못하면 왜 모델이 환각 현상을 보이거나 학습에 실패하는지에 대한 원인을 알 수 없습니다. 계산 그래프를 통해 아아와 두쫀쿠 가격의 미분을 구해보면서 느낀 '미분값이 흐른다'는 생각은, 수십억 개 매개변수를 가진 LLM에서도 그대로 적용되는 핵심 원리라 할 수 있습니다.

 

2. 이미지나 텍스트나 그 원리는 같다.

1편은 CNN 부분을 주로 다루다 보니 이미지 처리에만 초점이 맞춰진 것처럼 느껴질 수도 있지만, CNN이 이미지에서 특징을 뽑아내듯 LLM은 단어들 사이의 관계라는 특징을 찾아냅니다. 또 여기에 나오는 Softmax-with-Loss 계층은 LLM이 다음 단어를 고를 때 동일하게 쓰입니다. 그리고 직접 순전파와 역전파를 처리하는 forward()와 backward()를 구현하면서 데이터가 어떻게 흘러가고 바뀌는지 체험할 수 있었습니다. 이제 6편이 출간되어  어텐션이나 트랜스포머처럼 복잡한 구조를 마주하더라도, 더 이상 당황하지 않고 "결국 이것도 노드들의 행렬 연산일 뿐이잖아"라고 말하며 넘길 수 있는 여유를 3주간의 여정을 통해 갖게 되었습니다.

끝으로 함께해 주신 혼공족장님, 그리고 함께한 혼공단 여러분 모두에게 고마움을 전하며 이번 후기를 마칩니다.


추신: 으허.. 2편부터 6편까지 이렇게 뿌셔나갈 수 있을까요? 아.. 혼만파는 언제하지?

 

 


 

728x90