| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 맛있는디자인스터디12기
- 프리미어프로
- 맛있는디자인
- Doit점프투파이썬
- 혼공분석
- 혼공파
- 제이펍
- 회고
- 전면개정2판
- 스터디
- 챌린지
- 후기
- 혼공머신
- CS2023
- 혼공바
- 3주차후기
- CC2023
- 혼공단
- 혼공학습단
- Doit파이썬스터디
- 혼공자
- 혼공C
- 혼공
- 6주차후기
- 바이브코딩
- 맛있는디자인스터디13기
- 애프터이펙트
- 혼공JS
- 혼만딥
- 진짜쓰는일러스트레이터
- Today
- Total
애독자's 공부방
역자와 함께 하는 『밑바닥부터 시작하는 딥러닝1』 완독 챌린지 최종 후기 본문
혼공단 - 혼공바, 혼자 공부하는 바이브 코딩 with 클로드 코드
역자와 함께 하는 완독 챌린지 성공(?) 후기
솔직히 말해서, 제 진짜 관심사는 요즘 가장 핫한 LLM, 그러니까 출시 예정인 '밑바닥부터 시작하는 딥러닝 6편'이었습니다. 하지만 화려해보이는 대규모 언어 모델을 제대로 이해하려면, 결국 그 문장들이 어떻게 숫자로 바뀌고 계산되는지 '밑바닥'의 원리를 아는 게 먼저라고 생각했습니다. 그렇게 시작한 3주간의 챌린지는 넘지못하는 커다란 산과 같았던 AI를 점점 수학과 논리로 풀어나가는 시간이었습니다.
1. 왜 1권부터 시작해야 했을까?
아직 책이 나오지 않은 문제도 있지만 LLM도 결국엔 아주 큰 신경망으로, 이번에 배운 오차역전파법을 모르면 트랜스포머가 학습되는 원리를 이해하기 어렵습니다. 또, 가중치의 초깃값과 활성화 함수 사이의 관계를 이해하지 못하면 왜 모델이 환각 현상을 보이거나 학습에 실패하는지에 대한 원인을 알 수 없습니다. 계산 그래프를 통해 아아와 두쫀쿠 가격의 미분을 구해보면서 느낀 '미분값이 흐른다'는 생각은, 수십억 개 매개변수를 가진 LLM에서도 그대로 적용되는 핵심 원리라 할 수 있습니다.
2. 이미지나 텍스트나 그 원리는 같다.
1편은 CNN 부분을 주로 다루다 보니 이미지 처리에만 초점이 맞춰진 것처럼 느껴질 수도 있지만, CNN이 이미지에서 특징을 뽑아내듯 LLM은 단어들 사이의 관계라는 특징을 찾아냅니다. 또 여기에 나오는 Softmax-with-Loss 계층은 LLM이 다음 단어를 고를 때 동일하게 쓰입니다. 그리고 직접 순전파와 역전파를 처리하는 forward()와 backward()를 구현하면서 데이터가 어떻게 흘러가고 바뀌는지 체험할 수 있었습니다. 이제 6편이 출간되어 어텐션이나 트랜스포머처럼 복잡한 구조를 마주하더라도, 더 이상 당황하지 않고 "결국 이것도 노드들의 행렬 연산일 뿐이잖아"라고 말하며 넘길 수 있는 여유를 3주간의 여정을 통해 갖게 되었습니다.
끝으로 함께해 주신 혼공족장님, 그리고 함께한 혼공단 여러분 모두에게 고마움을 전하며 이번 후기를 마칩니다.
추신: 으허.. 2편부터 6편까지 이렇게 뿌셔나갈 수 있을까요? 아.. 혼만파는 언제하지?


