일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 맛있는디자인스터디13기
- 스터디
- 혼공머신
- Doit파이썬스터디
- 혼공JS
- 스터디완료
- 혼공
- 혼공분석
- 진짜쓰는일러스트레이터
- 맛있는디자인스터디12기
- 혼공자
- 전면개정2판
- 제이펍
- 챌린지
- 생성형AI
- 애프터이펙트
- 6주차후기
- CS2023
- CC2023
- 혼공C
- 혼공파
- 맛있는디자인스터디11기
- Doit점프투파이썬
- 혼공단
- 회고
- 혼공학습단
- 3주차후기
- 후기
- 맛있는디자인
- 프리미어프로
- Today
- Total
애독자's 공부방
혼자 공부하는 머신러닝+딥러닝 1주차 본문
혼공단 - 혼공머신, 혼자 공부하는 머신러닝+딥러닝
각 Chapter의 '학습목표'를 바탕으로 내용을 정리했습니다.
# | 진도 | 기본 미션 | 선택 미션 |
1주차 (1/2 ~ 1/7) |
Chapter 01 ~ 02 |
코랩 실습 화면 캡처하기 | Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리하기 |
□ Chapter 01
인공지능, 머신러닝, 딥러닝의 차이점
- 인공지능: 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 (강인공지능, 약인공지능으로 분류)
. 강인공지능: 인공일반지능이라고도 하며, 사람의 지능과 유사 (영화 속 전지전능한 AI)
. 약인공지능: 특정 분야에서 사람을 돕는 보조 AI (음성 비서나 자율 주행 등)
※ 인공지능은 머신러닝, 딥러닝 등 다양한 기술을 포함하여 범위가 가장 넓음
- 머신러닝: 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야
※ 머신러닝은 인공지능의 한 분야로, 대표적인 라이브러리는 사이킷런
- 딥러닝: 인공 신경망을 사용하여 데이터를 학습하는 기술
※ 딥러닝은 머신러닝의 한 분야로, 대표적인 라이브러리는 텐서플로와 파이토치
구글 코랩 사용
- 코랩: 구글 계정이 있으면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경
. 노트북: 코랩의 프로그램 작성 단위이며, 대화식으로 프로그램 작성 ( 구글 클라우드의 Colab Notebooks에 저장 )
첫 번째 머신러닝 프로그램을 만들고 기본 작동 원리를 이해
- 문제 정의 → 데이터 준비(수집/전처리) → 모델 선택 → 모델 훈련(학습) → 모델 성능측정(평가) → 모델 예측(사용)
. 특성: 데이터를 표현하는 하나의 성질 (생선 데이터 각각을 길이와 무게 특성으로 표현)
. 훈련: 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정 (사이킷런에서 fit 메서드의 역할)
. k-최근접 이웃 알고리즘: 가장 간단한 알고리즘의 하나 (어떤 규칙을 찾기 보다는 인접한 샘플을 기반으로 예측을 수행)
. 모델: 알고리즘이 구현된 객체로 종종 알고리즘 자체를 모델이라고 부르기도 함
. 정확도: 정확한 답을 몇 개 맞췄는지를 백분율로 나타낸 값 (사이킷런에서는 0~1 사이의 값)
※ 정확도 = 정확히 맞힌 개수 / 전체 데이터 개수
□ Chapter 02
머신러닝 알고리즘에 주입할 데이터를 준비하는 방법
- 데이터 전처리 및 훈련 세트와 테스트 세트를 준비
. 데이터 전처리: 머신러닝 모델에 훈련 데이터를 주입하기 전 가공하는 단계로 특성값을 일정한 기준으로 맞춰주는 작업
. 훈련 세트: 지도 학습의 경우 필요한 입력(데이터)과 타깃(정답)을 합쳐 놓은 것 (모델을 훈련할 때 사용하는 데이터)
※ 보통 훈련 세트가 클수록 좋아서, 테스트 세트를 제외한 모든 데이터를 사용
. 테스트 세트: 보통 전체 데이터에서 20~30%를 테스트 세트로 사용 (전체 데이터가 아주 크다면 1%로도 충분)
데이터 형태가 알고리즘에 미치는 영향
- 데이터 전처리: 데이터를 표현하는 기준이 다르면 알고리즘을 올바르게 예측할 수 없음
→ 생선의 두 특성(길이와 무게)의 값이 놓인 범위(스케일)가 달라, 일정한 기준으로 맞춰주기 위해 표준점수 사용
. 표준점수: 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지 표시
※ 반드시 훈련 세트의 기준(평균과 표준편차)로 테스트 세트를 변환해야 스케일이 같아짐
- 샘플링 편향: 훈련 세트와 테스트 세트에 샘플이 고르게 섞여 있지 않을 때 나타나며, 한쪽으로 치우침이 발생
→ 사이킷런의 train_test_split() 함수를 사용해서 훈련 세트와 테스트 세트 분할 (기본 25%를 테스트 세트로 사용)
■ 기본 미션
코랩 실습 화면 캡처하기
- 실습한 내용을 살펴보려면, 아래 링크를 통해 이동하세요.
https://colab.research.google.com/drive/154PCu4EIXCb-UIjLqwSk7u5Z9fMXVAyg?usp=sharing
■ 선택 미션
Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리하기
'머신러닝+딥러닝 > 혼공학습단 11기' 카테고리의 다른 글
혼자 공부하는 머신러닝+딥러닝 6주차 (0) | 2024.02.09 |
---|---|
혼자 공부하는 머신러닝+딥러닝 5주차 (1) | 2024.02.04 |
혼자 공부하는 머신러닝+딥러닝 4주차 (1) | 2024.01.29 |
혼자 공부하는 머신러닝+딥러닝 3주차 (0) | 2024.01.20 |
혼자 공부하는 머신러닝+딥러닝 2주차 (2) | 2024.01.13 |