혼자 공부하는 머신러닝+딥러닝 2주차

2024. 1. 13. 03:07머신러닝+딥러닝/혼공학습단 11기

728x90

혼공단 - 혼공머신, 혼자 공부하는 머신러닝+딥러닝

각 Chapter의 '학습목표'를 바탕으로 내용을 정리했습니다.

 

# 진도 기본 미션 선택 미션
2주차
(1/8 ~ 1/14)
Chapter 03 Ch.03(03-1) 2번 문제 출력 그래프 인증하기 모델 파라미터에 대해 설명하기

 

하고 싶다.. 우수 혼공족..

 

 

□ Chapter 03

지도 학습 알고리즘의 한 종류인 회귀 알고리즘 이해

 - 회귀: 두 변수 사이의 상관관계를 분석하는 방법 (임의의 수치를 예측하는 문제로, 타깃값도 임의의 수치)

  . k-최근접 이웃 회귀: k-최근접 이웃 알고리즘을 사용해 회귀 문제를 해결.

   ※ 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측

  . 결정계수(R^2): 대표적인 회귀 문제의 성능 측정 도구 (1에 가까울수록 좋고, 0에 가깝다면 성능이 나쁜 모델)

  . 과대적합: 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을 때 발생 (모델이 훈련 세트에 너무 집착한 상황)

  . 과소적합: 훈련 세트와 테스트 세트 성능이 모두 동일하게 낮거나 테스트 세트 성능이 오히려 높을 때 발생

   → 더 복잡한 모델을 사용해 훈련 세트에 잘 맞는 모델을 생성하여 해결

 - 선형 회귀: 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 탐색 (특성이 하나면 직선 방정식)

  . 찾은 특성과 타깃 사이의 관계는 선형 방정식의 계수 또는 가중치(방정식의 기울기와 절편)에 저장

 - 다항 회귀: 다항식을 사용하여 특성과 타깃 사이의 관계를 표시 (비선형일 수 있지만 선형 회귀로 표현 가능)

  . 여러 개의 특성을 사용하는 회귀 모델로, 특성이 많으면 선형 모델은 강력한 성능을 발휘

 - 릿지 회귀: 규제가 있는 선형 회귀 모델 중 하나로, 선형 모델의 계수를 작게 만들어 과대적합을 완화

  . 비교적 효과가 좋아 널리 사용하는 규제 방법

 - 라쏘 회귀: 또 다른 규제가 있는 선형 회귀 모델로, 릿지와 달리 계수 값을 아예 0으로 만들기도 가능

  . 하이퍼파라미터: 머신러닝 모델이 학습할 수 없고 사람이 알려줘야 하는 파라미터 (릿지와 라쏘의 규제 강도 alpha 값) 

   

다양한 선형 회귀 알고리즘의 장단점 이해

 - 선형 회귀

  . 장점: 모델이 간단하여 이해하고 구현하기 쉬움. 학습 속도가 빠름. 일반적으로 좋은 예측 성능을 보임.

  . 단점: 데이터가 선형적인 패턴을 따르지 않으면 예측 성능이 저하될 수 있음. 과적합에 취약.

 - 다항 회귀

  . 장점: 선형 회귀보다 복잡한 데이터를 예측 가능.

  . 단점: 모델이 복잡하여 이해하기 어려울 수 있음. 학습 속도가 느릴 수 있음. 과적합에 더욱 취약.

 - 릿지 회귀: 모델의 파라미터에 L2 노름을 적용하여 모델의 복잡도를 조절하는 회귀 알고리즘

  ※ L2 노름 : 벡터의 요소들의 제곱의 합의 제곱근으로 정의 (벡터의 길이를 측정하는 데 사용)

L2 노름(x) = sqrt(x1^2 + x2^2 + ... + xn^2)

  . 장점: 과적합을 방지하는 효과가 있음. 선형 회귀와 다항 회귀의 중간 정도의 예측 성능을 보임.

  . 단점: 모델의 파라미터의 값이 작아질 수 있음.

 - 라쏘 회귀: 모델의 파라미터에 L1 노름을 적용하여 모델의 복잡도를 조절하는 회귀 알고리즘

  ※ L1 노름 : 벡터의 요소들의 요소들의 절댓값의 합으로 정의 (벡터의 크기를 측정하는 데 사용)

L1 노름(x) = |x1| + |x2| + ... + |xn|

  . 장점: 적합을 방지하는 효과가 있음. 선형 회귀와 다항 회귀의 중간 정도의 예측 성능을 보임. 모델의 파라미터의 값을 0으로 만드는 효과가 있음.

  . 단점: 모델의 파라미터의 값이 불규칙해질 수 있음.

 - 선형 회귀 알고리즘의 선택 시 고려사항: 데이터의 특성, 예측의 정확도, 과적합의 위험

  . 데이터가 선형적인 패턴을 따르는 경우 선형 회귀를 사용하면 좋은 성능을 보일 수 있음.

  . 데이터가 선형적인 패턴을 따르지 않는 경우 다항 회귀를 사용하면 더 나은 성능을 보일 수 있음.

  . 또한, 과적합의 위험을 줄이기 위해 릿지 회귀, 라쏘 회귀 등을 사용할 수 있음.

 

 

■ 기본 미션

Ch.03(03-1) 2번 문제 출력 그래프 인증하기

 - 실습한 내용을 살펴보려면, 아래 링크를 통해 이동하세요.

https://colab.research.google.com/drive/1iJ9OIOUWlbLeyo1NN-CKzmK-He-kFw26?usp=sharing

012
n_neighbors = 1 / n_neighbors = 5 / n_neighbors = 10

 

 

■ 선택 미션

모델 파라미터에 대해 설명하기

 - 모델 파라미터(model parameter): 선형 회귀가 찾은 가중치처럼 머신러닝 알고리즘이 찾은 값이라는 의미로 모델 파라미터라고 부르며, 머신러닝 모델이 특성에서 학습한 파라미터를 말한다.

 

아직도 알쏭달쏭 한데, Bard야 도와줘!

 - 모델 파라미터는 머신러닝 모델의 학습 과정에서 학습되는 값을 의미합니다. 모델 파라미터는 모델의 예측 성능에 영향을 미치는 중요한 요소입니다.

 - 모델 파라미터의 종류는 모델의 종류에 따라 다릅니다. 예를 들어, 선형 회귀 모델의 모델 파라미터는 회귀 계수입니다. 다항 회귀 모델의 모델 파라미터는 회귀 계수와 다항식의 차수입니다. 로지스틱 회귀 모델의 모델 파라미터는 회귀 계수와 편향입니다.

 - 모델 파라미터는 학습 데이터를 사용하여 최적화됩니다. 최적화란 모델 파라미터의 값을 조정하여 모델의 예측 성능을 최대화하는 과정을 의미합니다.

 - 모델 파라미터가 너무 작으면 모델의 예측 성능이 저하될 수 있습니다. 이는 모델이 데이터의 패턴을 충분히 학습하지 못하기 때문입니다. 반면, 모델 파라미터가 너무 크면 모델이 과적합될 수 있습니다. 이는 모델이 학습 데이터의 노이즈까지 학습하기 때문입니다.

 - 따라서, 모델 파라미터를 적절하게 설정하는 것이 중요합니다. 모델 파라미터를 적절하게 설정하려면 다음과 같은 방법을 사용할 수 있습니다.

  • 교차 검증
    • 교차 검증은 학습 데이터를 사용하여 모델을 학습하고, 검증 데이터를 사용하여 모델의 예측 성능을 평가하는 방법입니다.
  • 하이퍼파라미터 튜닝
    • 하이퍼파라미터는 모델의 구조나 학습 과정을 제어하는 값을 의미합니다. 하이퍼파라미터 튜닝은 하이퍼파라미터의 값을 조정하여 모델의 예측 성능을 최적화하는 과정입니다.

 - 모델 파라미터는 머신러닝 모델의 성능에 중요한 영향을 미치는 요소입니다. 따라서, 모델 파라미터를 적절하게 설정하는 것이 중요합니다.

 

728x90