관리 메뉴

애독자's 공부방

혼자 공부하는 머신러닝+딥러닝 5주차 본문

머신러닝+딥러닝/혼공학습단 11기

혼자 공부하는 머신러닝+딥러닝 5주차

애독자 2024. 2. 4. 16:09
728x90

혼공단 - 혼공머신, 혼자 공부하는 머신러닝+딥러닝

각 Chapter의 '학습목표'를 바탕으로 내용을 정리했습니다.

 

# 진도 기본 미션 선택 미션
5주차
(1/29 ~ 2/4)
Chapter 06 k-평균 알고리즘 작동 방식 설명하기 Ch.06(06-3) 확인 문제 풀고,
풀이 과정 정리하기

 

 

□ Chapter 06

타깃이 없는 데이터를 사용하는 비지도 학습과 대표적인 알고리즘을 이해

 - 비지도 학습: 머신러닝의 한 종류로 훈련 데이터에 타깃이 없기에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 함

   . 히스토그램: 구간별로 값이 발생한 빈도를 그래프로 표시  → x축: 구간(계급), y축: 발생 빈도(도수)

   . 대표적 비지도 학습: 군집, 차원 축소 등

     ※ 군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업

       → 클러스터: 군집 알고리즘으로 모은 샘플 그룹

      차원 축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류

        저장 공간을 줄이고 시각화하기 쉬우며, 다른 알고리즘의 성능을 높일 수 있음


대표적인 군집 알고리즘인 k-평균을 이해

 - k-평균: 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만든 후, 그 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘

   . 클러스터 중심: k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값

     → 센트로이드 라고도 부르며 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용

   . 엘보우 방법: 최적의 클러스터 개수를 정하는 방법 중에 하나 ( 이셔너 감소가 꺾이는 지점의 그래프 모양 )

     ※ 이너셔: 클러스터 중심과 샘플 사이의 제곱의 합

       → 클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 클러스터 개수 k가 될 수 있음


대표적인 차원 축소 알고리즘인 주성분 분석(PCA)를 이해

 - 주성분 분석: 차원 축소 알고리즘의 하나로, 데이터에서 가장 분산이 큰 방향인 주성분을 찾는 방법

   . 원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있음

     → 주성분은 원본 데이터에 있는 특성 개수보다 작음
   ※ 설명된 분산: 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것

     → 사이킷런의 PCA 클래스는 주성분 개수나 설명된 분산의 비율을 지정하여 주성분 분석 수행이 가능

 

 

■ 기본 미션

k-평균 알고리즘 작동 방식 설명하기

 1) 무작위로 k개의 클러스터 중심을 결정

 2) 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정

 3) 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경

 4) 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복

from sklearn.cluster import KMeans
# 1) 무작위로 k개의 클러스터 중심을 결정: 3개의 클러스터를 생성하여, 내부적으로 무작위하게 3개의 데이터 포인트를 선택하여 클러스터 중심으로 설정
km = KMeans(n_clusters=3, random_state=42)
# 2)~4) k-평균 알고리즘이 실행
## 2) 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정
## 3) 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경: 클러스터 중심 업데이트 과정
## 4) 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복: 반복적으로 클러스터 할당과 중심 업데이트가 수행
km.fit(fruits_2d)

 

 - KMeans 클래스를 활용해서 k-평균에 대해 실습한 내용을 살펴보려면, 아래 링크를 통해 이동하세요.

https://colab.research.google.com/drive/1g0Uc--Xfd_GSMFRfk2EAwIYmaQ6XyQdx?usp=sharing

 

 

■ 선택 미션

Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?
  ① 10개, ② 20개, ③ 50개, ④ 100개
# ② 20개: 주성분 분석(PCA)은 데이터의 변동성을 설명하는 새로운 축인 주성분을 찾는데 사용되며,
#       주성분의 개수는 데이터의 특성 개수보다 많을 수 없기에, 이 데이터셋의 주성분의 개수는 최대 20개
  

2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다.
이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
  ① (1000, 10), ② (10, 1000), ③ (10, 10), ④ (1000, 1000)
# ① (1000, 10): PCA를 통해 데이터를 변환하면 특성 개수는 줄어들며, 10개의 주성분을 찾았으므로
#             변환된 데이터셋의 크기는 (1000, 10)


3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
  ① 첫 번째 주성분, ② 다섯 번째 주성분, ③ 열 번째 주성분, ④ 알 수 없음
# ① 첫 번째 주성분: 설명된 분산은 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값으로,
#                 첫 번째 주성분의 설명된 분산이 가장 큼

 

 

 

728x90