관리 메뉴

애독자's 공부방

빅데이터분석기사 합격 수기와 준비 방법 본문

취득/자격증

빅데이터분석기사 합격 수기와 준비 방법

애독자 2025. 7. 6. 10:12
728x90

이전 회차(9회)가 어렵게 출제되어서 그런지, 이번 10회 '빅데이터분석기사'는 이전보다 확실히 무난한 난이도로 출제되었습니다. 덕분에 큰 부담 없이 준비한 만큼의 결과를 얻을 수 있었고, 합격할 수 있어 다행이라는 생각이 듭니다. 준비하신 모든 분들 정말 고생 많으셨습니다.

 

 

■ 응시 결과 및 획득 점수

 

 

■ 시험 준비 동기 및 과정

최근 실무 역량 강화와 자격증 취득을 목표로 올해 초 부터 빅데이터분석기사 시험을 준비했습니다. 필기와 실기 모두 공개된 무료 자료와 생성형 AI를 적극 활용해 효율적으로 학습했고, 실제 시험에서도 큰 도움이 되었습니다.

 

□ 필기 준비 방법 및 주요 사항

  • 관심내용 사전 준비: 기존 '파이썬'과 '판다스', '머신러링+딥러닝' 및 '데이터 분석'관련 기본서를 'Doit공부단''자율학습단''혼공학습단'을 통해서 공부한 것이 유익했습니다. 이후 이론적인 개념을 익히거나 관련 코드 작성 시 도움이 되었습니다.
    • Doit공부단: 파이썬 1기, 2기
    • 자율학습단: 파이썬 6기
    • 혼공학습단: 파이썬 8기, 머신러닝+딥러닝 11기, 데이터분석 13기
  • 무료 요약 강의: 유튜브 '@ITDapter' 채널에서 제공하는 필기 요약 강의가 도움이 되었습니다. 핵심 개념을 짧은 시간 안에 정리할 수 있었고, 이후 공식 홈페이지에서 확인한 출제기준과 관련 키워드에 정리할 때 연관된 부분을 쉽게 찾을 수 있었습니다.
  • 기출문제 풀이: 인터넷에 공개된 기출문제를 모아 풀어보고, 틀리거나 어려운 문제는 Gen AI를 활용해 해설을 참고했습니다.

 

□ 실기 준비 방법 및 주요 사항

  • 무료 강의 활용 
    • 실제 시험 환경 및 풀이 요령 확인: 유튜브 '@ITDapter' 및  '@ai-study' 채널에서 제공하는 실기 대비 영상이 도움이 되었습나다. 특히 ' @ai-study '의 풀이 요령이 저에게는 더 잘 맞는 것 같아 해당 방법으로 코드를 정리하려 했습니다.
    • 기출문제 및 모의고사: 1유형 데이터 전처리를 포함해서 다양한 문제를 풀어볼 수 있는 'DataManim' 사이트가 도움이 되었습니다. 특히 시험 유형이 6회 부터 변경되었기에, 9회까지 출제된 주요 코드를 정리해서 반복 연습했습니다.
  • 코드 작성 연습: 소수점 자리수 맞추기, 제출 파일 양식 등 감점이 발생할 수 있는 부분을 확인하고 정리했습니다.

 

 

■ 10회 기출문제 주요 내용

시험 문제 및 답안 공유는 금지되어 있으므로, 출제 키워드 및 유형 위주로 정리했습니다.

 

□ 필기 출제된 주제

  • 1과목: 빅데이터 분석기획
    • 빅데이터 기술(JDBC, OLTP 등), 조직 구조(집중형 조직), 개인정보보호 원칙/처리 방법, 책임원칙, 프로젝트 단계별 진행 순서, 총계처리, 데이터 유형(정형/반정형/비정형), 플랫폼 인프라, 데이터 수집 방식(크롤링, FTP), 데이터 특성(완전성/ 일관성/정확성), 가명정보, 서비스 계층, 분석 단계, 데이터웨어하우스 특징(통합성/시계열성), 전이학습, 개인정보 최소화 원칙, 데이터사이언티스트 역할, WBS(작업분해구조), FGI(표적집단면접), 인공지능 학습 필요성
  • 2과목:  빅데이터 탐색
    • 변수 선택 기법, 이항분포, 표본-모평균 관계, Z-score, SVD/LSA, 사분위수 범위, 표본추출, 샘플링 방법, 점/구간추정, 왜도, 초기하분포, 피어슨 상관계수, 로지스틱 회귀, 파생/요약변수, 변수선택 검증, 데이터 정제, 분산분석(ANOVA), 공분산/독립성
  • 3과목:  빅데이터 모델링
    • 덴드로그램, ARIMA, 과적합 해결, 배깅/부스팅, 주성분분석, 모델링 목적, 초매개변수, 의사결정나무, 다중공선성, 정규성 검정, 부스팅, ReLU, 가지치기, 상관계수 해석, SVM, AutoEncoder, Attention, 다중분산분석, 로짓 변환, 데이터 품질 관리
  • 4과목:  빅데이터 결과 해석
    • 인포그래픽, Grid Search, 학습 곡선, 오차 곡선, SGD, 관계 시각화, LOOCV, 교차검증 반복수, MAPE 계산, 민감도, F1 score, Hold-out, 과적합, 직업전환 유의성, Lasso 희소성, 데이터 품질, 과적합 방지, 카토그램, 단계구분도(Choropleth map)

 

□ 실기 출제 유형 ( 모든 정답은 요구하는 소숫점 자리까지 입력 )

  • 1유형: 데이터 전처리
    • 1-1.소주제별 정답률 O 번째로 높은 값 구하기 (중복 정답률이 있는 경우, 그 다음의 정답률을 선택)
result = df.groupby('소문제')['정답여부'].mean().sort_values(ascending=False)
    • 1-2. 1) 연월별 매출액 합계 중 O 번째로 큰 값 / 2) O 번째로 큰 연월의 범주별 매출액 중 최대값
df['date'] = pd.to_datetime(df['date'])
df['연월'] = df['order_date'].dt.strftime('%Y-%m')
monthly_sum = df.groupby('연월')['price'].sum().sort_values(ascending=False)

 

    • 1-3. 레이블별 단어 수 평균 차이의 절대값
df['count'] = df['text'].apply(lambda x: len(x.split()))
print(df.groupby('label')[count'].mean())

 

  • 2유형: 모델 구축 및 평가
    •  결측치 처리 및 머신러닝 회귀 문제
target = train.pop('TARGET')
train = pd.get_dummies(train)
test = pd.get_dummies(test)

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state=0)
rf.fit(X_tr, y_tr)

from sklearn.metrics import mean_squared_error
pred = rf.predict(X_val)
rmse = mean_squared_error(y_val, pred, squared=False)

 

  • 3유형: 통계적 분석 및 해석
    • 3-1. 로지스틱 회귀(Logit) 해석
from statsmodels.formula.api import logit
models = logit('종속변수명 ~ 독립변수명1 + 독립변수명2 + ...', df).fit()

 

    • 3-2. 선형회귀(OLS) 해석
from statsmodels.formula.api import ols
models = logit('종속변수명 ~ 독립변수명1 + 독립변수명2 + ...', df).fit()

 

 

728x90