Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 바이브코딩
- 6주차후기
- Doit파이썬스터디
- 맛있는디자인스터디12기
- 챌린지
- 혼만딥
- 맛있는디자인
- 혼공JS
- Doit점프투파이썬
- 혼공학습단
- 혼공
- 제이펍
- CC2023
- 3주차후기
- 프리미어프로
- 혼공바
- 혼공분석
- 진짜쓰는일러스트레이터
- 애프터이펙트
- 혼공자
- 전면개정2판
- 스터디
- 혼공단
- 혼공C
- 맛있는디자인스터디13기
- 후기
- 혼공머신
- 혼공파
- 회고
- CS2023
Archives
- Today
- Total
애독자's 공부방
빅데이터분석기사 합격 수기와 준비 방법 본문
728x90
이전 회차(9회)가 어렵게 출제되어서 그런지, 이번 10회 '빅데이터분석기사'는 이전보다 확실히 무난한 난이도로 출제되었습니다. 덕분에 큰 부담 없이 준비한 만큼의 결과를 얻을 수 있었고, 합격할 수 있어 다행이라는 생각이 듭니다. 준비하신 모든 분들 정말 고생 많으셨습니다.
■ 응시 결과 및 획득 점수

■ 시험 준비 동기 및 과정
최근 실무 역량 강화와 자격증 취득을 목표로 올해 초 부터 빅데이터분석기사 시험을 준비했습니다. 필기와 실기 모두 공개된 무료 자료와 생성형 AI를 적극 활용해 효율적으로 학습했고, 실제 시험에서도 큰 도움이 되었습니다.
□ 필기 준비 방법 및 주요 사항
- 관심내용 사전 준비: 기존 '파이썬'과 '판다스', '머신러링+딥러닝' 및 '데이터 분석'관련 기본서를 'Doit공부단' 과 '자율학습단' 및 '혼공학습단'을 통해서 공부한 것이 유익했습니다. 이후 이론적인 개념을 익히거나 관련 코드 작성 시 도움이 되었습니다.
- 무료 요약 강의: 유튜브 '@ITDapter' 채널에서 제공하는 필기 요약 강의가 도움이 되었습니다. 핵심 개념을 짧은 시간 안에 정리할 수 있었고, 이후 공식 홈페이지에서 확인한 출제기준과 관련 키워드에 정리할 때 연관된 부분을 쉽게 찾을 수 있었습니다.
- 기출문제 풀이: 인터넷에 공개된 기출문제를 모아 풀어보고, 틀리거나 어려운 문제는 Gen AI를 활용해 해설을 참고했습니다.
□ 실기 준비 방법 및 주요 사항
- 무료 강의 활용
- 코드 작성 연습: 소수점 자리수 맞추기, 제출 파일 양식 등 감점이 발생할 수 있는 부분을 확인하고 정리했습니다.
■ 10회 기출문제 주요 내용
시험 문제 및 답안 공유는 금지되어 있으므로, 출제 키워드 및 유형 위주로 정리했습니다.
□ 필기 출제된 주제
- 1과목: 빅데이터 분석기획
- 빅데이터 기술(JDBC, OLTP 등), 조직 구조(집중형 조직), 개인정보보호 원칙/처리 방법, 책임원칙, 프로젝트 단계별 진행 순서, 총계처리, 데이터 유형(정형/반정형/비정형), 플랫폼 인프라, 데이터 수집 방식(크롤링, FTP), 데이터 특성(완전성/ 일관성/정확성), 가명정보, 서비스 계층, 분석 단계, 데이터웨어하우스 특징(통합성/시계열성), 전이학습, 개인정보 최소화 원칙, 데이터사이언티스트 역할, WBS(작업분해구조), FGI(표적집단면접), 인공지능 학습 필요성
- 2과목: 빅데이터 탐색
- 변수 선택 기법, 이항분포, 표본-모평균 관계, Z-score, SVD/LSA, 사분위수 범위, 표본추출, 샘플링 방법, 점/구간추정, 왜도, 초기하분포, 피어슨 상관계수, 로지스틱 회귀, 파생/요약변수, 변수선택 검증, 데이터 정제, 분산분석(ANOVA), 공분산/독립성
- 3과목: 빅데이터 모델링
- 덴드로그램, ARIMA, 과적합 해결, 배깅/부스팅, 주성분분석, 모델링 목적, 초매개변수, 의사결정나무, 다중공선성, 정규성 검정, 부스팅, ReLU, 가지치기, 상관계수 해석, SVM, AutoEncoder, Attention, 다중분산분석, 로짓 변환, 데이터 품질 관리
- 4과목: 빅데이터 결과 해석
- 인포그래픽, Grid Search, 학습 곡선, 오차 곡선, SGD, 관계 시각화, LOOCV, 교차검증 반복수, MAPE 계산, 민감도, F1 score, Hold-out, 과적합, 직업전환 유의성, Lasso 희소성, 데이터 품질, 과적합 방지, 카토그램, 단계구분도(Choropleth map)
□ 실기 출제 유형 ( 모든 정답은 요구하는 소숫점 자리까지 입력 )
- 1유형: 데이터 전처리
- 1-1.소주제별 정답률 O 번째로 높은 값 구하기 (중복 정답률이 있는 경우, 그 다음의 정답률을 선택)
result = df.groupby('소문제')['정답여부'].mean().sort_values(ascending=False)
-
- 1-2. 1) 연월별 매출액 합계 중 O 번째로 큰 값 / 2) O 번째로 큰 연월의 범주별 매출액 중 최대값
df['date'] = pd.to_datetime(df['date'])
df['연월'] = df['order_date'].dt.strftime('%Y-%m')
monthly_sum = df.groupby('연월')['price'].sum().sort_values(ascending=False)
-
- 1-3. 레이블별 단어 수 평균 차이의 절대값
df['count'] = df['text'].apply(lambda x: len(x.split()))
print(df.groupby('label')[count'].mean())
- 2유형: 모델 구축 및 평가
- 결측치 처리 및 머신러닝 회귀 문제
target = train.pop('TARGET')
train = pd.get_dummies(train)
test = pd.get_dummies(test)
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state=0)
rf.fit(X_tr, y_tr)
from sklearn.metrics import mean_squared_error
pred = rf.predict(X_val)
rmse = mean_squared_error(y_val, pred, squared=False)
- 3유형: 통계적 분석 및 해석
- 3-1. 로지스틱 회귀(Logit) 해석
from statsmodels.formula.api import logit
models = logit('종속변수명 ~ 독립변수명1 + 독립변수명2 + ...', df).fit()
-
- 3-2. 선형회귀(OLS) 해석
from statsmodels.formula.api import ols
models = logit('종속변수명 ~ 독립변수명1 + 독립변수명2 + ...', df).fit()
728x90
