자격증/빅데이터분석기사

[빅분기] 비전공 빅데이터 분석기사 3회차 실기 시험 후기

mabb 2021. 12. 5. 09:59
반응형


안녕하세요. 삶의 질을 높이기 위해 노력하는 영차영차입니다.
12월 4일 토요일에 있었던 빅데이터 분석기사 3회 차 실기 시험을 응시하고 왔습니다.
실기 시험은 직장 생활과 병행하여 약 한 달 정도 준비를 하였는데 시험의 결과를 떠나서
일단은 굉장히 후련한 기분입니다! 시험의 압박감이란..ㅜ
시험 일주일 전부터 '제발 합격하게 해주세요' 기도를 수시로 하였는데 좋은 결과가
있으면 좋겠습니다..

3회차 실기 시험

필답형이 가장 어려움. 일반적으로 사용하는 한글(띄어쓰기 x)또는 영어로 답변을 해야 함. 뭔가 애매한 설명이라 이게 더 세부적인 용어를 묻는 것인지 포괄적인 개념을 묻는 것인지 헷갈림. 예를 들면 이게 정규화에 대한 설명인 건지 민 맥스 정규화에 대한 설명인 건지.. 공부가 부족한 탓이라고 생각함. 연관 규칙 분석(지, 신, 향), 앙상블, 신경망 계산문제 등등이 출제됨. 작업형 1의 난이도는 생각보다 쉬웠음. 결측치를 행 제거한 df를 훈련 데이터 세트로 하고 특정 칼럼의 통계치 구하기. 특정 행의 평균치보다 값이 큰 칼럼 구하기.transpose를 써줌. 특정 조건을 만족하는 값을 가지는 인덱스명을 추출하기 idxmax를 써봄 등등. 문제와 실제 데이터 세트의 칼럼명이 다른 오타 에러가 있었음. 시험환경에서 오른쪽 아래에 챗봇처럼 질문할 수 있는 기능이 있는데 큰 의미가 없었음. 작업형 2 유형의 경우 테스트 데이터 상에 인덱스가 있는데 숫자가 무작위였고 문제에서 요구하는 csv파일의 예시는 인덱스가 0~496까지로 정돈되어 있었음. 기존의 2유형 예시문제에서는 cust_id번호를 유지하도록 제시하였기 때문에 헷갈렸음.데이터 세트에서 제공하는 인덱스를 유지하느냐 예시처럼 인덱스 번호를 초기화하느냐에 대해 질문을 하였으나 예시랑 똑같이 하세요 문제대로 하세요 라는 의미 없는 답변만 돌아옴. 작업형 2 유형은 40점인데 제출한 csv파일의 형식이 달라서 roc_auc 채점이 제대로 돌아가지 않을 경우 0점 처리된다는 무시무시한 주석이 달려있음. 일단은 예시와 똑같은 형태로 어떻게 만들어서 제출하였는데 잘 한 건 지 아직 확신은 없음. 특성치는 결측치가 없고, 범주형 변수가 5개 정도 나옴. groupby를 이용하여 범주형 변수와 레이블 값의 연관성을 비교해보았으나 그냥 전부다 pd.get_dummies 해서 변환해버림. 수치형 변수끼리의 값 차이가 커서 (나이, 소득) 민 맥스 스케일링함. 트레인 데이터셋을 train_test_split 하여 랜덤 포레스트로 돌려 트레인스 코어 0.86 테스트 스코어 0.83 나오는 것을 확인하고 작업 마무리.
모델을 적용하는 것보다 문제에서 요구하는 파일형식으로 다듬어서 제출하는 것이 더 어려웠음.
제2유형이 40점인데 형식이 안 맞으면 0점처리니 60점을 맞으려면 필답형과 1 유형을 다 맞아야 함. 하지만 필답형은 5개 정도 맞은 것 같고 1 유형은 왠지 다 맞은 거 같은 기분이라 2 유형에서 15점 정도만 나와주어도 좋을 것 같음.




 

1. 공부 기간 : 약 한 달, 하루 4~6시간


필기 시험의 결과를 확인하고 며칠 쉬다가 2021년 11월 1일부터 공부를 시작하였습니다.
직장 생활과 병행을 하였기 때문에 아침 5~6시에 일어나서 출근 전까지 약 1~2시간의 시간,
퇴근 후 12~1시 까지 약 3~4시간의 시간을 공부하고자 계획하였습니다. 코 앞에 닥치면 불태우는 스타일이라
시험 1주전까지는 계획보다 느슨하게 실행하였고 D-7일부터는 출근해서 점심시간에도 공부를 하였습니다.
약 한 달 동안 나름 열심히 노력한 것을 이렇게 되돌아보니 불합격하면 정말 억울할 것 같습니다. 그래도 떨어지면
내년 5~6월 쯤에 있을 4회 차 실기시험에 재도전하면 되고! 자격증 공부 덕분에 파이썬을 익히게 된 것이 중요한 아주 중요한 수확이라고 생각합니다.

2. 교재 : 하나의 교재에 과대 적합되는 것을 방지

 

자격증 공부를 위해 본 교재들의 모습

지난 필기시험은 책 값을 아끼고자 하나의 교재만 구매하여 공부를 하였습니다. 그리고 시험장에서는 아예 모르는 개념들이 나와서 좌절을 하였었습니다. 정말 운이 좋아 합격한 것이라 실기시험에서는 그래도 후회 없이 공부해보자는 생각을 해서 관련된 교재는 보이는 대로 다 구매를 하였습니다! (서점에 갈 시간을 아끼고자 쿠팡으로 배송을 시켰습니다.)

1) 데이터 캠퍼스 빅데이터 분석기사 자격증 과정_ 실기

장점: 처음부터 차근차근 따라하면 파이썬을 익히기 좋다. 뭔가 직접 설명해주는 듯한 흐름
단점: 오타가 많고 좀 더 어려운 기능으로 설명하는 경향이 있다. 필답형 내용이 없다. 기출문제가 없다.
ex) 교재에서 소개하는 18개의 머신러닝 알고리즘이 다 중요하진 않음. GridSearchCV, RandomSearchCV 설명 부분 등
: 가장 먼저 공부한 교재입니다. 데이터 캠퍼스 교재는 필답형에 대한 내용이 없습니다. 해당 교재로 작업형을 준비하고 필기 교재로 필답형을 준비할까 했는데 필기 교재에서 용어를 뽑아내자니 너무 양이 많아서 비효율적이라고 생각하였습니다. 파이썬의 기초인 자료형, IF문, 반복문에서 시작하여 넘 파이, 판 다스로 넘어가고 이후 작업형 2 유형에 초점을 맞춘 내용들로 구성이 되어 있습니다.
책의 후반부에는 머신러닝 알고리즘 18개에 대해 소개하고 각각의 알고리즘 별 적용 방법에 대한 설명이 나와있습니다.

파이썬을 제대로 공부해본적이 없기 때문에 해당 교재의 예제들을 하나하나 직접 타이핑해보고 예제에서 생기는 궁금증들을 직접 테스트해보고 구글링 하는 방법으로 기본 문법을 익혔습니다.
뒷 부분의 2 유형의 세부 절차와 각각의 알고리즘에 대한 내용, 하이퍼 파라미터 조정과 교차검증을 위한 그리드 서치나 랜덤 서치에 대한 부분은 잘 이해가 가지 않아서 어려웠습니다. 그래서 교재에서 제시하는 코드의 형식을 달달 암기하는 것을 목표로 하고 분류 / 회귀 문제에 대해서만 적당한 모델을 적용해보고자 하였습니다.
2유형 작업을 따라 하고 교재 중간중간의 설명의 내용을 곱씹어보는 과정에서 필기시험에서 두리뭉실했던 개념들을 제대로 잡을 수가 있었습니다. 필기시험에서는 훈련 데이터, 테스트 데이터, 검증 데이터에 대해 공부할 때 도대체 이게 뭔 소리인가 했는데 실제로 작업을 해보니 자연스럽게 알게 되었습니다.

2) 수제비 빅데이터분석기사 실기_필답형+작업형

장점: 필답형이 있다. 필답형의 내용이 디테일하게 들어간다. 기출문제가 많아서 좋다. 작업형 1,2 유형 예시문제가 많다.
단점: 파이썬이 아니라 R이다.
: 데이터 캠퍼스 교재에 필답형이 없기때문에 구매한 교재입니다. 필답형에 대한 내용이 디테일하여 좋았습니다. 작업형에서도 파이썬이 아니라 R로 설명하고 있지만 문법적인 부분을 제외한 개념적인 부분들은 도움이 되었습니다. 시험 3~4일 전부터 필답형의 용어를 엑셀에 정리하였고 단원마다 있는 확인 문제와 교재의 부록으로 첨부되어있는 기출문제를 모두 풀어보았습니다. 작업형 같은 경우도 파이썬으로 풀어보고 답을 맞혀보는 식으로 공부를 할 수 있어 좋았습니다. 하지만 직접 풀어본 것과 문제의 답이 다른 경우가 종종 있었는데 파이썬의 풀이 과정이 아니라 아쉬웠습니다.

3) 프리렉 빅데이터분석기사 실기

장점: 가장 비전공 초보자 입장에 적합한 교재. 필답형의 개념을 도식화하여 이해를 도운 점이 좋았다.
작업형 1유형의 예제가 출제경향과 유사하고 데이터 캠퍼스에 비해 파이썬에서 더 쉬운 기능으로 설명을 해준다.
단점: 수제비에 비해 필답형의 내용이 조금은 얕음.

: 쿠팡 배송 지연으로 시험 5일 전에 도착하였습니다. 비전공 초보자의 눈높이에 맞춘 교재라서 도움이 많이 되었습니다. 데이터 캠퍼스에서는 np.where 함수나 lambda, for문 등을 많이 쓰는데 프리렉 교재에서는 조금 더 쉬운 기능으로
예시문제를 풀어주어 좋았습니다. 그리고 가장 좋았던 것은 그리드 서치나 랜덤서치는 시험환경에서 부적합하므로
아예 배제하라고 기준을 제시해 준 것입니다. 시험에 합격할 수 있는 수준에서 가장 쉬운 방법으로 공부하는 것이 가장 효율적인데 해당 교재에서는 그런 부분들을 잘 집어주고 있습니다.

3. 공부 방법

 

1. 작업형

1) 데이터 캠퍼스 예제 하나하나 따라하여 파이썬 기초를 익힘. 2 유형의 과정을 달달 암기하기 교재에서 제시하는 18개의 머신러닝 알고리즘을 분류/회귀/ 비지도 학습으로 구분함
2) 정말 도움이 많이된 사이트 / 데이터 마님 (www.datamanim.com)에서 제공하는 빅 분기 기초 예제를 따라 함

3) 프리렉 교재를 통해 조금 더 쉬운 방법으로 시험에 불필요한 어려운 부분들은 배제함. 작업형 1 유형 예시문제 3번 반복 , 2 유형 코드 암기. 주력 모델은 회귀와 분류 모델 모두 랜덤 포레스트만 사용하기로 다짐함.
프리렉 교재에서는 XGboost를 추천하던데 초두효과랄까... 데이터 캠퍼스 교재에서 소개하지 않은 알고리즘이라 왠지 머리에 들어오지 않았음.

2. 필답형

1) 수제비 교재 속독 1회. 이후 용어-키워드 엑셀 정리
2) 프리렉 교재 필답 속독 2회 , 이후 용어- 키워드 엑셀 정리
3) 엑셀에 정리한 필답형 용어 약 500개 키워드 보고 용어 생각하는 식으로 복습 3회
용어가 너무 많고 용어설명 자체가 이해가 안 가는 경우가 많아서
특정 칼럼 고속화? kudu , 로우데이터 저장소? 데이터 레이크
이런 식으로 최대한 간결하고 넓고 얕은 방식으로 공부
#혹시 엑셀이 필요하시다면 댓글 남겨주세요, (필답형+ 함수 + 사이킷런 패키지 정리해두었습니다.)
(*당분간 즉시 확인이 어려워서 엑셀파일 공유는 잠시 중단하겠습니다. 추후에 여유가 있을 때 더 깔끔하게 정리해보고자 하는 욕심도 있습니다!)

엑셀정리

 

3. 배운 점


시험 준비를 떠나서 데이터를 분석하는 것 자체가 신기하고 재미있었습니다. 여러 가지 피쳐를 통해 특정한 결과를 예측할 수 있는 모델을 만들 수 있다는 것이 흥미로웠네요. 도대체 사람들은 어디까지 발전할 것인지 신기하였습니다.
빅데이터 분석기사 실기시험을 준비하면서 좋았던 것은 1) 영문 타자가 익숙해졌다. 2) 파이썬이 나름 익숙해졌다는 점입니다. 자격증을 준비하면서 익힌 것을 토대로 주식이나 부동산에 접목하여 유의미한 결과를 도출해보는 것을 개인적인 프로젝트로 진행해보아야겠다고 생각했습니다.

 

 

반응형