자격증/빅데이터분석기사

[빅분기] 빅분기 실기 필답형 모으기

mabb 2021. 11. 11. 08:28
반응형

필답형은 교재의 내용과 색인(index)를 기반으로 정리하기
용어 / 뜻 (뜻 가리기)
뜻/ 용어 (용어 가리기) 로 복습하기 용이하게 하자


블로그에서 퍼옴
----------------------------------------------------------------------------------------
[출처] 빅데이터분석기사 실기 단답형 정리 1 (21.06.09)|작성자 Yoon
01. 시계열 분석에서는 주어진 자료가 정상성을 만족해야한다. 비정상시계열을 정상시계열 자료로 바꾸기 위해, 평균이 일정하지 않은 경우 현시점에서 이전 시점의 자료를 빼는 방법을 무엇이라고 하는가?
답. 차분(Difference)
02. 기업의 합리적인 의사결정을 방해하는 요소로서 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상을 무엇이라고 하는가?
답. 프레이밍 효과(Framing Effect): 기업의 합리적인 의사결정을 방해하는 요소인 고정 관념, 편향된 생각
03. 표본 추출 방법 중 질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로 유사한 원소끼리 몇개의 층으로 나누어 각 층에서 랜덤추출하는 방법은 무엇인가?
답. 층화 추출법(Stratified Random Sampling)
* 군집 추출법(Cluster Sampling): 모집단을 여러 군집으로 나누고, 일부 군집의 전체 또는 일부를 추출하는 방식, 내부적으로는 이질적, 외부적으로는 동질적인 방법
** 표본조사에는 확률표본추출과 비확률표본추출로 나뉘는데, 확률표본추출로는 단순 무작위 표본 추출, 체계 표본 추출, 층화 표본 추출, 군집 표본 추출이 있다. 비확률표본추출은 편의표본추출, 판단표본추출, 할당표본추출이 있다. 시험에는 확률표본추출법이 나올 가능성이 크므로 볼드 처리한 추출법에 대해 익히자.
04. 군집 타당성 지표(Clustering Validity Index) 중의 하나로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하며 계산된 결과는 -1에서 1사이의 값을 가지고, 군집 분석이 잘 된 경우 1에 가까운 값을 가지는 지표는 무엇인가?
답. 실루엣(Silhoutte)
* 실루엣 지표는 -1과 1사이의 값을 가진다. 군집 내의 데이터의 거리가 짧을수록, 군집 간의 거리가 멀수록 값이 커진다.
1에 가까울수록 군집화가 잘 되어있고 -1에 가까울수록 군집 결과가 타당하지 않을 것으로 해석한다. 일반적으로 실루엣 지표가 0.5 이상일 경우 군집결과가 타당한 것으로 해석한다.
** 1과 -1 사이의 값을 가지는 것 중 대표적인 것이 피어슨 상관계수(Correlation coefficient)인데, 상관계수는 '전체 편차 내에서 예측치와 평균치 간의 차이가 차지하는 비율'로 편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이 로 계산할 때 (예측값과 실제 값의 차이) / (전체 편차)의 비율을 계산해 상관관계를 계산한다. 따라서 군집 내의 응집도와 상관계수는 관계가 없음!
05. 의사결정나무의 형성 과정 중 끝마디가 너무 많을 경우, 모형이 과적합(Over-fitting) 되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않게 되는 문제가 발생한다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려해 적절한 수준의 ( ) 규칙을 제공해 주어야 한다.
답. 가지치기
* 정지규칙과 가지치기의 개념 차이를 알아야한다. 가지치기는 MSE(평균제곱합)이 언급됨을 알아두자.
정지규칙: 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록하는 여러가지 규칙. 정지규칙에 사용되는 지수로는 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱 검정 통계량, 지니지수, 엔트로피지수 등이 언급됨을 알아두자.
** 종속변수의 형태에 따라 분류기준에 사용되는 지표가 다르다.
종속변수가 이산형일 경우: CHAID(카이제곱 통계량), CART(지니 지수), C4.5(엔트로피 지수)
종속변수가 연속형인 경우: CHAID(ANOVA-F 통계량), CART(분산감소량)
06. 인공신경망에서 가중치 매개변수 기울기를 미분으로 계산하면 시간 소모가 크다. 이를 개선하여 오차를 출력층에서 입력층으로 전달하고, 연쇄법칙을 활용해 역전파를 통한 가중치와 편항을 갱신(Update)하는 것은?
답. 오차역전파(Error Back Propagation)
* 역전파 알고리즘: 인공신경망을 학습시키기 위해 사용하는 일반적일 알고리즘이다. 인공신경망을 학습시킨다는 것은 출력값과 실제값의 오차가 최소가 되는 가중치와 편향을 찾는 것을 의미한다. 오차가 본래의 진행 방향과 반대 방향으로 전파된다는 의미에서 역전파 알고리즘이라고 부른다. 역전파 알고리즘은 출력층에서 결정된 결곽값의 오차를 출력층에서 입력층으로 역으로 전파하며 오차가 최소가 되게 가중치를 갱신한다. 오차를 먼저 계산한 후 이 오차가 작아지는 방향으로 가중치를 조절하므로 입력층부터 모든 경우의 수에 대해 가중치를 계산하는 기존 방식보다 최적화 과정이 빠르고 정확하다(출처: 이지패스 2021 빅데이터분석기사 필기 3과목 빅데이터 모델링 380p).
** 경사하강법(Gradient Descent): 인공신경망에서 오차함수의 낮은 지점을 찾아가는 최적화 방법으로 낮은 쪽의 방향을 찾기 위해 오차함수를 현재 위치에서 미분한다. Step이 크면 최솟값을 지나칠 수 있고, 너무 작으면 최솟값까지 오랜 시간이 소요되므로 일반적으로 서로 다른 초기값을 주어 내려가게 한다.
07. 코호넨에 의해 제시된 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 군집분석방법은?
답. SOM(Self-Organizing Maps), 또는 자기조직화지도, 코호넨 맵: 가까운 뉴런은 더 가깝게, 먼 뉴런은 더 멀게 가중치를 조정해가며 군집을 형성하는 방법으로 인공신경망이 역전파 알고리즘을 통해 여러 단계의 피드백을 거치며 가중치를 학습하는 것과는 달리, SOM은 하나의 전방패스를 사용해 속도가 빠르고, 그에 따라 잠재적으로 실시간 학습 처리가 가능한 모델
* 비계층적 군집: K-means 군집, DBSCAN(Density Based Spatial Clustering of Application with Noise), 가우시안 혼합 모델, SOM
08. 버섯을 구매한 고객이 치즈도 구매할 연관성에 대해 분석할 때 지지도, 신뢰도, 향상도는 무엇인가?

지지도: P(A 교집합 B) / P(전체 거래 수)
신뢰도: P(A 교집합 B) / P(A)
향상도: P(A 교집합 B) / P(A) * P(B)
답.
지지도 = 300 / 1200 = 0.25
신뢰도 = 0.25 / 0.33 = 0.75
향상도 = 0.25 / (0.33 * 0.66) = 1.125
09. 사용자가 다차원으로 이루어진 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 시스템은 무엇인가?
답. OLAP(Online Analytical Processing)
* SCM(Supply Chain Management): 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재구매, 생산/재고, 유통/판매, 고객데이터로 구성되는 정보시스템
** CRM(Customer Relationship Management): 기업의 내부 데이터로써 소비자들은 자신의 고객으로 만들고, 이를 장기간 유지하고자 내부 정보를 분석하고 저장하는데 사용하는 정보시스템
10. 회귀모형의 계수를 추정하는 방법으로 잔차의 제곱합을 최소화하는 계수를 찾는 방법을 무엇이라고 하는가?
답. 최소제곱법(Least Square Mathod): 최소제곱법은 값을 정확하게 측정할 수 없는 경우에 근사적으로 값을 구하는 방법으로 회귀모형의 계수를 추정할 때 사용된다.
11. 아래와 같이 오분류표가 주어질 경우에 대한 재현율(Recall)을 구하는 공식을 쓰시오.

답. TP / (TP + FN) = 1 / (1 + 3)
* 혼동행렬(Confusion Matrix)를 통해 다양한 평가지표를 계산할 수 있다.
정확도(Accuracy) = (TP + TN) / (TP + TN + FP + FN)
정밀도(Precision) = TP / (TP + FP): Positive로 분류한 것 중 실제 Positive의 비율
재현율(Recall) = TP / (TP + FN): 실제 Positive 중 Positive로 분류한 비율
재현율은 민감도(Sensitivity), 참긍정률(TPR)로 불리기도 한다.
특이도(Specificity, TNR) = TN / (TN + FP): 실제 Negative 중에서 실제 Negative인 비율
거짓긍정률(FPR) = 1- TNR = FP / (TN + FP): 1 - 특이도, 실제 Negative 중에서 실제로는 Positive인 비율
F1-score = 2 * (Precision * Recall) / (Precision + Recall)
12. 다음은 인공신경망에서 무엇에 대한 설명인가?
인공신경망 학습에서 최적의 가중치 매개변수 값을 찾기 위한 지표로 이것을 사용한다.
인공신경망의 학습은 이것이 최소가 되도록 하기 위해 가중치와 편향을 찾는 것이다.
출력한 값과 실제 값과의 오차에 대한 함수이다.
이것으로 평균제곱오차 또는 교차엔트로피 오차를 활용한다.
답. 손실함수(Loss Function)
13. 텍스트 마이닝의 전처리 과정에서 어형이 번형된 단어로부터 접사등을 제거하고 그 단어의 원형 또는 어간을 분리해 내는 것을 무엇이라고 하는가?
답. 스테밍(Stemming)
14. 다음은 앙상블 모형에서 무엇에 대한 설명인가?
원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기(Classifier)를 생성한 후 그 결과를 앙상블하는 기법이다.반복추출 방법을 사용하므로 같은 데이터가 한 표본에 여러 번 추출되거나 데이터가 추출되지 않을 수도 있다.
답. 배깅(bagging)
* 앙상블 모형 중 데이터를 조정하는 가장 대표적인 방법에는 배깅과 부스팅이 있다.
- 배깅: 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 기법이다.
- 부스팅: 배깅의 과정과 유사하나 부트스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출하는 기법니다.
15. R언어에서 apriori 함수를 활용해 생성한 연관규칙을 확인할 수 있는 함수는 무엇인가?
답. inspect
16. 실제로 부정인 범주에서 부정으로 올바르게 예측한 비율로, TN / (TN + FP)의 계산식을 갖는 혼동행렬 지표는 무엇인가?
답. 특이도(Specificity)
* 정밀도(Precision): 긍정으로 예측(TP + FP)한 것 중 TP의 비율
* 민감도(Sensitivity): 실제 긍정(TP + FN)인 것 중 TP의 비율
* 특이도(Specificity): 실제 부정(TN + FP)인 것 중 TN의 비율
* 거짓긍정률(FPR): 1 - Specificity, 실제 부정인 것 중 FP의 비율
17. 다음은 회귀분석에서 어떤 문제에 대한 설명인가?
- 독립변수들간에 높은 선형관계가 존재할 때 발생하는 문제이다.
- 회귀분석에서 결정계수값이 높아 회귀식의 설명력은 높지만, 각 독립변수의 p-value값이 커서 개별 인자들이 유의하지 않은 경우 이 문제가 발생할 수 있다.
- 분산팽창요인(VIF; Variance Inflation Factor)이 10을 넘는 경우 발생하는 문제이다.
- 상관관계가 높은 독립변수들 중 하나 혹은 일부를 제거하여 이 문제를 해결한다.
- 주성분분석(PCA) 방법을 이용하여 설명력이 높은 변수를 선택하여 이 문제를 해결한다.
답. 다중공선성
* 다중공선성이 있을 경우 문제 해결 방법:
1. 상관관계가 높은 독립변수를 제거한다.
2. 변수를 변형시키거나 새로운 관측치를 이용한다.
3. 주성분분석(PCA)을 이용해 설명력이 높은 변수를 선택한다.
18. 군집 내의 오차제곱합(MSE)에 기초해 군집을 수행하는 방법으로 군집의 병합으로 인한 오차제곱합의 증가량이 최소가 되는 방향으로 군집을 형성하는 군집 간 거리 측정 방법은 무엇인가?
답. 와드연결법(Ward Linkage Method)
* 군집간 거리측정 방법:
1. 단일연결법(Single Linkage): 최단연결법, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 작은 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해나가는 과정. 고립된 군집을 찾는데 효과적이다.
2. 완전연결법(Complete Linkage): 최장연결법, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 큰 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 과정, 내부 응집성에 중점을 둔 방법으로 둥근 형태의 군집이 형성된다.
3. 평균연결법(Average Linkage): 모든 가능한 관측치 쌍 사이의 평균 거리를 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 계산량이 불필요하게 많아질 수 있으며, 단일연결법, 완전연결법보다 이상치에 덜 민감하다.
4. 중심연결법(Centroid Linkage): 각 군집의 중심점 사이의 거리를 거리로 정의한 방법, 평균연결법보다 계산량이 적고, 모든 관측치 사이의 거리를 측정할 필요 없이 중심 사이의 거리를 한 번만 계산한다.
5. 와드연결법(Ward Linkage): 군집의 평균과 각 관측치 사이의 오차 제곱 합의 크기를 고려한 방법. 군집의 병합으로 인한 MSE 합의 증가량이 최소가 되는 방향으로 군집을 형성. 군집 내 분산을 최소로 하기 때문에 좀 더 조밀한 군집이 생성될 수 있다.
19. 평균으로부터 t-Standard Deviation만큼 떨어져 있는 값들을 이상값(Outliet)으로 판단하고 t를 3으로 하는 이상값 검색 알고리즘은 무엇인가?
답. ESD(Extreme Studentized Deviation: 극단적 스튜던트화 편차)
20. 연관성 분석에서 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관 규칙 내 항목의 연관성 정도를 측정하는 척도는 무엇인가?
답. 향상도(Lift)
* 지지도: 전체 거래 중 A, B를 동시에 포함하는 비율 ( A -> B 라고 하는 규칙이 전체 거래 중 차지하는 비율을 통해 연관규칙이 얼마나 의미가 있는 규칙인지를 확인하는 척도 )
* 신뢰도: A 상품을 거래했을 때, B상품을 살 조건부 확률에 대한 척도 ( 상품 A를 구매했을 때, 상품 B를 구매할 확률이 어느정도 되는지에 대한 척도 )
* 향상도: A가 주어지지 않았을 때 B 확률 대비 A가 주어졌을 때 B의 확률 증가 비율 ( 규칙이 우연히 일어날 경우 대비 얼마나 나은 효과를 보이는지에 대한 척도 )
21. ( )은/는 사용자의 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스이다.
답. 데이터 웨어하우스(DW: Data Warehouse)
22. 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형으로 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 시계열 모형은 무엇인가?
답. 이동평균모형(MA; Moving Average)

---------------------------------------------------------------------------------------

반응형